Les métadonnées

Cette page décrit le modèle de description utilisé dans le catalogue COCOON pour les ressources de l'entrepôt.

Les métadonnées sont des informations à propos d'autres informations. On les apelle aussi des descripteurs. Dans les bibliothèques classiques, les documents sont décrits à l'aide de notices bibliographiques où l'on identifie les auteurs, les éditeurs, les titres, les dates de parution, etc. Ces notices sont utiles tant aux bibliothécaires pour la gestion de leur fonds, qu'aux usagers, pour retrouver un document.

Pour un document numérique, et plus particulièrement dans le cadre d'une diffusion par Internet, ces notices portent le nom de "métadonnées" et les documents celui de "ressources".

Les documents électroniques prennent de plus en plus d'importance dans notre vie quotidienne et leur nombre n'a fait qu'augmenter avec le temps. Rechercher un document dans la masse de ceux existants est devenue une tâche à la fois complexe et indispensable d'autant plus que cette recherche s'effectue maintenant dans des architectures distribuées. C'est dans ce contexte que les préoccupations de standardisation et de normalisation des pratiques de codage et d'échange de métadonnées trouvent leurs origines.

Les métadonnées dans COCOON

COCOON utilise le modèle OLAC pour décrire les ressources de son catalogue. Ce modèle OLAC est une extension du modèle du Dublin-Core qualifié, lui même basé sur le modèle du Dublin-Core simple. (Cf. les explications ci-dessous).

Dublin-Core simple

dublin-core logo En 1995, à Dublin (Ohio), des représentants de communautés diverses, issus du monde des bibliothèques, de l'informatique et du web, se réunissent pour définir un noyau commun de métadonnées: le Dublin Core Metadata Initiative (DCMI), abrégé souvent "Dublin-Core".

Le Dublin-Core est un ensemble de 15 descripteurs de portée très large et de sens très générique. Certains ont trait au contenu, d'autres à la propriété intellectuelle, d'autres enfin à l'instanciation. Cet ensemble de descripteurs a été normalisé au sein de l'ISO en 2003 sous le nom de "ISO Standard 15836-2003". Les 15 descripteurs sont les suivants: Contributor, Coverage, Creator, Date, Description, Format, Identifier, Language, Publisher, Relation, Rights, Source, Subject, Title, Type.

Dublin-Core qualifié

Les éléments de base du Dublin-core simple peuvent dans certains cas être jugés insuffisamment précis, il est alors possible d'utiliser un autre ensemble de "qualifiers" qui en précisent l'acception. Dublin-Core définit deux classes de qualifiers:

  • Les "refinements" qui rendent plus spécifique le sens d'un élément. Par exemple: à la place de l'élément date il est possible d'utiliser un de ces refinements: created, valid, available, issued, modified, dateAccepted, dateCopyrighted, dateSubmitted
  • Les schémas d'encodage, et les vocabulaires contrôlés comme par exemple le shémas "Point" qui permet de définir les propriétés d'un point géographique (coordonnées: longitude, lattitude, altitude, référentiel, nom).

Open Language Archive Community

oai logo OLAC est une organisation internationale regroupant un certain nombre d'institutions et d'individus préoccupés par le partage et la diffusion de ressources de nature linguistique. Le but d'OLAC est d'organiser cette communauté afin qu'elle puisse s'échanger facilement des documents. Pour cela OLAC depuis son démarage en 2000 a fait deux choix stratégiques: Celui du Dublin-Core qualifié auquel il a ajouté 5 attributs liés à des vocabulaires contrôlés pour en préciser le sens et l'adapter à la pratique de la communauté, et celui de l'OAI pour la diffusion de ces métadonnées. Les ajouts à Dublin-Core sont les suivants:

  • Un attribut language peut être ajouté aux éléments subject et language. Sa valeur doit être un des identifiants sur 3 caractères de la norme ISO 639-3.
  • Un attribut linguistic-field peut être ajouté à l'élément subject. Il doit prendre sa valeur dans une liste fermée (phonetics, phonology, pragmatics, psycholinguistics, ...)
  • Un attribut discours-type peut être ajouté aux éléments type et subject. (liste fermée)
  • Un attribut linguistic-type peut être ajouté à l'élément type (liste fermée)
  • Un attribut role peut être ajouté aux éléments contributor et creator. Il doit prendre sa valeur dans une liste fermée (recorder, researcher, signer, singer, speaker, transcriber, translator, ...)

Pour organiser la communauté, OLAC assure le rôle (au sens OAI) d'aggrégateur ainsi que celui de fournisseur de services. En effet OLAC maintient une liste de fournisseurs de ressources (dont Coccon fait partie) qu'il moissonne régulièrement, dont il évalue la qualité des descriptions (statistiques ) et sur laquelle il offre un moteur de recherche (OLAC Language Resource Catalog ).

Références

  • Site du Dublin-Core
  • Site d'OLAC
  • Site d'ethnologue (pour trouver les identifiants ISO 639-3 des langues)
  • Site d'OAI