Publication en « Linked Open Data »

Afin d'exposer les ressources de Cocoon en suivant les principes de publication du "Linked Open Data", les métadonnées ont été traduites dans une syntaxe RDF en s'inspirant du modèle du projet Europeana (EDM) et ont été alignées quand c'était possible et pertinent sur des référentiels externes.

Europeana Data Model (EDM)

Les grandes classes du modèle EDM utilisées dans Cocoon sont les suivantes:

  • Les enregistrements de parole sont considérés comme des objets du patrimoine culturel (edm:ProvidedCHO pour Cultural Heritage Object). Ces objets sont décrits à l’aide de métadonnées descriptives, essentiellement exprimées avec le vocabulaire du Dublin-Core. Il s’agit de propriétés comme le titre, les genres, les sujets, les dates, les contributeurs, etc.
  • Ces enregistrements de parole ont différentes représentations audio, vidéo ou textuelles (edm:WebResource). En général il y en a plusieurs: un fichier d’enregistrement audio ou vidéo en format "master" et le même en format de diffusion ainsi que parfois des annotations textuelles telles que des transcriptions, des traductions, etc. Ces représentations sont décrites par des métadonnées essentiellement techniques (type, durée, taille, format…)
  • L’objet du patrimoine culturel (edm:ProvidedCHO) est relié à ses représentations (edm:WebResource) par un objet de type agrégat (ore:Aggregation).
  • Un dernier objet de type edm:ResourceMap est lié à l’agrégat pour porter des informations de gestion (date de création, date de dernière modification…)
A ces grandes classes d’objets, s’ajoutent pour certaines propriétés descriptives, d’autres classes accessoires.
  • Les personnes qui ont contribué à la création d’un enregistrement de parole (quel que soit leur rôle: chercheur, interviewer, locuteur, traducteur, collecteur, etc.) sont de la classe edm:Agent et un concept leur ait associé pour fixer leur label préférentiel (sous forme de "Nom, Prénom"). Suivant les cas, l’identifiant utilisé pour la personne sera celui du référentiel VIAF (Fichier d'autorité international virtuel) si la personne a publié et est donc connue des bibliothèques participant à VIAF ou un identifiant interne à COCOON dans le cas contraire.
  • Les lieux d’enregistrement sont de la classe edm:Place. Cette classe permet de regrouper la description du lieu (pays, nom du lieu, coordonnées géographiques, etc.)
  • Les langues sont de la classe lexvo:Language qui porte un certain nombre de propriétés sur les langues, dont leurs identifiants au sein de différents référentiels, en particulier ceux de l’ISO-639-3 qui sert dans COCOON de pivot pour interroger d’autres bases de données sur les langues comme Glottolog ou WALS.
  • Les collections sont de la classe edm:Collection, elles sont structurées sur le même modèle que les enregistrements au détail près qu’elles sont pas de représentations associées.
La documentation technique sur la mise en oeuvre du modèle EDM dans Cocoon

Alignement sur des référentiels

Dans la mesure du possible, les valeurs présentes dans les métadonnées ont été alignées sur des référentiels externes. Les principaux référentiels utilisés sont:
  • Pour les auteurs: VIAF (Virtual International Authority File)
  • Pour les lieux géographiques: Geonames
  • Pour les langues: Lexvo
  • Pour les sujets: RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié)
Quelques alignements ont également été fait sur Dbpedia, TGN ou encore le LCSH.

Les outils de publication

Les métadonnées RDF sont stockées dans un triple-store (base de données spécialisée dans la gestion de ce type de données). Cette base de données est interrogeable par le protocole et langage de requête SPARQL .
L'outil LODView a été utilisé pour mettre en oeuvre les principes de publication préconisés pour ce type de données. Toutes les URI du modèles sont ainsi "déreferençables" et un mécanisme de redirection permet de délivrer pour une même URI sa description RDF (pour les machines) et une représentation HTML (pour les personnes).
Enfin le portail web de Cocoon interroge le triple-store pour construire une vision enrichies des métadonnées en tirant partie des alignements effectués et des informations présentes dans d'autres services utilisant les mêmes technologies de publication et les mêmes pivots référentiels (HAL, Abes, Dbpedia, BnF, Glottolog, etc.).

Références

  • Documentation sur "Europeana Data Model" (EDM)
  • Documentation technique sur la mise en oeuvre du modèle EDM dans Cocoon
  • Interface pour des requêtes en SPARQL
  • Exemple de page de publication par LODView de l'URI correspondant à l'enregistrement: "ESLO1: entretien 008"