Questions fréquentes (FAQ)

Questions d'organisation

Qu'est-ce que Cocoon?

Cocoon est un entrepôt de données spécialisé pour des enregistrements de parole. Ces données sont issues d'activités de recherche et peuvent être des enquêtes de terrain, des interviews, des expériences en laboratoire ou en milieu professionnel, etc. La ressource "primaire" est toujours un enregistrement audio ou vidéo. Celle-ci peut être accompagnée ou non de ressources d'annotations (par exemple des transcriptions, traductions, découpages chrono-thématiques, électroglottogrammes ou autres mesures physiologiques liées à la parole enregistrée, etc.)

Quelles sont les responsabilités du déposant?

Les données déposées sont et demeurent sous la responsabilité du déposant, qui doit donc s'assurer en amont qu'il dispose bien de tous les droits pour ce faire. Les éventuels recueils de consentement et déclarations de traitement de données à caractère personnel sont sous sa responsabilité et à son initiative.

C'est au déposant de déterminer quelles données peuvent être déposées, quelles informations descriptives doivent y être associées, sous quelles conditions ces données peuvent être accessibles à d'autres, sous quelles conditions elles peuvent être réutilisées. C'est notamment lui qui doit anonymiser ou pseudonymiser si besoin les informations. Il peut être guidé dans ses choix par son délégué à la protection des données, par ses comités d'éthique, ses financeurs, la politique de son établissement, etc.

Quelles sont les responsabilités de l'entrepôt Cocoon?

En tant que fournisseur de services, Cocoon s'efforce de garantir la disponibilité de l'entrepôt, en particulier le service d'accès aux données. Toutefois, Cocoon se réserve la liberté d'interrompre ses services pour des raisons de maintenance ou pour tout autre motif jugé nécessaire.

Cocoon n'intervient jamais sur les données, ni sur les métadonnées des déposants, sauf à leur demande et pour les aider dans la mise en oeuvre. Cocoon se réserve toutefois la liberté de normaliser lorsque nécessaire les descriptions et d'enrichir celles-ci par l'alignement sur des référentiels.

Qui peut déposer?

Tous les membres de la communauté des Sciences humaines et sociales de l'Enseignement Supérieur Recherche en France peuvent déposer dans Cocoon quelleq que soient leurs disciplines (Linguistique, Anthropologie, Ethnomusicologie, Histoire...).

Question sur les données

Quels types de données peuvent être déposés?

Les données qui peuvent être déposées doivent être issues d'activités de recherche. Elles peuvent être par exemple des enquêtes de terrain, des interviews, des expériences en laboratoire ou en milieu professionnel, etc. La ressource "primaire" est toujours un enregistrement audio ou vidéo. Celle-ci peut être accompagnée ou non de ressources d'annotations (par exemple des transcriptions, traductions, etc.)

Cocoon distingue 3 types principaux de ressources: les enregistrements, les annotations, les collections.

enregistrement
Un enregistrement peut être audio ou vidéo
annotations
Sont considérés comme annotations tout document (texte, image, pdf, etc.) qui apporte des commentaires ou des compléments d'information directe sur un enregistrement. Généralement, il s'agit de transcriptions, de traductions, de timecodes, d'indications "scénographiques", mais il peut s'agir aussi d'enregistrements de mesures physiologiques comme des électroglottogrammes, des mesures de la pression nasale, etc. Sont à exclure des annotations, les articles, documentations, illustrations qui doivent être déposés ailleurs (par exemple dans HAL) et qui peuvent faire l'objet d'une mention dans les métadonnées. Sont également à exclure les métadonnées elles-mêmes qui ont déjà leur place hors des documents d'annotations.
collection
Les enregistrements, les annotations ainsi que les collections peuvent être regroupés au sein de collections. Une collection est un regroupement de ressources pouvant être décrit comme un tout. Ces collections servent en particulier à circonscrire des corpus, des projets ou des fonds. La hiérarchie des sous-collections d'une collection représente son plan de classement. Il est déconseillé de faire des plans de classement thématiques (par langue, lieux, sujets, etc.) qui peuvent être facilement obtenus par du facettage avec les métadonnées. Il est plutôt préférable d'établir des plans de classement structurels comme le découpage d'un fonds en missions ou d'une activité en projets.

Quels sont les formats acceptés?

Que ce soit pour les enregistrements ou pour les annotations, Cocoon distingue des formats de conservation et des formats de diffusion. Les formats acceptés en entrée doivent être ou pouvoir se convertir dans les formats cibles de conservation. L'ensemble de ces formats est décrit plus précisément à la page Formats .

Questions sur les fonctionnalités de l'entrepôt?

Quels sont les services de l'entrepôt?

accès
Les notices des données (landing page) ainsi que les fichiers associés à ces notices (fichiers de diffusion et fichiers de conservation) sont accessibles en mode web à travers des URLs. Toutes ces URLs sont décrites plus précisément à la page sur les identifiants pérennes .

L'accès à ces fichiers peut être libre ou soumis à authentification. Ces conditions d'accès sont précisées dans les métadonnées.

dépôt
Les dépôts unitaires de données peuvent se faire par une interface d'administration accessible à toute personne ayant un compte utilisateur sur l'entrepôt. Pour les dépôts de lots volumineux de fichiers, des consignes de préparation de ses données et de leur description sont présentées sur la page Consignes pour les dépôts .
exposition

Les données (métadonnées et fichiers) sont exposées sur le portail web de l'entrepôt https://cocoon.huma-num.fr qui propose des interfaces de consultation multimédia ainsi que des fonctionnalités de recherche (recherche à facettes sur les métadonnées, recherche plein texte sur les annotations, recherche géographique sur les lieux d'enregistrement ou recherche dans les collections).

Les métadonnées sont également exposées à travers un point d'accès oai-pmh , un point d'accès sparql, une publication en mode web de données.

signalement
Les métadonnées sont automatiquement référencées auprès de plusieurs fournisseurs de services à travers le protocole oai-pmh , notamment auprès de Isidore, OLAC, CLARIN, openAIRE.
conservation
Les données (dans leur format de conservation) sont automatiquement versées dans le système d'archivage du CINES. Pour plus de détails, voir la page sur la pérennisation .

Est-ce qu'une donnée déposée peut être supprimée?

Les données une fois publiées ne peuvent plus être supprimées sauf cas de force majeure. Même dans les cas de suppression, une trace que la donnée a existé demeure à travers la déclaration de son DOI dont les métadonnées seraient alors réduites pour ne garder qu'une citation et la date de suppression. Il est possible en revanche et lorsque la situation le justifie de modifier la règle d'accessibilité des fichiers.

Est-ce qu'une donnée déposée peut être modifiée?

Les métadonnées peuvent être modifiées à tout moment. Les fichiers associés, eux, ne peuvent pas être modifiés mais il est possible d'en déposer de nouvelles versions. Toutes les versions demeurent accessibles mais c'est la dernière version qui est la version par défaut et qui sera mise en avant par l'ensemble des traitements (consultation, recherche).

Questions sur les métadonnées

Comment décrire ses données?

Les métadonnées doivent être décrites en suivant le modèle OLAC (Open Language Archive Community). Il s'agit d'une extension du modèle du Dublin-Core qualifié (voir la page métadonnées pour en savoir plus). Les métadonnées obligatoires sont le titre, le déposant, l'éditeur, la date de création, le type et le lieu d'enregistrements. Bien sûr, les déposants sont fortement encouragés à faire plus et mieux. Un guide de catalogage peut être consulté pour comprendre les catégories disponibles et leurs interprétations dans le cadre de Cocoon.

La saisie et la modification des métadonnées peut se faire par une interface d'administration accessible à toute personne ayant un compte utilisateur sur l'entrepôt. Pour des dépôts en lots, des consignes de préparation de ses données et de leur description sont présentées sur la page Consignes pour les dépôts . Pour des modifications en lots, il convient de prendre contact avec un administrateur de l'entrepôt.

Comment les métadonnées sont-elles exposées?

  • dans une interface web classique sur les pages des notices (landing page) du portail cocoon.huma-num.fr.
  • dans une interface en mode "Linked Open Data" .

Comment les métadonnées peuvent-elles être récupérées?

  • par simple lecture du contenu des pages des notices (landing page) du portail cocoon.huma-num.fr
  • dans le code des pages des notices (landing page) du portail cocoon.huma-num.fr sous forme de tags <meta> exprimés en différents vocabulaires du web sémantique (dublin-core, schema.org...)
  • en utilisant un outil comme Zotero et en lui passant le DOI de la donnée.
  • en utilisant le point d'accès oai-pmh . Les métadonnées peuvent être demandées en différents modèles (OLAC, Dublin-Core simple, Dublin-Core qualifié, Datacite)
  • en utilisant le point d'accès sparql. Les métadonnées sont alors exprimées dans le modèle EDM (Europeana Data Model). Outre l'enrichissement apporté par les référentiels utilisés (VIAF, RAMEAU, Lexvo, Geonames, Dbpedia...), ce modèle permet de rassembler au sein d'une même entité (Cultural Heritage Object), ses différentes représentations (enregistrements et annotations en formats de conservation ou de diffusion). Enfin il permet d'utiliser les référentiels comme pivots documentaires pour aller chercher des informations complémentaires dans d'autres entrepôts de données.
  • en utilisant l'exposition en "Linked Open Data" qui permet de récupérer les métadonnées exprimées avec le modèle EDM en diverses syntaxes.

Comment décrire les personnes (contributeurs, locuteurs)?

Pour identifier et décrire les personnes (essentiellement les déposants, chercheurs), Cocoon utilise le référentiel VIAF (Virtual International Authority File), mais pour les autres personnes qui ne sont pas forcément "publiantes" comme les locuteurs enregistrés, Cocoon entretient un référentiel interne permettant de les identifier de manière unique et de les décrire à l'aide de vocabulaires classiques dublin-core, foaf et schema.org. Pour l'utilisation de ce référentiel, il convient de passer par un dialogue avec un administrateur de l'entrepôt.

Questions sur les fichiers des données

Comment exposer les fichiers associés aux données en dehors de Cocoon?

Les fichiers associés aux données peuvent parfois être dans plusieurs formats (un format pour la conservation et un format pour la diffusion). Le format de conservation peut également, s'il a été modifié au cours du temps, être en plusieurs versions. A chacun de ces fichiers correspond une URL. Aux identifiants OAI des données (cf. la page identifiants pérennes pour plus d'explications) sont associées des URLs spécifiques qui permettent l'accès à ces différents formats :

conservation
http://purl.org/net/crdo/data/[identifiantOAI] (version courante)
http://purl.org/net/crdo/data/[identifiantOAI].version[n] (version spécifique avec n = 1, 2, 3....)
diffusion
http://purl.org/net/crdo/data/[identifiantOAI].diffusion (version courante)

Ces URLs peuvent être utilisées directement dans le code HTML de vos pages au sein de balises adaptées. Par exemple pour une vidéo: <video src="http://purl.org/net/crdo/data/[identifiantOAI].diffusion" autoplay="true" preload="auto" controls></video>

Une autre solution, pour les enregistrements (audio ou vidéo), consiste à insérer dans le code HTML de vos pages, le code d'intégration proposé sur les notices et qui affichera une visionneuse adaptée et des métadonnées minimales: <h:iframe src="https://cocoon.huma-num.fr/exist/crdo/xql/cocoon_iframe.xql?id=[identifiantOAI]" height="320" width="600"></h:iframe>

Comment télécharger les fichiers associés aux données?

  • Après avoir moissonné l'entrepôt avec le protocole oai-pmh , vous pouvez identifier dans les résultats les identifiants pertinents, construire les URLs pour cibler le format et la version souhaités, puis enfin télécharger ces URLs (par exemple avec des outils comme wget ou curl).
  • Après avoir effectué une recherche ciblée en utilisant les bonnes facettes, vous pouvez télécharger un fichier CSV qui listera pour cette sélection quelques critères dont les URLs pour télécharger les fichiers. Reste à télécharger ces URLs (par exemple avec des outils comme wget ou curl).
  • Vous pouvez exprimer votre recherche ciblée en utilisant le protocole sparql et récupérer par exemple la liste des URLs à télécharger. Reste à télécharger comme pour les solutions précédentes ces URLs (par exemple avec des outils comme wget ou curl).
  • Sur les notices des collections, vous pouvez directement demander à télécharger un zip de l'ensemble des fichiers de cette collection (seuls les enregistrements en format de diffusion et les versions courantes des annotations en format de conservation seront téléchargés. Attention, les volumes à télécharger peuvent être conséquents et entraîner des temps plus ou moins longs en fonction de la qualité de votre connexion.)

Questions diverses

Comment citer ses données?

Des identifiants de type DOI (Digital object identifier) sont attribués à chaque donnée. Ces identifiants peuvent être cités dans des publications pour faire référence aux données. Ces DOI sont affichés sur les notices des données et des formes de citations en sont proposées dans différents styles (APA, Harvard, Chicago...). Pour un plus large panel de formes de citations il est possible d'utiliser le portail citation.crosscite.org

L'authentification dans Cocoon?

Il existe pour l'instant deux types de comptes utilisés dans Cocoon:

  • Le compte Cocoon est un compte qui vous permet d'éditer les métadonnées de vos documents.
  • Le compte Huma-Num est utilisé par Cocoon pour ajouter aux déposants le droit de déposer des fichiers sur le serveur. Une authentification est donc demandée à la volée lorsque le déposant "uploade" un fichier sur le serveur. C'est aussi ce compte qui est demandé lorsqu'une personne accède à un fichier d'enregistrement ou d'annotations soumis à un contrôle d'accès.

La gestion de l'intégrité des données dans Cocoon

Pour assurer l'intégrité des données dans Cocoon, les fichiers, une fois normalisés et contrôlés, font l'objet d'un calcul d'empreinte. Ces empreintes sont stockées séparément des fichiers et vérifiées régulièrement. Des alertes sont envoyées et des procédures de récupération peuvent être déclenchées en cas d'altération détectée.

L'algorithme utilisé par Cocoon pour le calcul d'empreintes est MD5. Une fois les fichiers déposés au CINES, de nouvelles empreintes, calculées cette fois avec l'algorithme SHA-256 sont ajoutées.

Article de Wikipédia sur les empreintes numériques

Quelles licences s'appliquent?

Cocoon recommande, lorsque la situation le permet, d'utiliser les licences de type Creative Commons . Ces licences permettent de préciser finement ce qu'un utilisateur peut ou ne peut pas faire en termes de réutilisation de ressource (enregistrement, annotation). L'URL de la licence choisie est à indiquer dans les métadonnées dans l'élément Dublin-Core de même nom.

Les métadonnées sont, elles, systématiquement couvertes par la licence CC-BY-NC-ND-2.5 tel que déclaré en oai-pmh dans le champ metadataPolicy.

Les licences Creative Commons sont des contrats-type pour la mise à disposition d'oeuvres en ligne. Il s'agit d'autorisations non exclusives données par les titulaires des droits au public. Ces autorisations spécifient les conditions d'utilisation des oeuvres. Ces licences permettent en particulier de réserver les exploitations commerciales ainsi que les oeuvres dérivées et de conditionner la redistribution des oeuvres à la mention de leur paternité. Tout droit non cédé explicitement dans la licence peut être négocié directement avec les titulaires des droits.

Ce mouvement s'inspire de celui des logiciels libres, celui de "open source" ainsi que de "open access". L'organisation "Creative Commons" a été fondée en 2001 à la Stanford Law School sous l'impulsion du professeur en droit Lawrence Lessig (Cf. L'ouvrage de Lawrence Lessig: Free culture - How big media uses technology and the law to lock down culture and control creativity, 2004, au format PDF et bien sûr sous licence Creative Commons ). Les licences ont initialement été rédigées en anglais et en référence à la législation américaine sur le copyright. Par la suite, le projet "International Commons" a été mis en place avec pour objectif la traduction et l'adaptation des textes des licences pour faciliter leur application dans le monde tout en tenant compte des spécificités des législations nationales.