Formats des ressouces

Cette page définit les formats qui sont utilisées dans Coccon pour représenter les informations sonores, vidéos ou textuelles que ce soient ceux qui sont acceptés en entrée, ceux qui sont utilisés pour leur conservation et ceux qui sont utilisés pour leur diffusion.

Les formats acceptés en entrée

  • Pour les documents audio: WAV et FLAC.

    Le format WAV sera préféré, excepté pour les fichiers de grande taille (dépassant la limite pratique ou théorique du format, soit 2 à 4Go). Le format FLAC sera utilisé dans les autres cas. Pour le format WAV l'encodage devra être PCM (Pulse-Code modulation) c'est-à-dire sans compression. D'autres formats et codages sont également envisageables, mais dans la mesure où ces 2 formats permettent d'exprimer leur contenu sans perte ni ajout d'information, ce sont eux qui seront privilégiés et c'est vers ces formats cible que les fichiers dans d'autres formats seront convertis.

  • Pour les documents vidéo: MPEG-4 et MKV.

    Le format conteneur MPEG-4 devra contenir un flux vidéo encodé en H.264 (également appelé AVC) et éventuellement un flux audio encodé en AAC. Le format MKV (également appelé Matroska) devra contenir un flux vidéo encodé en H.264 (également appelé AVC) et éventuellement un flux audio encodé en FLAC. D'autres formats et codages sont également envisageables, mais dans la mesure où ces deux formats peuvent exprimer leur contenu, c'est vers un de ces 2 formats cible que les fichiers dans d'autres formats seront convertis.

  • Pour les documents d'annotations:

    Ces annotations peuvent comprendre de manière non exclusive : des transcriptions, des traductions, des informations de mise en scène, des informations sur le déroulement temporel, des mesures physiologiques liées à la voix comme des électroglottogrammes... Pour que ces informations soient utiles à la compréhension de l'enregistrement et des analyses qui ont pu en être faite, il convient de leur donner une forme la plus explicite et normalisée possible. Dans les possibilités de formatage et par ordre de préférence, ils pourront être codées sous les formes de:

    • un document XML encodé en UTF-8, utilisant de préférence des standards (TEI, TalkBank...) ou des schémas ou DTD manipulés par des outils répandus (ELAN, transcriber) ;
    • un document Text seul encodé en UTF-8, de préférence utilisant des conventions connues (comme par exemple le format CHAT du projet CHILDES, utilisé dans l'outil CLAN) ;
    • un document PDF, utilisé comme un format conteneur pour des images numérisées d'originaux sur des supports papier.
    • Pour les électroglottogrammes (EGG), le format WAV/PCM

Les formats de conservation

Les formats de conservation sont ceux qui sont conseillés comme format d'entrée (listés plus haut). Les autres formats acceptés passeront par une étape de conversion vers ces formats et seul le fichier résultant sera conservé.

Pour les fichiers audio, la responsabilité de la conservation ne concernant que les aspects audio des données, il est déconseillé de placer dans ces documents d'autres types d'information (métadonnées, jalons temporels, etc.). Ces autres informations devront être explicitées dans d'autres documents (métadonnées, annotations). Même chose pour les fichiers vidéo ou les seuls aspects audio et vidéo seront pérennisés.

Les formats de diffusion

  • Les données, dans leur format de conservation - qui représente la plus haute qualité de l'information dont on dispose - sont diffusées même si ces fichiers peuvent s'avérer suivant les cas très volumineux.

  • Pour les données audio, un fichier de diffusion au format MP3 dégradé en qualité est automatiquement dérivé à partir du fichier de conservation. Ce format a été choisi en raison du bon support de celui-ci par les navigateurs actuels dans le cadre de leurs implémentations de HTML5.

  • De la même manière que pour les données audio, les données vidéo sont diffusées en utilisant le format MPEG-4 (avec un bitrate bas et une taille réduite), format choisit en raison du bon support de celui-ci par les navigateurs actuels dans le cadre de leurs implémentations de HTML5.

  • Pour les annotations, les formats de diffusion sont:

    • le format de conservation
    • si possible, un format XML (dtd Transcriber ou Pangloss) permettant une consultation en mode web
    • pour les formats issus des logiciels Clan, Transcriber, Elan et Praat: un format XML/TEI produit par le logiciel TEI-CORPO afin de faciliter l'interérabilité. Les données au format XML/Pangloss sont également diffusées au format XML/TEI avec les outils Cocoon.

Liens

  • Text Encoding Intiative (TEI) :
  • Child Language Data Exchange System (CHILDES) :
  • "Guide méthodologique pour le choix de formats numériques pérennes dans un contexte de données orales et visuelles" sur FranceArchives
  • Loïc Liégeois, Carole Etienne, Christophe Parisse, Christophe Benzitoun, Christian Chanard. Using the TEI as a pivot format for oral and multimodal language corpora. Text Encoding Initiative Conference and Member's meeting 2015, Oct 2015, Lyon, France. Modèles, Dynamiques, Corpus - UMR 7114 (MoDyCo) (2016). teicorpo [Outil]. ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, https://hdl.handle.net/11403/teicorpo.