Formats des ressouces

Cette page définit les formats qui sont utilisées dans Coccon pour représenter les informations sonores, vidéos ou textuelles que ce soient ceux qui sont acceptés en entrée, ceux qui sont utilisés pour leur conservation et ceux qui sont utilisés pour leur diffusion.

Les formats acceptés en entrée

  • Pour les documents audio: WAV et FLAC.

    Le format WAV sera préféré, excepté pour les fichiers de grande taille (dépassant la limite pratique ou théorique du format, soit 2 à 4Go). Le format FLAC sera utilisé dans les autres cas. Pour le format WAV l'encodage devra être PCM (Pulse-Code modulation) c'est-à-dire sans compression. D'autres formats et codages sont également envisageables, mais dans la mesure où ces 2 formats permettent d'exprimer leur contenu sans perte ni ajout d'information, ce sont eux qui seront privilégiés et c'est vers ces formats cible que les fichiers seront convertis.

  • Pour les documents vidéo: MPEG-4 et MKV.

    Le format conteneur MPEG-4 devra contenir un flux vidéo encodé en H.264 (également appelé AVC) et éventuellement un flux audio encodé en AAC. Le format MKV (également appelé Matroska) devra contenir un flux vidéo encodé en H.264 (également appelé AVC) et éventuellement un flux audio encodé en FLAC. D'autres formats et codages sont également envisageables, mais dans la mesure où ces deux formats peuvent exprimer leur contenu, c'est vers un de ces 2 formats cible que les fichiers seront convertis.

  • Pour les documents d'annotations:

    Ces annotation peuvent comprendre de manière non exclusive : des transcriptions, des traductions, des informations de mise en scène, des informations sur le déroulement temporel. Pour que ces informations soient utiles à la compréhension de l'enregistrement et des analyses qui ont pu en être faite, il convient de leur donner une forme la plus explicite et normalisée possible. Dans les possibilités de formatage et par ordre de préférence, ils pourront être codées sous les formes de:

    • un document XML encodé en UTF-8, utilisant de préférence des standards (TEI, TalkBank...) ou des schémas ou DTD manipulés par des outils répandus (ELAN, transcriber) ;
    • un document Text seul encodé en UTF-8, de préférence utilisant des conventions connues (comme par exemple le format CHAT du projet CHILDES, utilisé dans l'outil CLAN) ;
    • un document PDF, utilisé comme un format conteneur pour des images numérisées d'originaux sur des supports papier.

Les formats de conservation

Les formats de conservation sont ceux qui sont conseillés comme format d'entrée (listés plus haut). Les autres formats acceptés passeront par une étape de conversion vers ces formats et seul le fichier résultant sera conservé.

Pour les fichiers audio, la responsabilité de la conservation ne concernant que les aspects audio des données, il est déconseillé de placer dans ces documents d'autres types d'information (métadonnées, jalons temporels, etc.). Ces autres informations devront être explicitées dans d'autres documents (métadonnées, annotations). Même chose pour les fichiers vidéo ou les seuls aspects audio et vidéo seront pérennisés.

Les formats de diffusion

  • Les données, dans leur format de conservation - qui représente la plus haute qualité de l'information dont on dispose - sont diffusées même si ces fichiers peuvent s'avérer suivant les cas très volumineux.

  • Pour les données audio, deux formats de diffusion dégradés en qualité sont également dérivés automatiquement à partir du fichier de conservation. Les formats choisi pour ces fichiers de diffusion sont des formats acceptés par les navigateurs actuels dans le cadre de leurs implémentations de HTML5. Il s'agit du format WAV (avec une fréquence d'échantillonnage basse: 22 KHz) et du format MP3.

  • De la même manière que pour les données audio, les données vidéo sont diffusées en deux formats choisit parmi ceux qui sont acceptés par les navigateurs actuels dans le cadre de leurs implémentations de HTML5. Il s'agit du format MPEG-4 et du format OGG avec un bitrate bas et une taille réduite.

  • Pour les annotations, le seul format de diffusion est le format de conservation, suivant les cas, il s'agira d'un fichier XML, Text seul ou PDF.

Liens

  • Text Encoding Intiative (TEI) :
  • Child Language Data Exchange System (CHILDES) :
  • "Guide méthodologique pour le choix de formats numériques pérennes dans un contexte de données orales et visuelles" sur la page des guides de la TGIR Huma-Num