Structure d'un document d'annotations
Les consignes ci-dessous ne concernent que les fournisseurs de ressources à destination du portail "Corpus de la parole" sur le français et les langues de France. Un document d'annotations doit comprendre:
- Une transcription
- Un découpage de cette transcription en segments correspondant à des phrases ou des groupes de soufle.
- Les jalons temporels de ces segments
- Pour chaque segment, sa traduction en français (au moins pour les langues autres que le français)
<!ELEMENT TEXT (S)* > <!ATTLIST TEXT xml:lang NMTOKEN #REQUIRED> <!ELEMENT S (FORM|TRANSL|AUDIO)* > <!ATTLIST S xml:lang NMTOKEN #IMPLIED who CDATA #IMPLIED> <!ELEMENT TRANSL (#PCDATA) > <!ATTLIST TRANSL xml:lang NMTOKEN "en"> <!ELEMENT FORM (#PCDATA) > <!ATTLIST FORM kindOf (phono|phone|ortho) "phono"> <!ELEMENT AUDIO EMPTY > <!ATTLIST AUDIO start CDATA #REQUIRED end CDATA #REQUIRED>