Structure d'un document d'annotations

Les consignes ci-dessous ne concernent que les fournisseurs de ressources à destination du portail "Corpus de la parole" sur le français et les langues de France. Un document d'annotations doit comprendre:

  • Une transcription
  • Un découpage de cette transcription en segments correspondant à des phrases ou des groupes de soufle.
  • Les jalons temporels de ces segments
  • Pour chaque segment, sa traduction en français (au moins pour les langues autres que le français)
Dans la mesure du possible, cette annotation devra être communiquée dans une forme normalisée en XML ou pour le moins dans une forme la plus régulière possible afin que l'on puisse la normaliser en XML. Pour ceux qui travaillent sur du français et ne livrent qu'une transcription orthographique une structure telle que celle produite par le logiciel Transcriber est parfaitement suffisante. Pour les autres, le code ci-dessous représente la DTD utilisée:
<!ELEMENT TEXT      (S)*                                       >
<!ATTLIST TEXT      xml:lang        NMTOKEN           #REQUIRED>

<!ELEMENT S         (FORM|TRANSL|AUDIO)*                       >
<!ATTLIST S         xml:lang        NMTOKEN            #IMPLIED
                    who             CDATA              #IMPLIED>

<!ELEMENT TRANSL    (#PCDATA)                                  >
<!ATTLIST TRANSL    xml:lang        NMTOKEN                "en">

<!ELEMENT FORM      (#PCDATA)                                  >
<!ATTLIST FORM       kindOf         (phono|phone|ortho) "phono">

<!ELEMENT AUDIO      EMPTY                                     >
<!ATTLIST AUDIO      start          CDATA             #REQUIRED
                     end            CDATA             #REQUIRED>