Collections (30)


n.c

Centre de Recherche Bretonne et Celtique;

L'ALCAM est un projet d'atlas linguistique, mis en place par Patrice Brasseur dans les années 1980 qui comprend 82 points d’enquête depuis Bray-Dunes en Flandre française jusqu’à Ciboure au Pays Basque français. Le questionnaire totalise 400 questions concernant la description du rivage et des éléments marins, la navigation, la pêche, la faune et la flore marines. En Bretagne celtique, une vingtaine d’enquêtes ont été réalisées à partir de 1983 par Jean Ropars, Claude Guillou, Armelle Audic et Jean-Michel Menesguen et coordonnées par Jean Le Dû alors professeur de celtique à l’université de Brest.


n.c

Atlas linguistiques, cultures et parlers régionaux de France;

L'Atlas Linguistique de l'Alsace comporte des enregistrements sonores à caractère ethnographique (1965) et linguistique (1980) réalisés dans plus de 200 communes Alsaciennes. Le site web des Archives numérisées du Département de Dialectologie alsacienne et mosellane de l'Université de Strasbourg (http://ala.u-strasbg.fr/) présente plus d'informations sur l'Atlas Linguistique et ethnographique de l'Alsace.


n.c

Bases, corpus, langage; Équipe de Recherche en Syntaxe et Sémantique;

Atlas Linguistique et ethnographique du Languedoc Occidental.


n.c

Université de Cergy-Pontoise;

Enquête linguistique réalisée à Haïti entre 1978 et 1985 dans le contexte d'une réforme de l'école visant à introduire le créole dans l'enseignement. Environ 300 personnes ont été enregistrées entre mars et octobre 1982 puis entre mai et août 1985 par des enquêteurs haïtiens sur différents points géographiques. Le choix des personnes enregistrées pour l'enquête s'est basé sur un critère principal : ces personnes devaient être créolophones unilingues (créole non influencé par le français). Plus de 360 heures ont été ainsi enregistrées (356 heures sont disponibles à l'écoute). Cette collecte enregistrée est le résultat d'une pré-enquête (ALH ; mars et avril 1982), suivie d'une enquête principale (ALH ; juillet-octobre 1982) doublée d'une enquête secondaire (ALH-ALHS ; 1985). Ces enregistrements se sont basés sur un questionnaire linguistique général de 2225 questions auquel s'ajoute également l'utilisation d'un cahier proposant environ 500 questions spécialisées. Les questions posées aux témoins haïtiens portent essentiellement sur le lexique mais aussi sur la grammaire, sur le discours vernaculaire et quelques fables et contes créoles ont été également recueillis. 272 cassettes audio ont été déposées ainsi que 20 cahiers d'enquêtes (enquête principale) et documents relatifs à la constitution de l'Atlas linguistique du créole français d'Haïti (transcription phonétique et romaniste des réponses aux questionnaires, cartes, notes, ...). Les cassettes déposées sont des copies des enregistrements sur cassettes originaux (originaux aujourd'hui non localisables). Sur les 272 cassettes audio déposées, 7 cassettes ne sont pas consultables, leur état ne permettant plus leur numérisation : DONAUD1403-73, DONAUD1403-119, DONAUD1403-120, DONAUD1403-179, DONAUD1403-199, DONAUD1403-208 et DONAUD1403-268.


n.c

Bases, corpus, langage;

Atlas linguistique et ethnographique d'Île-de-France, Orléanais, Perche, Touraine.


n.c

Bases, corpus, langage; Équipe de Recherche en Syntaxe et Sémantique;

Atlas linguistique et ethnographique de la Gascogne.


n.c

Analyse et Traitement Informatique de la Langue Française;

Atlas linguistique et ethnographique picard


n.c

Multimédia, Informations, Communication et Applications; Laboratoire de langues et civilisations à tradition orale;

La collection AuCo (Audio Corpora) regroupe des documents linguistiques sonores de langues du Vietnam et des pays voisins, y compris dans des langues "rares" particulièrement peu dotées au plan informatique. AuCo est un acronyme pour “Audio Corpora”: corpus audio. C’est également une référence à la fée ÂuCơ, qui mit au monde une grande poche d'où sortirent cents œufs qui donnèrent naissance aux Cent Peuples (Bách Việt), ancêtres légendaires des Vietnamiens et de la multitude de groupes ethniques de la région. Les points ronds qui composent le logo de la collection AuCo/ÂuCơ sont une allusion à ces cent œufs, symbole de la diversité culturelle et linguistique que reflète la collection. Le but de la collection AuCo est de recueillir les documents recueillis par les chercheurs au fil de leur activité de recherche. Elle remplit par là une fonction importante: inscrire la collecte de données orales dans une perspective cumulative. La préparation, la réalisation et l'annotation d’enregistrements sont des tâches gourmandes en temps; au prix d’un léger surcroît de travail, il est possible de préparer les données de façon à ce qu’elles puissent être réutilisées par d’autres, pour des finalités variées (notamment: analyse phonétique/phonologique, traitement automatique de la parole, mais aussi didactique des langues/projets de revitalisation de langues en danger). La collection AuCo a vocation à contribuer à la documentation du patrimoine humain que représentent les langues du monde; elle a aussi vocation à faciliter les travaux de recherche interdisciplinaires associant ingénieurs et linguistes, autour de techniques communes. Il est prévu de verser à la collection des documents de types très divers, et de valeur patrimoniale très inégale: des récits traditionnels aux documents lus, en passant par les dialogues et les enquêtes de vocabulaire; des collections uniques datant de plusieurs décennies, et concernant des parlers aujourd'hui en voie de disparition, jusqu'au tout-venant des enregistrements de langues nationales (réalisés ponctuellement pour les besoins d'études phonétiques/phonologiques ou d'outils de traitement automatique). Les utilisations nouvelles et créatives des données sont rarement prévisibles; d’où le choix de ne fermer la collection AuCo à aucun type de données. Les documents de la collection AuCo ont été enregistrés et transcrits/annotés par des chercheurs d'horizons très variés, dont les membres du département "Parole et Communication" de l'Institut de recherche international MICA (HUST – CNRS/UMI-2954 – Grenoble INP, Hanoi University of Science and Technology). Leur préparation pour archivage et diffusion en ligne est assuré par des membres du département “Parole et Communication” de l'Institut de recherche international MICA. Archivage pérenne et diffusion en ligne sont assurés par la grille de services de la Très Grande Infrastructure de Recherche Huma-Num (en partenariat avec le CINES et l’IN2P3); la préparation des documents en vue de leur dépôt s'effectue avec le concours des deux services versants pour les données orales, collection Pangloss / réservoir de données CoCoON (CNRS-LACITO) et Speech and Language Data Repository: SLDR (CNRS-LPL).


n.c

Anthropologie politique de la Mer;

Collection qui regroupe les archives orales déposées par les chercheurs de l'équipe ApoliMer, structure de recherche en anthropologie politique de la mer de l'Institut national écologie et environnement du CNRS (UMR LEMAR, laboratoire des sciences de l'environnement marin), sise à l'Institut universitaire européen de la mer (Université de Bretagne Occidentale, Brest). Ces archives orales sont issues de différents programmes de recherche, pour lesquels des entretiens ethnographiques ont été menés auprès d'acteurs variés, liés de près ou de loin à la mer.


n.c

Laboratoire de langues et civilisations à tradition orale;

La Collection Pangloss offre, en libre accès, des documents linguistiques sonores, avec une spécialité de langues "rares" ou peu étudiées. Son but est de contribuer à la documentation et à l'étude du patrimoine humain que représentent les langues du monde. Les documents présentés contiennent en majeure partie de la parole spontanée, enregistrée dans son contexte social et transcrit en consultation avec les locuteurs. On y trouvera aussi des séances d'enquête et des listes de mots. Ces documents ont été enregistrés et annotés par des chercheurs d'horizons très variés, dont les chercheurs du laboratoire LACITO-CNRS. La gestion de la collection est assurée par une équipe du LACITO.


n.c

Structure et Dynamique des Langues;


n.c

Institut d'histoire du temps présent;

Collection de l'Institut d'histoire du temps présent (IHTP).


n.c

Laboratoire de Linguistique de Nantes; Langage, langues et cultures d'Afrique noire; Langues et Cultures du Nord de l'Afrique et Diasporas;

CorpAfroAs is an integrated pilot project realized by field linguists for field linguists and typologists, which proposes: A methodology for the treatment of fieldwork textual data in underdescribed languages, from data gathering to automatic searches on the corpus, A free, open-source and user-friendly new software, ELAN-CorpA, developed within our project from Elan (Max Planck Institute Nijmegen), A pilot corpus composed of annotated first-hand transcriptions of narrative and conversational data in twelve AfroAsiatic languages (one hour per language), with accompanying sound files, list of glosses, grammatical sketches, and metadata.


Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours; Laboratoire Ligérien de Linguistique;

Corpus plurimodal, comprenant 102h d'interactions de soin dont 8h d'interactions de groupe (réunions professionnelles) ; dossiers de soin médico-sociaux. Le corpus a été recueilli dans le cadre du projet « Parole émergée » réalisée à ANPAA-70 (Association Nationale de Prévention en Alcoologie et Addictologie) site de l'Escale à Vesoul. Le corpus comprend 345 interactions de soin d'un volume audio global de 102h entre un usager et un professionnel en addictologie (médecin, infirmière, psychologue, éducateur). La durée moyenne d'une interaction est de 15mn (entre 2'30 et 55mn). Le choix des interactions transcrites (actuellement 37 interactions soit 9h) a été effectué de façon à focaliser sur un nombre restreint de locuteurs, ayant : 1) fréquenté la structure de façon répétée au cours de la période de recueil et 2) rencontré plusieurs interlocuteurs professionnels distincts. Les enregistrements ont été effectués par les professionnels eux-mêmes, qui avaient à leur disposition un enregistreur. Les interactions constituent : a) des entretiens médicaux d'anamnèse, b) des entretiens médicaux de suivi, c) des rendez-vous de délivrance de méthadone, d) des rendez-vous de constitution d'un dossier admistratif (p.ex. surendettement). Le déroulement et l'objet des échanges dépendent donc d'une part de la spécialité du professionnel et d'autre part de la fréquence de consultation de l'usager. Les séquences conversationnelles alternent avec les séquences narratives et descriptives. Il est fréquent que l'usager soit conduit à développer des sujets très personnels, mais ce n'est pas prévisible. Les séquences d'ouverture/clôture de l'entrevue ne sont généralement pas enregistrées. Les données sont anonymées


n.c

Centre Orléanais de Recherche en Anthropologie et Linguistique;

Corpus linguistique composé d'enregistrements sonores et de leurs transcriptions réalisés à Orléans entre 1968 et 1974 (ESLO1) et à partir de 2008 (ESLO2). Entre 1969 et 1974, des universitaires britanniques ont réalisé un premier portrait sonore de la ville en enregistrant plusieurs centaines d'Orléanais dans la vie de tous les jours. Il s'agit du plus important témoignage sur le français des années soixante-dix. En 2014, quarante ans après cette première étude, l'université d'Orléans, en partenariat avec le CNRS, le Ministère de la Culture et la Région Centre, renouvelle l'expérience en procédant à des enregistrements avec des habitants de toute l'agglomération.


n.c

Fédération CLESTHIA; Systèmes Linguistiques, Énonciation et Discursivité; Langage et langues : description, théorisation, transmission;

Le Corpus de Français Parlé Parisien (CFPP2000) est composé d'un ensemble d'interviews non directives sur les quartiers de Paris et de la proche banlieue. Les entretiens, transcrits en orthographe et alignés au tour de parole, sont disponibles sur le net ; ils sont librement employables en échange de la mention dans la bibliographie des travaux qui en seraient tirés d'une part de l'adresse du site: http://cfpp2000.univ-paris3.fr/ et d'autre part du document de présentation suivant : Branca-Rosoff S., Fleury S., Lefeuvre F., Pires M., 2012, "Discours sur la ville. Présentation du Corpus de Français Parlé Parisien des années 2000 (CFPP2000)". En février 2013, ce corpus comprenait environ 550 000 mots. Un certain nombre d'outils en ligne, notamment un concordancier et des outils textométriques permettent de mener des requêtes lexicales et grammaticales. CFPP2000 est particulièrement destiné à des analyses sur le français oral. Le projet sous-jacent au corpus est par ailleurs l'étude des modifications et des variations qui interviennent dans ce qu'on peut considérer comme un parisien véhiculaire en tension entre le pôle du standard et le pôle du vernaculaire. Par ailleurs, il comporte des activités linguistiques diversifiées (description de quartier, anecdotes, argumentation…) et on peut par conséquent travailler sur la syntaxe propre à ces différentes utilisations du langage. Il permet enfin d'opposer dialogues (entre enquêteur et enquêtés) et multilogues (où la présence de plusieurs enquêtés favorise le passage à un registre familier). CFPP2000 est constitué d'interviews longues (d'une heure en moyenne) intégralement transcrites. Il est donc utilisable pour examiner les singularités qui reviennent à l'idiolecte propre à une personne donnée, par opposition aux variantes diffusées dans des groupes plus larges (quartiers, groupes socio-culturels, classe d'âge, etc.). Le corpus constitue enfin un ensemble de témoignages intéressants sur les représentations de Paris et de sa proche banlieue qui est susceptible d'intéresser des analystes du discours, des sociologues, ou tout simplement des curieux de la ville.


n.c

Typologie et universaux linguistiques; Délégation générale à la langue française et aux langues de France; Institut de linguistique Française;

Le programme Corpus de la parole du ministère de la culture et de la communication a pour but de valoriser le patrimoine linguistique de la France. Il donne accès en ligne à des fonds sonores transcrits et numérisés, en français et dans différentes langues parlées sur le territoire national, en métropole et outremer. Ces langues sont considérées comme "Langues de France".


n.c

Université de Virginie; Laboratoire de langues et civilisations à tradition orale;


Lieux, Identités, eSpaces, Activités;


n.c

Centre de Recherche Bretonne et Celtique;

Le Nouvel Atlas Linguistique de la Basse-Bretagne (Finistère et partie occidentale des Côtes-d’Armor et du Morbihan) étudie la variation géographique de la langue bretonne aux plans phonétique, morphologique et lexical. Des informateurs bien ancrés dans leur terroir d'origine ont fourni des termes simples de la vie courante : nature, météorologie, animaux, vie quotidienne, etc. L'enquête initiale, commencée en 1969, a été suivie d’une deuxième enquête destinée à combler certaines lacunes et à préciser certaines notions. Tous les entretiens ont été enregistrés intégralement sur place par les divers enquêteurs, ce qui a permis à l'auteur de transcrire lui-même l'ensemble des réponses, afin de préserver l'homogénéité de la notation phonétique. Le réseau couvre presque une commune de Basse-Bretagne sur trois (en tout 187 points).


Laboratoire de langues et civilisations à tradition orale; Centre d'Etudes Himalayennes;

Epic Nepal: language and oral literature of western Nepal" is centered on corpora of recorded materials, beginning with recordings made in 1969 by two French scholars, the anthropologist Marc Gaborieau and the ethnomusicologist Mireille Helffer


n.c

Laboratoire de langues et civilisations à tradition orale; Dynamique du langage;

Enregistrements en langue birmane (majoritairement du dialecte birman central) collectés par Denise Bernot entre 1958 et 2005 en Birmanie


Centre d'Enseignement Multimédia Universitaire;

Enquête sur le parler normand du Bessin


n.c

Langues - Musiques - Sociétés;


n.c

Structures formelles du langage;

Le projet Langues et Grammaires en (Ile-de-)France, a pour but d'archiver et rendre accessibles à un public large, en français, des informations sur les langues parlées en (Ile-de-)France, tout particulièrement, mais non exclusivement, les langues de l'immigration récente.


Université Bordeaux III;


Laboratoire de langues et civilisations à tradition orale;

Mission en Nouvelle-Calédonie, avec le caméraman José Reynès et Karl Jorédié comme assistant, dans le cadre du projet "Sorosoro" sur les langues en danger.


n.c

Université de Tromsø; Équipe de Recherche en Syntaxe et Sémantique; Modèles, Dynamiques, Corpus; Université d'Oslo;

Le projet international PFC (Phonologie du Français Contemporain), codirigé par Marie-Hélène Côté (Université Laval), Jacques Durand (ERSS, Université de Toulouse-Le Mirail), Bernard Laks (MoDyCo, Université de Paris Ouest) et Chantal Lyche (Universités d'Oslo et de Tromsø), s’adresse à un triple public, susceptible de s’intéresser au français oral dans ses usages attestés et dans sa variation au sein de l’espace francophone : chercheurs, enseignants/apprenants de français et grand public. Le site web du projet (http://www.projet-pfc.net/) présente et donne accès à l'ensemble des ressources collectées ainsi qu'à des outils de recherche et de traitement.


Laboratoire de langues et civilisations à tradition orale;

This collection is to contain the only extensive, archival-quality corpus of recorded and transcribed time-coded Ixcatec texts. A lexicon will also be generated incorporating all lexical items in the transcribed corpus. It is hoped that these materials will establish the basis for future studies of this language and family and will be made available to the community, the interested public and scholars. The deposit contains also various videos recordings in ixcatec and spanish regarding the name and the use of plants collected by the botanists collaborating to the project of linguistic documentation.


n.c

Multimédia, Informations, Communication et Applications;

Le corpus Vietnamese Attitudes (VnA) est un corpus audio-visuel pour l’étude des attitudes simulées en langue vietnamienne en vue de leur caractérisation et de la synthèse de la parole expressive en vietnamien. Il comporte un ensemble d’enregistrements vidéo de 125 phrases composées de une à huit syllabes. Ces phrases ont été produites en chambre sourde par deux locuteurs (un homme et une femme, originaires de Hanoi) avec 16 attitudes ou expressions : déclaration, question simple, exclamation de surprise neutre, exclamation de surprise positive, exclamation de surprise négative, évidence, doute/incrédulité, autorité, irritation, ironie sarcastique, mépris, politesse, admiration, maternelle séduction et familière. Les phrases contiennent des syllabes portant les différents tons (2, 3, 4, 5, 6, 5b, 6b) en position de début, milieu et fin permettant l’étude de l’interaction des tons lexicaux avec la prosodie. Une répétition parmi les trois effectuées par le locuteur masculin comporte également des signaux électro-glotto-graphiques.