Un corpus écologique pour la francophonie

L’ANR franco-allemande CIEL_F (« Corpus International Ecologique de la Langue Française ») a travaillé de 2008 à 2012 à constituer un corpus sur des situations de francophonie. Il s’agissait de réunir dans le plus grand nombre possible d’aire identifiées comme francophones (que le français y soit la seule langue en usage, ou en concurrence avec une ou plusieurs autres langue(s)), des enregistrements « écologiques » – c’est-à-dire obtenus sans sollicitation de la part du chercheur et en milieu naturel d’occurrence.

blog_Ciel_2013-02-20_211709

Trois situations identifiables partout dans le monde (à condition de les considérer à un certain niveau d’abstraction) ont été retenues : des interactions en contexte familier (conversation lors d’un événement social ordinaire, familial ou amical), des interactions d’activités professionnelles (réunions de travail), et des interactions publiques de médias (émissions de radio locale, de préférence laissant la parole aux auditeurs) – à quoi peut s’ajouter un événement libre (par exemple une activité spécifique à une aire). Les enregistrements sont majoritairement audio, et pour certains vidéo. Une attention particulière a été prêtée à la présentation des métadonnées, avec l’hypothèse que celles-ci participent de l’intelligibilité des interactions.

L’objectif est de constituer ainsi des corpus susceptibles d’être exploités à travers différentes modalités d’analyses (études variationnelles ou variationnistes, analyse des interactions, analyse de conversation, étude des français en contact, étude linguistique de l’oral, mais aussi monographies locales ponctuelles), à partir d’enregistrements dont la sélection a été effectuée par des indigènes eux-mêmes, au carrefour de la dimension des pratiques langagières et des aires communicatives.

La sélection des terrains, les recueils et les transcriptions (réalisées sous Praat) ont été effectués par des équipes locales, sur 15 zones différentes à travers le monde (comportant parfois plusieurs aires), sous le suivi des cinq équipes à l’origine du projet (Fribourg-en-Brisgau, avec Stefan Pfänder ; Lyon-2, avec Lorenza Mondada ; Halle-Saale, avec Ralph Ludwig ; Paris-10, avec Françoise Gadet ; Louvain-la-Neuve, avec Anne-Catherine Simon).

blog_ciel22013-02-20_211850

Le site http://www.ciel-f.org/vitrine affiche depuis décembre 2012 des extraits de une minute, transcrits, anonymisés et accompagnés de leurs métadonnées, qui indiquent en avant-première ce que sera la totalité des environ 200 extraits de 10 minutes chacun, qui seront peu à peu mis en ligne dans les années qui viennent (http://ciel-f.org/).

L’objectif de CIEL_F est ainsi de contribuer à enrichir la documentation en corpus sur le français, en la diversifiant et en l’étendant à l’ensemble de la francophonie. En effet, la très grosse majorité des corpus disponibles à l’heure actuelle relève de données obtenues par entretiens. S’il est relativement difficile d’établir pour l’instant en quoi des données écologiques font montre de phénomènes linguistiques différents (à part au niveau évident des interactions), que l’on n’aurait pas pu atteindre au moyen d’entretiens, même tendant vers le naturel, ce qui est certain, c’est qu’il est indispensable de diversifier le plus possible le type de données auxquelles on a affaire dans les corpus. C’est tout particulièrement le cas pour la francophonie, qui accuse encore un incontestable retard par rapport à la documentation sur l’anglophonie.

Françoise Gadet