Les tribulations des corpus de français hors de France

Le français est réputé être l’une des grandes langues internationales les moins bien documentées pour ce qui concerne les corpus oraux, même si ce retard historique en corpus (surtout par comparaison avec ce qui a été fait pour l’anglais, mais même pour l’italien ou l’allemand) s’atténue peu à peu, de nombreuses initiatives ayant commencé à voir le jour dans différents endroits.

f8.highresSi les corpus en France même sont encore en nombre insuffisant, il apparaît que des ressources en corpus existent bel et bien à travers l’ensemble de la francophonie, et parfois depuis longtemps (dès la fin des années 60 pour le Canada, depuis les années 80 pour l’Afrique). Le problème est plutôt qu’elles sont éparpillées, sous-exploitées (ou exploitées seulement par les concepteurs et un cercle proche), souvent difficiles d’accès pour la majorité des chercheurs, parfois en danger de déperdition, et que la plupart des usagers potentiels ne savent ni qu’elles existent ni où et comment aller les chercher.

A l’initiative de la DGLFLF, une banque de données a été constituée par Françoise Gadet avec l’aide de Nicoletta Michelis, sur la base d’un questionnaire envoyé à plus de 200 concepteurs de corpus. Le résultat est sur le point d’être mis en ligne par la DGLFLF, sous la responsabilité d’Olivier Baude. Cette BDD permet de documenter différents aspects de 130 corpus qui ont été recueillis à travers l’ensemble de la francophonie (constitués par des chercheurs relevant de 16 nationalités, les plus nombreux étant les Canadiens). La publication de cette BDD est accompagnée d’une assez longue introduction réflexive, qui cherche à retracer l’histoire (pour ne pas dire les tribulations) des corpus de français hors de France, en les resituant parmi les corpus oraux, du français bien entendu, mais aussi d’autres langues.

Les principaux aspects documentés dans la BDD sont le nom des corpus et l’aire ou le point géographique où a eu lieu le recueil (ainsi que le nom et l’adresse mail du concepteur ou du responsable), la ou les année(s) de recueil, la longueur du (ou des) corpus (en temps et/ou en nombre de mots), la nature des corpus (entretiens – en ce cas à un ou à plusieurs locuteurs -, interactions naturelles – en ce cas de quelle nature -, données de médias – de quelle nature – …), les modalités de transcription ainsi que le volume de ce qui a été transcrit (et le sort envisagé pour les données non encore transcrites), les objectifs d’exploitation – par exemple, discursif, syntaxique, phonologique, interactionniste… -, les principales publications réalisées sur la base du corpus, et des renseignements quant aux modalités d’accès.

Françoise Gadet