ACor4French - Les corpus annotés du français

Ressources disponibles et exploitation en TAL

Atelier dans le cadre de la conférence TALN 2017 – 26 juin 2017 – Orléans

Le programme et les actes de la journée sont disponibles !

Description de l’atelier

Dans de nombreuses tâches du TAL, les corpus annotés (semi-)manuellement sont utilisés comme données d’apprentissage et/ou comme données de référence pour l’évaluation des outils. Dans les deux cas, le fait de disposer de corpus annotés de qualité est un enjeu essentiel.

Pour la langue française, les corpus annotés ont fait l’objet de nombreux projets pendant ces dix dernières années (FTB, PFC, Valibel, Sequoia, FDTB, Rhapsodie, Annodis, Orféo, … ) que ce soit pour l’analyse syntaxique (en constituants ou en dépendances), pour l’analyse du discours, pour les anaphores pronominales, pour la prosodie, etc. Ces projets ont fait des choix linguistiques souvent indépendants les uns des autres et les données ne sont pas toujours facilement convertibles d’une ressource à l’autre. De plus, ces ressources ne sontpas forcément libres ou n’ont pas toutes des licences compatibles qui permettent de redistribuer de nouvelles versions corrigées.

Par ailleurs, un nouveau projet international de création de corpus annotés en syntaxe de dépendances pour différentes langues a démarré (Universal Dependencies) qui pousse à réfléchir et à repositionner les données spécifiques au français. De plus, la création de ressources de ce type par myriadisation par le jeu (jeux ayant un but) pose de nouvelles questions, par exemple quant à l’expertise des annotateurs.

L’objectif de cet atelier est que les chercheurs impliqués dans ces différents développements pour la langue française se rencontrent pour faire un état des lieux des corpus disponibles, des besoins futurs et des nouvelles initiatives qui pourraient se mettre en place pour coordonner les prochains projets de développement de corpus afin qu’ils s’enrichissent mutuellement.