Titre : Génération automatique de résumés fluides de textes en français par apprentissage profond
Encadrement : Prof. Patrice BELLOT (https://cv.archives-ouvertes.fr/patrice-bellot ; Université d’Aix-Marseille CNRS, LIS), Adrian CHIFU (https://adrianchifu.com ; Université d’Aix-Marseille CNRS, LIS)
Contact : patrice.bellot@univ-amu.fr et adrian.chifu@univ-amu.fr
Période : octobre 2022 – septembre 2025
Mots clés : résumé automatique, fluidification textuelle, recherche d’information, traitement automatique des langues, apprentissage automatique, réseaux neuronaux
Contexte : Projet collaboratif susceptible d’être soutenu par la DGA entre :
-
QWAM (https://www.qwamci.com) ;
-
l’équipe MLIA de l’ISIR (https://www.isir.upmc.fr/equipes/mlia/presentation/) ;
-
l’équipe R2I du LIS (https://www.lis-lab.fr/r2i/) : la thèse se déroulera au sein de l’équipe R2I (Recherche d’Information et Interactions) du pôle Sciences des Données du LIS.
Description du sujet :
Le contexte du projet
Devant la croissance exponentielle des volumes de données et particulièrement de la documentation de type texte (manuels, publications, sites internet, etc.), une solution est de permettre d’accéder facilement aux éléments essentiels, au travers de résumés des textes les plus pertinents dans le contexte utilisateur. Or à ce jour les résumés automatiques restent perfectibles, aussi bien du point de vue de la couverture informationnelle que de leur susceptibilité à créer de fausses informations ou encore de leur fluidité de la lecture, critère qui est la cible première de cette thèse.
Le but du projet RAFFAL est d’améliorer les technologies automatiques (par IA) de résumés de documents en français selon l’angle des métriques qui les régissent en tant que fonction objective (apprentissage automatique de modèles) et mesure d’évaluation humaine. Par ailleurs, les algorithmes, modèles et jeux de données de nouvelle génération basés sur les technologies les plus récentes de d’apprentissage profond (notamment de type Transformeret modèles séquence à séquence) sont pratiquement exclusivement en langue anglaise et doivent être testées et adaptées au français.
Le domaine du résumé automatique est confronté depuis longtemps au manque de métriques d’évaluationautomatique de la qualité des résumés fournis suffisamment fiables ; ce manque de métriques d’évaluation est un frein majeur à l’industrialisation et au déploiement des technologies de résumés automatiques pour lesquels des critères de confiance et de pilotage sont indispensables.
Plan de travail
Le plan de travail comprend deux volets majeurs. Le premier correspond à une étude des propriétés et des limites des métriques existantes et à leur adaptation au français. Le second correspond à la modification des fonctions objectives utilisées pour l’entraînement des modèles selon les métriques adaptées et de nouvelles métriques.
La thèse que nous proposons attaquera tout d’abord la définition de la fluidité. Les mesures de fluidité et de qualité d’un résumé existantes, généralement pour l’anglais, seront étudiées et adaptées à la langue française. Il s’agit par exemple de revisiter le lien entre les mesures existantes, les différentes dimensions qualitatives d’un résumé et leur implémentation au sein d’une architecture neuronale notamment de type séquence à séquence (profondeur des représentations et niveaux d’abstraction, mécanismes attentionnels…). Les ressources linguistiques et les corpus de textes utiles devront être identifiés.
Des évaluateurs humains pourront être impliqués et nous devons à la fois étudier des mesures d’accord inter-annotateurs et analyser leurs profils, selon leur niveau de connaissance de la thématique du résumé par exemple. Une évaluation en ligne pourrait permettre d’identifier les points complexifiant la lecture et conduire à de nouvelles métriques qui influeront à leur tour la création dynamique d’un résumé (approche par renforcement, réécriture alternative, complétion informationnelle par extraction d’information ou annotation sémantique).
La fluidité sera étudiée en tant que fonction objectif pour l’optimisation du « compromis » entre la perte informationnelle et les phénomènes d’hallucination (collaboration avec une autre thèse effectuée en parallèle au sein du laboratoire ISIR de Paris Sorbonne Université). Nous allons étudier l’équilibre entre la fluidité, d’une part, et la qualité et la complétude informationnelles, d’autre part (ex. : le « compromis » entre la précision et le rappel, pour les résultats d’un moteur de recherche). Cette phase nécessitera l’identification des informations essentielles, des éléments textuels centraux des textes à résumer et pourra être approchée par le biais de systèmes questions-réponses.
Enfin, la fluidité d’un résumé étant dépendante du contexte, il est nécessaire d’étudier son caractère subjectif, notamment en tenant compte des types de texte (actualités, prises de position, interviews avec dialogues, articles scientifiques…) et des priorités du résumé (couverture des points de vue et des opinions sur un sujet sans perte de l’identification des sources, synthèse factuelle autour d’un événement…).
Chaque étape fera l’objet d’expérimentations sur des données et problématiques réelles, en collaboration avec le partenaire industriel du projet. Les propositions de la thèse s’inscriront dans le cadre de la science ouverte (publications, données et modèles lorsque cela est possible, codes source).
Profil de candidature :
Parcours antérieur : Master 2 Informatique orienté Recherche en IA ou en TAL ou équivalent
Langue : Français (niveau minimum C1)
Langage de programmation : Python
Connaissances et compétences souhaitées :
- apprentissage automatique statistique, architectures neuronales, transformeurs
- classification automatique de documents
- annotation de corpus
- outils et ressources du Traitement Automatique des Langues
- modèles de langue et représentations textuelles
- résumé automatique, génération de textes, simplification de textes
- recherche d’information et questions-réponses