Mes recherches ont principalement porté sur le résumé automatique multidocument par extraction. J'ai étudié le résumé automatique fondé sur le regroupement automatique des phrases à résumer. Les regroupements créés, fondés sur une approche statistique du vocabulaire des phrases, véhiculent une composante spécifique de l'information à résumer. Partant de l'hypothèse que les phrases d'un même groupe sont porteuses d'informations similaires, une seule phrase de chaque groupe est sélectionnée comme phrase candidate à l'extraction dans le résumé. Cela permet dans le même temps d'éliminer la redondance, et de sélectionner les informations les plus centrales. Par ailleurs, le regroupement de phrases permet non seulement d'évaluer la centralité d'une phrase (l'importance de ses informations) vis-à-vis du contenu global du ou des documents à résumer, mais également vis-à-vis du contenu local à sa classe. Cet article présente l'intérêt du regroupement automatique de phrases préalable à leur extraction et de l'intégration du calcul de centralité locale au calcul de la centralité d'une phrase.

Un résumé ainsi généré comporte les informations essentielles du ou des documents d'origine, mais sa lecture peut être difficile, à cause notamment de marqueurs logiques ou temporels extraits de leur contexte ou d'incohérences liées au temps verbaux utilisés, mais également en raison de l'ordre des phrases extraites. C'est pourquoi je me suis intéressé au réordonnancement de résumé, afin de produire des résumé dont l'ordre des phrases reflète une logique soit temporelle, soit causale, et ainsi plus compréhensible pour le lecteur.

Exemple d'un résumé automatique généré par la méthode CBSEAS, développée pendant ma thèse :

Le laboratoire français antidopage de Châtenay-Malabry (LNDD) avait procédé à une analyse d’échantillons contenant de l’EPO dont six ont été attribués par le journal au coureur américain.
L’Américain Lance Armstrong, septuple vainqueur du Tour de France qui a annoncé dernièrement son retour à la compétition en 2009 dans l’équipe Astana, a repoussé, mercredi 1er octobre, la proposition de l’Agence française de lutte contre le dopage (AFLD) de procéder à une nouvelles analyse des échantillons prélevés pendant le Tour de France 1999 "pour couper court aux rumeurs qui le concernent si elles sont infondées".

Résumé de l'affaire Armstrong en 2009, où celui-ci était accusé de s'être dopé avant son premier arrêt de compétition (120 mots maximum, ponctuation comprise)


J'ai participé aux campagnes d'évaluation TAC (Text Analysis Conference) 2008 - tâches Update et Opinion pilot - et TAC 2009 - tâche Update - et donc développé un axe de recherche plus applicatif, guidé par la tâche. Le résumé de mise à jour (Update) consiste à résumer, sachant les documents que l'utilisateur a déjà lus, les informations comprises dans les documents qu'il n'a pas encore lus dont il n'a pas pu prendre connaissance en lisant les documents précédents.