Laboratoire d'informatique de l'École polytechnique

Soutenance de thèse de Konstantinos Skianis

Speaker: Konstantinos Skianis
Location: Amphi Sophie Germain
Date: Fri, 1 Mar 2019, 16:00-18:00

Konstantinos Skianis soutiendra sa thèse intitulée «Nouvelles représentations, la régularisation et les distances pour la classification de texte», le Vendredi 01 Mars 2019 à 16h00, dans l'amphithéâtre Sophie Germain.

Résumé: Le texte a été le moyen dominant de stockage de données dans des systèmes informatiques et d’ envoi d informations sur le Web. Extraire du texte des représentations significatives a été un élément clé pour la modélisation de langage. Le but de cette thèse est d étudier les problèmes liés au traitement du langage naturel, comme l' apprentissage de la représentation, la régularisation de la classification des textes et la mesure de la distance entre les documents. Dans la première partie de la thèse, nous avons étudié de nouvelles représentations à base de graphes pour le texte. Nous avons introduit ICW, une nouvelle métrique basée sur des graphiques au niveau de la collection afin de pénaliser les nœuds centraux, un peu comme l'IDF. Les rendements de TW-ICW et TW- ICW-LW sont comparables à ceux des classificateurs d apprentissage en profondeur les plus récents pour la tâche de classification du texte. Dans la deuxième partie de la thèse, nous nous sommes concentrés sur la régularisation pour le problème de l apprentissage supervisé et plus spécifiquement pour la tâche de la classification du texte. Nous avons d abord examiné comment divers groupes linguistiques existants peuvent aider de simples modèles de régression logistique pour la catégorisation de texte. Nous avons ensuite conçu une nouvelle version superposée de l’ algorithme Orthogonal Matching Pursuit, une technique de sélection de variables gloutonne bien connue. Dans la dernière partie de la thèse, nous étudions la mesure des distances entre les documents. Nous avons d abord examiné les méthodes rapides permettant d accroître la distance du populaire Word Mover ‘s Distance. Enfin, nous avons travaillé sur de nouvelles méthodes de graphes supervisés pour le calcul de la distance.