Laboratoire d'informatique de l'École polytechnique

Soutenance de thèse d'Alice Héliou

Speaker: Alice Héliou (Amib)
Location: Salle Sophie Germain, bâtiment Alan Turing
Date: Lun. 10 juill. 2017, 14h30-16h00

Alice Héliou (équipe Amib) soutiendra sa thèse intitulée Analyse des séquences génomiques : Identification des ARNs circulaires et calcul de l’information négative, le lundi 10 juillet à 14h30 en salle Sophie Germain du bâtiment Alan Turing.

Résumé : Le développement des techniques de séquençage à haut débit a permis de nombreuses avancées dans les domaines de la biologie et de la santé. Les données sont produites en grande quantité à des coûts toujours plus faibles, cependant leur stockage et leurs analyses demeurent de vastes sujets de recherche.

Dans un premier temps nous avons étudié l’identification des ARNs circulaires à partir des données de séquençage. L’alignement de ces données, appelées des lectures, pour identifier les ARNs circulaires est particulier. En effet, avant d’être séquencés les ARNs sont fragmentés aléatoirement en morceaux de taille environ 100. Ceux-ci sont ensuite lus lors du séquençage, on obtient ainsi les lectures. La jonction d’un ARN circulaire peut se retrouver à des positions aléatoires sur les lectures. Celles-ci s’alignent donc seulement partiellement à deux endroits sur le génome, au lieu d’avoir un match global. Nous avons proposé une nouvelle méthode permettant d’identifier les ARNs circulaires chez les Archées et les Bactéries. Nos résultats ont permis de montrer l’implication de la ligase de la famille Rnl3 dans la circularisation des ARNs chez l’archée Pyroccoccus Abyssi.

Dans un second temps, nous avons abordé de façon plus théorique l’analyse des séquences génomiques. L’analyse de ces séquences repose généralement sur leur alignement ou sur la distribution des mots présents. Nous nous sommes intéressés à une approche duale de celles-ci, en nous concentrant sur ce qui est absent, l’information négative. Plus précisément nous avons élaboré des algorithmes pour calculer les mots qui sont absents d’une séquence mais dont tous les facteurs sont présents, les mots absents minimaux. Nos algorithmes ont tous des complexités linéaires en temps et en espace, mais ils diffèrent sur le compromis entre temps de calcul et quantité de mémoire interne utilisée.