Quand la génomique s’inspire du traitement du langage naturel
5 déc. 2025
Les pangénomes représentent la diversité génétique à l’échelle d’une population sous forme de graphes, en répertoriant les variations communes et accessoires. Toutefois, la croissance exponentielle du séquençage rend ces structures de plus en plus complexes à optimiser et à explorer à grande échelle. En parallèle, le domaine du traitement automatique du langage (NLP) a transformé la représentation des connaissances en apprenant à partir de corpus non annotés grâce à des modèles fondamentaux auto-supervisés.
Dans cette dynamique, nous proposons d’apprendre directement à partir de l’ADN brut en utilisant des objectifs auto-supervisés, plutôt que de chercher à recenser toutes les combinaisons alléliques possibles. Cette présentation propose une synthèse du fonctionnement des LLMs (Large Language Models) et de leur adaptation croissante à la génomique, dans un écosystème de modèles en plein essor.
Nous illustrerons ces capacités avec Evo/Evo2, qui permettent :
-
l’évaluation sans entraînement préalable (zero-shot) des effets de variants et de l’essentialité des gènes,
-
la génération de promoteurs, opérons et constructions multi-gènes.
Enfin, nous aborderons les enjeux, biais et perspectives de recherche nécessaires pour garantir une application fiable en biologie.
Une conférence de Guillaume Gautreau, chargé de recherche à l’INRAE – Jouy-en-Josas.
À l’issue de la conférence, vous êtes chaleureusement invité·e·s à la session de posters présentée par les étudiant·e·s du diplôme universitaire Création, analyse et valorisation de données omiques.
Date
Vendredi 5 décembre 2025
Horaires
De 15h à 17h30
Tarifs
Gratuit
Entrée libre
Dans la limite des places disponibles