Thèse de Vincent Liard


Sujet :
Origine évolutive de la complexité des systèmes biologiques -- une étude par évolution expérimentale in silico

Résumé :

La génétique computationnelle est une approche récente qui vise à étudier expérimentalement l'évolution. En génétique computationnelle, une population d’organismes simulés est soumise à un processus de sélection/variation qui conduit à l’émergence d’une dynamique évolutionnaire qui peut être étudiée en tant que telle. Plusieurs plateformes de génétique computationnelle ont été développées, surtout dans la communauté de la Vie Artificielle, dont Avida, développé au Beacon Center de l’Université d’Etat du Michigan depuis plus de 20 ans est la plus utilisée.
Aevol est une plateforme développée par l’équipe LIRIS/Inria Beagle. Sa spécificité est d’encapsuler une structure génomique réaliste qui permet d’étudier l’évolution de plusieurs traits génomiques tels que la longueur du génome, la structure polycistronique, le réseau de régulation des gènes ou l’influence de la structure génomique sur l'évolution d’autres propriétés telles que l'entretien de la coopération parmi les bactéries. Plus récemment, Aevol a été utilisé pour générer des tests comparatifs (benchmarks) « réalistes » de manière à tester des outils de bioinformatique.

Une des principales limitations des plateformes de génétique computationnelle est qu’elles sont restreintes à des comparaisons qualitatives avec l’évolution « réelle » et en particulier avec les expériences in vivo comme la campagne “Long-Term Experimental Evolution” (LTEE) qui est menée depuis 1988 par Richard Lenski à l’Université d’Etat du Michigan. Cette limite provient d’au moins deux facteurs. D’abord, il y a une limite computationnelle évidente : la simulation de très vastes populations d’organismes composés chacun de génomes comportant des milliers de gènes et des millions de paires de base est bien sûr un défi en soi. Ensuite, il y a une difficulté liée au formalisme. En effet, plusieurs formalismes ont été suggérés dans la littérature mais aucun d’eux n’est assez proche de la réalité des structures moléculaires pour permettre une comparaison quantitative avec des organismes réels.
L’objectif de cette thèse est d’affronter ces deux difficultés dans le contexte d’Aevol de façon à proposer une nouvelle plateforme qui permettra la comparaison directe entre les structures génétiques et les observations faites sur les bactéries (i.e. de quelques centaines à plusieurs milliers de gènes et de la centaine de milliers à quelques millions de paires de base). De plus, tandis que les séquences génétiques d’Aevol sont portées par un code binaire, nous étendrons cette représentation à un code génétique à quatre bases. Ceci permettra une représentation plus réaliste des séquences génomiques et génétiques (notamment les promoteurs, terminateurs, point d’accroche du ribosome ou encore séquences génétiques) et la validation quantitative des structures observées. Enfin, alors que la version actuelle d’Aevol évalue les organismes en les comparant à une fonction cible, la nouvelle plateforme encapsule des sous-modèles de génétique des populations tels que le classique Modèle Géométrique de Fisher ou le modèle multilinéaire d’épistasie de Hansen & Wagner. Ceci permettra de comparer directement les résultats avec la théorie mathématique développée en génétique des populations qui est au coeur de l’approche théorique de la biologie de l’évolution.
Afin de développer cette nouvelle plateforme, le doctorant aura à développer deux sous-modèles qui seront intégrés au coeur d’Aevol : l’un qui répondra à la difficulté des séquences génétiques. L’objectif étant ici de rester aussi proche que possible du code génétique réel avec ses 4 bases, 64 codons et 20 acides aminés. La séquence décodée sera ensuite utilisée pour calculer les traits de l’organisme selon un modèle fondé sur celui de Fisher. Ceci appellera le développement du second sous-modèle de façon à calculer l’avantage sélectif de l’organisme étant donnée sa distance à la valeur optimale de chaque trait sous sélection. Ces deux sous-modèles seront basés sur la biologie moléculaire et la génétique des populations. Leur développement sera accompli durant la première année du doctorat. Une fois que ces deux sous-modèles auront été spécifiés, la plateforme sera implémentée au moyen des outils informatiques les plus récents pour permettre la simulation de vastes populations composées d’organismes complexes. Ce travail occupera la deuxième année du doctorat. La phase de développement s’appuiera sur une étude préliminaire qu’a conduite Jonathan Rouzaud-Cornabas sur la plateforme Aevol. Enfin, la dernière année du doctorat sera consacrée aux tests de cette plateforme et à la conduite d’expériences. Un intérêt particulier sera porté à la reproduction sur cette nouvelle plateforme du protocole LTEE de manière à tester l’influence de la stabilisation de l’environnement sur l’évolution des organismes simulés.


Encadrant : Guillaume Beslon
Co-encadrant : Jonathan Rouzaud-Cornabas