Fast joint estimation of alignment and phylogeny from genomics sequences in a frequentist framework

Auf einen Blick

Projektleiter/in: Dr. Maria Anisimova

Projektteam: Lorenzo Gatti, Massimo Maiolo

Projektfinanzierung: SNSF

Projektvolumen: 454'000.00 CHF

Projektbeginn: 01.02.2015

ProjektpartnerInnen: Institute of Molecular Life Sciences, University of Zürich

Kurzdarstellung

La disponibilité de grandes quantités de données moléculaires exige des développements de méthodes bioinformatiques précis et rapides pour analyser ces données. Les séquences moléculaires d'origine commune sont utilisées pour inférer des phylogénies, qui aident à tester différentes hypothèses biologiques ou pour soutenir des analyses ultérieures. L’inférence phylogénétique repose sur des alignements de séquences, qui sont généralement déduites au cours d'une inférence heuristique navigué par un arbre de guidage. Pour résoudre cette circularité nous allons développer des méthodes d'inférence simultanée de la phylogénie et de l'alignement. Ce projet permettra d'élaborer une solution rapide et pratique.

L'objectif est de développer un algorithme rapide et précis pour l'inférence simultanée de l'alignement et de l'arbre à l'aide des statistiques fréquentistes. L'algorithme sera disponible dans un logiciel qui permettrait d'analyser de grands ensembles de données génomiques ou métagénomiques avec des milliers de séquences. Nous allons connecter nos méthodes efficaces récents, fournis en paquets indépendants CodonPhyML (pour inférence rapide du maximum de vraisemblance de la phylogénie des gènes codant pour des protéines) et ProGraphMSA (pour l'alignement évolutive, probabiliste et rapide basé sur les graphes). Pour contourner les difficultés de calcul, nous allons modéliser le processus d’indel utilisant une modification du modèle classique, avec une complexité en temps linéaire. Le calcul de haute performance assurera que notre logiciel soit optimisé pour l'utilisation de la mémoire et la vitesse.

La nouvelle méthode soutiendra les analyses phylogénétiques de données génomiques avec des milliers de séquences de pathogènes microbiens ou des données d'anticorps provenant de donneurs infectés. Sur la base de nos propres collaborations actuelles avec l'industrie, la nouvelle méthode promet d'être très en demande, non seulement chez les projets académiques, mais aussi à l'industrie pharmaceutique et biotechnologique.