Lien pour acceder au site du CEA
Site Genoscope en langue française Genoscope site in english El sitio Genoscope en español
Accueil du site > Recherche > UMR 8030 > Laboratoire d’analyses bioinformatiques des séquences > Laboratoire d’analyses bioinformatiques des séquences

Toutes les versions de cet article :

Laboratoire d’analyses bioinformatiques des séquences





Projets Tara Océans
Equipe
Publications

JPG - 60.6 ko
Vitis vinifera
©M. ADRIAN /INRA
Nous sommes en train d’analyser la séquence du génome de la vigne. Une version partielle de l’assemblage a révélé que cette espèce a un protéome enrichi en gènes impliqués dans la synthèse de molécules aromatiques. Par ailleurs, cette séquence n’a pas subi de nombreux réarrangements chromosomiques depuis l’origine des dicotylédones, en particulier pas de duplication totale, ce qui est le cas pour Arabidopsis thaliana et Populus trichocarpa. Cette caractéristique s’est révélée un avantage permettant de révéler que trois génomes différents ont contribué à la structure du caryotype de leur dernier ancêtre commun. Le génome de la vigne est un excellent, mais inattendu, modèle d’étude de l’évolution des plantes à fleurs.

Le groupe d’analyse de génomes eucaryotes étudie la structure et l’évolution des génomes eukaryotes issus de différents projets de séquençage, en partenariat avec les laboratoires de l’Institut Génomique, ou en collaboration avec des laboratoires extérieurs. Pour ces analyses, trois grands thèmes sont développés : l’assemblage, l’annotation et les analyses génomiques.

Assemblage

A partir de collections de lectures aléatoires d’un projet de séquençage de génome, dit WGS (Whole Genome Shotgun), l’étape d’assemblage a pour but de reconstituer la séquence des chromosomes de l’organisme étudié. Les algorithmes utilisés s’appuient sur des informations à la fois de relations d’identités entre lectures chevauchantes et sur des informations de topologie apportées par les « liens clones » ou des marqueurs provenant de cartes génétiques et physiques. Le résultat de l’assemblage, un ensemble de « supercontigs », est une reconstruction consensuelle de la séquence d’origine.

Les outils et méthodes mises en oeuvre par le groupe pour cette activité proviennent soit de développements informatique réalisées à l’Institut Génomique, soit de développements réalisées par d’autres groupes impliquées dans des problématiques d’assemblage comme le programme « Arachne » développé au Broad Institute (www.broad.mit.edu ) .

 
  Annotation

L’annotation a pour objectif de définir le long des séquences assemblées la structure des gènes, c’est-à-dire leurs positions de début et de fin, ainsi que celles de leurs exons. Nous avons choisi une approche qui prend en compte un nombre d’informations a priori indéfini et de toute nature. Nous les regroupons toutefois en trois grandes catégories :

1/ Prédictions Ab initio. Pour chaque génome nous calibrons et nous utilisons plusieurs programmes de prédictions de gènes qui utilisent comme information des propriétés statistiques des gènes protéiques connus de l’espèce. La calibration s’effectue au préalable à partir d’une collection de gènes connus.

2/ Exploitation de séquences codantes. Nous alignons l’ensemble des protéines publiques ainsi que des séquences d’ADNc disponibles pour des phylums reliés. Nous apportons plus de poids statistique aux collections d’ADNc de la même espèce, soit publiques, soit séquencées à Genoscope. L’alignement est effectué in fine avec des logiciels contraignant les jonctions d’exons à des sites compatibles avec des bordures d’épissage.

3/ Genomique comparative. Selon les phylums, nous ajoutons des résultats d’alignements entre génomes dont une calibration préalable permet de retenir préférentiellement des régions codantes. Le principe repose sur la meilleure conservation des régions codantes sur les régions non codantes. Nous avons développé cet outil, exofish, historiquement pour détecter les gènes sur la séquence de l’homme à partir du génome du poisson Tetraodon. Ce travail a conduit à la première re-estimation du nombre de gènes humains .
 
 

PNG - 102.5 ko
(Extrait du GGB de la vigne)
Annotation d’un locus du K11 de la vigne.

 
  L’ensemble de ces prédictions est « réconcilié » de façon à ne retenir qu’un seul « modèle de gène » par locus. Cette étape est réalisée en exploitant les possibilités d’utilisation du programme Gaze . Cet outil intègre un ensemble d’informations pondérées qui alimentent un automate que nous adaptons. Par programmation dynamique, cette étape garantit de rendre pour chaque séquence une ensemble de modèles de gènes sans rupture de phase et dont le score est maximum.

Visualisation

Les résultats des différentes analyses sont stockées dans une base de donnée et sont accessibles par les collaborateurs par une interface dédiée, un navigateur GGB (Generic Genome Browser) .

PNG - 44.6 ko
Tetraodon nigroviridis

Nous avons analysé la séquence d’ADN du poisson Tetraodon nigroviridis en raison de sa petite taille, 8 fois plus courte que la séquence humaine. Le niveau de conservation des gènes de ces deux espèces après 400 millions d’années d’évolution depuis leur séparation nous a permis en 2000 d’estimer le nombre de gènes humains. En 2004, la reconstitution in silico des chromosomes de Tetraodon a apporté l’évidence qu’une duplication totale de génome a eu lieu dans cette lignée. Cette duplication, appelée 3R par les évolutionistes, était auparavant posée comme hypothèse pouvant expliquer entre autre le succès du groupe des poissons osseux téléostéens, par leur nombre d’espèces adaptées à de nombreux écosystèmes différents.

 
 
  Analyses

Pour chaque espèce, en collaboration avec d’autres laboratoires, nous réalisons un certain nombre d’analyses portant sur la caractérisation structurale, fonctionnelle, et/ou évolutive. Nous avons développé un savoir-faire dans la recherche d’événements ancestraux de duplications totales de génomes (WGD) ou autre polyploïdisations. Ce type d’événement évolutif est supposé être un agent essentiel dans l’acquisition de nouvelles fonctions et dans l’émergence de nouvelles espèces. De grandes lignées évolutives telles que les vertébrés téléostéens ou plantes angiospermes dérivent très certainement de polyploïdisations. Pour ces études, les séquences des génomes du poisson Tetraodon nigroviridis, de la vigne Vitis vinifera et du cilié Paramecium tetraurelia sont d’excellents modèles .

 
 

PNG - 105.4 ko
Duplications du génome de Paramecium tetraurelia

La séquence du génome du macronoyau de la paramécie conserve de façon spectaculaire la trace d’au moins 3 duplications totales de génomes qui se sont succédées dans l’évolution (cercles extérieurs, plus récents, vers intérieurs plus anciens). Alors que chez d’autres groupes évolutifs, il reste très peu de gènes dupliqués à la suite de duplications totales (poisson, plantes, levures), ici 24000 gènes, soit 68% du total, sont maintenus en 2 copies depuis la duplication la plus récente. Par ailleurs très peu de remaniements chromosomiques ont lieu car l’ordre des gènes est préservé. Ces caractéristiques, essentiellement le grand nombre de gènes dupliqués à trois moments évolutifs différents, montrent que la perte de gènes est fortement sous contrainte à court terme. En particulier l’effet de stochiométrie sur les gènes impliqués dans des interactions est fort.
 
 

Projets

 Tetraodon nigroviridis (lien, GGB)
 Paramecium tetraurelia (lien, GGB)
 Vitis vinifera (lien, GGB)
 Oikopleura dioica (lien, GGB)
 Tuber melanosporum (lien, GGB)

mise à jour le 15 avril 2010

© Genoscope - Centre National de Séquençage
2 rue Gaston Crémieux CP5706 91057 Evry cedex
Tél:  (+33) 0 1 60 87 25 00
Fax: (+33) 0 1 60 87 25 14

Accueil | Présentation | Projets | Actualités | Panorama de presse | Ressources | Contact
Suivre la vie du site RSS 2.0 | Plan du site | Crédits | Mentions légales