Lien pour acceder au site du CEA
Site Genoscope en langue française Genoscope site in english El sitio Genoscope en español
Accueil du site > Séquençage > Les projets > Animaux > Tetraodon nigroviridis > Séquençage aléatoire global

Toutes les versions de cet article :

Tetraodon nigroviridis

Séquençage aléatoire global



Le génome du poisson Tetraodon nigroviridis a été séquencé selon la stratégie du séquençage aléatoire global : deux centres, le Genoscope et le Broad Institute of MIT and Harvard (anciennement Whitehead Institute Center for Genome Research WICGR) ont déterminé 4,53 millions de lectures appariées aux deux extrémités de fragments d’ADN de tailles diverses issus de l’ensemble du génome. Après tri qualité, 4,25 millions de lectures ont été retenues pour l’assemblage (2,851 Gb, soit une profondeur de 7,9 X pour une taille du génome estimée à 350 Mb). Plus de 42% de ces lectures (38% des bases lues) ont été déterminées par le WICGR sur des inserts de petite taille clonés dans des plasmides, et près de 54% (61% des bases lues) ont été déterminées au Genoscope sur le même type de clones. Par ailleurs, le Genoscope a produit près de 50 000 lectures aux deux extrémités d’inserts de grande taille clonés dans des BAC, afin d’obtenir des liens clones à longue distance pour l’assemblage. Le tableau ci-dessous précise la taille des inserts dont les extrémités ont été séquencées, le nombre de lectures pour chaque type d’insert et la volume de séquence correspondant (les lectures utiles du WICGR sont plus courtes que celles du Genoscope).

Banque Centre Taille d’insert
(kb)
Lectures utilisées
(millions)
Bases
(milliards)
Profondeur
(séquence)
plasmide Genoscope 2 - 5 1,466 1,125 3,2
plasmide WICGR 2 - 8 1,794 1,092 3,1
plasmide Genoscope 1,5 - 3 0,827 0,603 1,7
BAC Genoscope 100 - 160 0,027 0,018 0,05
BAC Genoscope 120 - 180 0,020 0,013 0,04
Total    4,254 2,851 8,1

Assemblage

Lors de l’étape d’assemblage, il a fallu tenir compte du degré de polymorphisme des lectures. Trois animaux ont en effet fourni le matériel génétique : l’un a servi pour la banque de plasmides réalisée au WICGR, un autre pour les deux banques de plasmides réalisées au Genoscope, et un troisième pour la banque de BAC du Genoscope. Qui plus est, ces poissons acquis dans le circuit aquariophile ne proviennent pas d’une lignée consanguine. En raison de l’abondance des polymorphismes, l’assemblage préliminaire des 4 millions de lectures dérivées de ces trois animaux a livré un trop grand nombre de contigs redondants. Afin de limiter la confusion entre les polymorphismes et des erreurs de séquençage ou des divergences entre régions dupliquées, une stratégie d’assemblage séquentielle a été appliquée. Dans un premier temps, les lectures du WICGR (3,1 X), dérivées d’un unique individu, ont été assemblées seules au moyen du programme Arachne. Les lectures issues des banques du Genoscope ont alors été incorporées de façon itérative. Parallèlement, le Genoscope a effectué un assemblage avec les lectures des deux centres, puis l’a comparé au moyen du programme BLAST avec l’assemblage d’Arachne. Les contigs qui ne livraient pas d’alignements (environ 10% de l’assemblage du Genoscope) ont été ajoutés à l’assemblage d’Arachne.

Au final, l’assemblage combiné contient 49 609 contigs, représentant 312 Mb de séquence. Arachne a relié ces contigs au moyen de liens clones pour former 25 773supercontigs ou échafaudages. Ceux-ci couvrent 342 Mb, ce qui signifie qu’il existe 30 Mb de trous couverts par un ou plusieurs clones au sein d’un échafaudage. L’assemblage présente une bonne continuité à longue distance : 50% des bases sont comprises dans des échafaudages de plus de 731 kb (longueur N50) et 80% des bases dans 805 échafaudages de plus de 41 kb (longueur N80). Le plus grand échafaudage mesure 7,6 Mb, de l’ordre de la longueur d’un bras chromosomique chez Tetraodon.

Parallèlement au séquençage aléatoire global, un effort de cartographie physique a été entrepris sur les clones BAC, afin de valider et d’ordonner les échafaudages où ils figurent. Au moment du démarrage du projet, aucune séquence de grand génome n’avait encore été obtenue par la stratégie du séquençage aléatoire global, et il avait paru raisonnable d’adosser l’assemblage à une carte physique du génome de Tetraodon (la cartographie génétique est impossible car Tetraodon ne peut être croisé en captivité). Trois stratégies de cartographie ont été suivies :

  • Hybridation de 3 000 sondes dérivées des séquences d’extrémités de BAC sur des filtres à haute densité échantillonnant 55 000 clones BAC. 903 contigs de BAC ont pu ainsi être définis.
  • Détermination et comparaison des profils de restriction de 32 991 clones BAC (fingerprinting) ; l’identification des clones chevauchants a permis de définir 2 658 contigs de BAC.
  • Hybridation de paires de clones BAC sur les chromosomes de Tetraodon par FISH en deux couleurs. 117 clones BAC ont été utilisés dans 392 combinaisons différentes.

A ces données de cartographie physique se sont ajoutées deux autres types d’information permettant de lier les échafaudages : le criblage des échafaudages avec des paires de séquences d’extrémités de clones BAC ou plasmide non utilisés dans l’assemblage ; et l’alignement des séquences des échafaudages de Tetraodon sur l’assemblage génomique de Takifugu rubripes. La combinaison de l’ensemble de ces données a abouti à la réunion des échafaudages en « ultracontigs » sur les 21 chromosomes de Tetraodon. Au total, 1 702 échafaudages ont été réunis en 128 ultracontigs qui représentent 80,5% de l’assemblage. Parmi ces ultracontigs, 39 (64,2% de l’assemblage) ont pu être ancrés sur les chromosomes. La contiguïté ainsi obtenue est environ 50 fois supérieure à celle de l’ébauche de la séquence génomique du fugu. Les statistiques d’assemblage sont données dans le tableau ci-dessous.

  Nombre Longueur N50 (kb) Taille, avec les trous (Mb) Taille, sans les trous (Mb) Taille du plus long (kb) Pourcentage du génome, trous compris
Ultracontigs ancrés 39 7 601 218,3 197,7 11 977 64,2
Total ultracontigs 128 1 382 274,0 247,0 11 977 80,5
Echafaudages ancrés 1 338 1 382 218,2 197,7 7 612 64,2
Total échafaudages 25 773 731 342,4 312,4 7 612 100,7
Contigs ancrés 16 083 26 197,7 197,7 258 58,1
Totals contigs 49 609 16 312,4 312,4 258 91,9

Cet assemblage à grande échelle a été évalué par l’hybridation en FISH de paires de clones BAC choisis près des extrémités des 44 plus grands échafaudages (ceux qui avaient le plus de risques d’être erronés). Dans tous les cas, les deux clones BAC se sont hybridés sur le même chromosome, validant ainsi les échafaudages (dans un cas toutefois, les BAC se sont hybridés de part et d’autre du centromère). Par ailleurs, la part des régions euchromatiques du génome de Tetraodon comprise dans l’assemblage a été évaluée par l’alignement de 1 472 nouvelles lectures aléatoires. Un alignement a été obtenu pour 90% de ces lectures, dont certaines, malgré le masquage des séquences répétées, pouvaient correspondre à des régions hétérochromatiques. Cela signifie que l’assemblage contient sans doute plus de 90% de l’euchromatine.

Annotation

L’annotation a été menée au Genoscope en combinant plusieurs ressources : alignement sur la séquence de l’ébauche des séquences protéiques de trois autres vertébrés séquencés (Takifugu, souris, humain), puis alignement par Exofish des séquences génomiques elles-même ; alignement des séquences d’extrêtremités de 155 000 clones d’ADN complémentaires de Tetraodon, préparés à partir de 7 tissus différents du poisson ; et enfin prédiction ab initio des gènes avec les programmes Genscan et GeneID. L’ensemble de ces ressources d’annotation a été combiné avec le programme GAZE (Howe et al., 2002), qui a livré 34 355 modèles de gènes. Après élimination des artéfacts les plus évidents, 27 918 modèles ont été retenus.

Un effort particulier a été consenti pour des familles de gènes posant des problèmes d’annotation : les sélénoprotéines d’une part, les cytokines hélicales de type I et leurs récepteurs d’autre part. Les premières sont des protéines qui incorporent l’acide aminé sélénocystéine, codé par le triplet TGA. La difficulté consiste donc à distinguer ces triplets codants de triplets stop. Diverses méthodes ont été utilisées pour identifier les sélénoprotéines de Tetraodon (voir l’article). Elles ont permis de définir 18 à 19 familles. Toutes les familles répertoriées chez les eucaryotes ont été retrouvées, sauf une, et un nouveau gène putatif, identifié par la recherche d’éléments SECIS et de codons TGA en phase, correspondrait à une famille de sélénoprotéines propre aux poissons, car sans équivalent chez les autres vertébrés.

La stratégie d’annotation pour les cytokines de type I et leurs récepteurs, quant à elle, est fondée sur la spécificité de la structure intron-exon, et avait été validée précédemment pour la recherche de cytokines de classe II. Les gènes de classe I identifiés, confirmés par le clonage de leur transcrit, sont décrits dans la page principale (section Répertoire des gènes de Tetraodon).

Bibliographie

  • K.L. Howe, T. Chothia & R. Durbin (2002), GAZE : a generic framework for the integration of gene-prediction data by dynamic programming. Genome Research 12, 1418-1427.
mise à jour le 11 janvier 2008

© Genoscope - Centre National de Séquençage
2 rue Gaston Crémieux CP5706 91057 Evry cedex
Tél:  (+33) 0 1 60 87 25 00
Fax: (+33) 0 1 60 87 25 14

Accueil | Présentation | Projets | Actualités | Panorama de presse | Ressources | Contact
Suivre la vie du site RSS 2.0 | Plan du site | Crédits | Mentions légales