|

|
Le mot génome désigne l'ensemble de
l'information héréditaire d'un organisme. Cette information est
présente en totalité dans chacune des cellules de
l'organisme*. Lorsqu'une cellule se divise, l'information est copiée
et transmise aux cellules filles.
Le génome contient toutes les instructions nécessaires au
développement, au fonctionnement, au maintien de l'intégrité et à la
reproduction des cellules et de l'organisme. Ces instructions sont
nommées gènes.
Le support matériel de l'information génétique est l'ADN (Acide DésoxyriboNucléique). Le génome est composé de molécules d'ADN géantes, associées à d'autres types de molécules nommées protéines pour former les chromosomes. Un être humain possède 23 paires de chromosomes, donc deux jeux complets d'instructions, chacun hérité d'un de ses parents**.
Deux êtres vivants d'espèces différentes présentent des génomes qui diffèrent par leur taille ainsi par le nombre, l'ordre et la nature des instructions qu'ils contiennent. Deux individus de la même espèce, au contraire, possèdent le même catalogue d'instructions, même si celles-ci peuvent exister dans des versions légèrement différentes (d'un individu à un autre ou chez un même individu, lorsque les copies héritées du père et de la mère diffèrent). C'est en ce sens que l'on parle du génome humain, commun à tous les êtres humains avec son bagage propre de gènes. Au sens strict, le génome de chaque être humain est unique (à l'exception de ceux, identiques, de vrais jumeaux), mais il ne diffère que de 0,1% environ de celui d'une personne non apparentée.
La taille des génomes, mesurée en nombre de bases (voir "Qu'est ce la séquence de l'ADN"), est très variable : quelques dizaines de milliers de bases en moyenne pour le génome d'un virus, quelques millions de bases pour celui d'une bactérie, 3 milliards de bases pour le génome humain... et 16 milliards pour le génome du blé ! Le nombre de gènes contenus dans les génomes varie dans une moindre mesure : quelques milliers chez une bactérie, 13 000 chez la drosophile, 25 000 chez l'homme. Il est difficile de corréler la complexité des organismes au nombre de leurs gènes, et plus difficile encore de la corréler à la taille de leur génome. Les contre-exemples abondent...
* A quelques exceptions près, telles que les globules rouges...
** Les individus de sexe masculin possèdent une paire de chromosomes sexuels dissemblables, porteurs de jeux d'instructions différents. Il existe en outre des anomalies du nombre de chromosomes dont la plus fréquente est la trisomie 21. |
| Liste des questions |
- Qu'est-ce que la séquence de l'ADN ?
|
Comme on l'a vu plus haut, le génome est fait d'ADN. Les instructions, ou gènes, contenues dans le génome sont donc codées sous forme chimique le long des molécules d'ADN. Celles-ci sont constituées par l'enchaînement de "maillons" élémentaires nommés nucléotides. Les nucléotides ont une partie variable - une base, du point de vue chimique - qui peut exister sous 4 formes différentes ; ces formes sont symbolisées par les lettres A, T, G et C. Les instructions sont donc écrites dans un alphabet chimique à 4 lettres seulement. Pour se représenter la succession des bases le long d'une molécule d'ADN, on peut imaginer un collier de perles à 4 couleurs. C'est l'ordre dans lequel se succèdent les bases - leur séquence - qui constitue la forme de stockage de l'information biologique, de même que la succession des octets magnétiques permet le stockage d'informations dans un ordinateur. En d'autres termes, l'ADN est la mémoire chimique du vivant.
La figure ci-dessous représente deux séquences d'ADN d'égales longueurs sous la forme de deux colliers de perles à 4 couleurs. Le nombre des bases de chaque type (ou des perles de chaque couleur) est le même dans ces deux séquences, mais l'ordre des bases est différent : les deux séquences renferment donc une information différente.

| | Liste des questions |
- Pourquoi séquence-t-on l'ADN ?
|
Pour connaître les instructions "codées" dans une molécule d'ADN, il faut commencer par déterminer la séquence de ses bases. C'est cette "lecture" de la séquence qu'on nomme séquençage. A la différence de la lecture d'un texte, qui peut faire accéder immédiatement à la compréhension du message, le séquençage de l'ADN ne livre qu'une longue suite de A, T, G et C au sein de laquelle les instructions ne sont pas immédiatement discernables. Une étape d'interprétation, nommée annotation, est alors nécessaire pour (1) identifier les instructions et (2) en comprendre le sens biologique.
La constitution d'un inventaire exhaustif des instructions, ou gènes, contenues dans un génome est la principale raison des programmes de séquençage. La connaissance des gènes est en effet une étape indispensable à la compréhension des phénomènes biologiques au niveau moléculaire et cellulaire. Dans les années à venir, les applications seront de plus en plus nombreuses dans les domaines de la médecine et des industries pharmaceutique, biotechnologique, agro-alimentaire, ainsi que dans d'autres domaines en prise directe avec les processus biologiques (agriculture, environnement). Pour toutes ces applications, la séquence est le point de départ. (voir aussi "les grands centres de séquençage ont-ils encore une utilité ?")
| | Liste des questions |
- Comment séquence-t-on l'ADN ?
|
Les nucléotides, constituants élémentaires de l'ADN, peuvent être de 4 types distincts selon qu'ils incluent la base A, T, G ou C. Dans un fragment d'ADN à séquencer, des centaines de nucléotides s'enchaînent dans un ordre défini. Séquencer le fragment d'ADN consiste à déterminer cet ordre, ou séquence, un long mot écrit dans un alphabet à quatre lettres seulement.
Le principe du séquençage est de réaliser, à partir d'un point fixe, des copies incomplètes de la molécule d'ADN (la "matrice"), interrompues au hasard. L'interruption est provoquée par l'incorporation aléatoire, lors de la copie, d'un analogue de nucléotide qui bloque la réaction. Comme l'on travaille sur un très grand nombre de molécules de matrice, on obtient toutes les copies partielles possibles à partir du point fixe.

On sépare ensuite ces divers fragments selon leur taille en les faisant migrer dans un gel poreux sous l'action d'un champ électrique. Cette technique, nommée électrophorèse, permet de séparer deux copies incomplètes consécutives qui ont une différence de taille d'un seul nucléotide. Si l'on peut identifier le nucléotide au niveau duquel la copie s'est interrompue (nucléotide terminal) pour chacune des copies incomplètes, de la plus petite à la plus grande, on est alors en mesure de reconstituer la succession des nucléotides tout au long de la copie.

Mais comment identifie-t-on, en pratique, les nucléotides terminaux ? On réalise quatre séries de copies en parallèle, chacune incluant un analogue d'un des 4 types de nucléotides A, T, G ou C. Par exemple, toutes les copies incomplètes d'une série seront terminées par un A. En outre, le composé provoquant l'interruption est fluorescent : le fragment copié peut ainsi être détecté automatiquement par un système optique à la fin de sa migration dans l'appareil d'électrophorèse, nommé séquenceur. Le signal obtenu à mesure que les copies incomplètes achèvent leur migration est interprété par un programme informatique qui reconstitue la séquence originale du fragment d'ADN analysé. Par opération unitaire, ou lecture, un séquenceur automatique peut déterminer la succession de 500 à 1000 bases (une séquence "brute" également appelée lecture).
| | Liste des questions |
|
Comme on vient de le voir, chaque manipulation de séquençage, ou lecture, ne livre à l'heure actuelle qu'une séquence de 500 à 1000 bases. Il est donc impossible de lire "d'une traite" la séquence des immenses molécules d'ADN, nommées chromosomes, qui renferment l'information héréditaire d'un organisme. Les chromosomes humains, par exemple, sont longs de plusieurs dizaines à plusieurs centaines de millions de nucléotides. Pour reconstituer ces séquences gigantesques, il faut réaliser un grand nombre de lectures, et même produire un volume de séquence plusieurs fois supérieur à la taille du chromosome : ces lectures redondantes permettent de raccorder les séquences les unes aux autres et de s'assurer de la qualité du résultat de chaque lecture.
En pratique, on commence par casser de façon aléatoire la grande molécule d'ADN à séquencer afin d'obtenir des sous-fragments de quelques milliers de nucléotides. En procédant à la lecture des extrémités d'un grand nombre de ces sous-fragments pris au hasard, on obtient des séquences qui se recouvrent en partie.

La comparaison de ces séquences entre elles permet de reconnaître et d'aligner les parties séquencées plusieurs fois. Grâce à ces séquences chevauchantes, on peut assembler un certain nombre de lectures pour reconstituer des enchaînements plus grands (nommés contigs), voire la totalité de la séquence du fragment de départ. Cette opération d'assemblage, réalisée par des programmes informatiques, permet de reconstituer de proche en proche des séquences de plusieurs millions à plusieurs dizaines de millions de bases.

Dans des génomes tels que le génome humain, il est nécessaire d'opérer avec une redondance d'un facteur 8 à 10 ("profondeur de 8 à 10X") pour réassembler la séquence d'un fragment d'ADN de grande taille. En d'autres termes, pour séquencer un tel fragment, il faut le réduire en petits segments, puis réaliser un nombre de lectures suffisant pour que ces lectures, mises bout à bout, représentent 10 fois la longueur de la séquence du grand fragment. Cela revient à ce que chaque base de cette séquence soit représentée dans 10 lectures en moyenne. Même à ce niveau de redondance, il subsistera quelques trous lors de l'assemblage, car les lectures résultent d'un échantillonnage aléatoire : certaines régions seront représentées par plus de 10 lectures, d'autres par moins de 10, et quelques unes ne seront pas du tout couvertes. Le nombre et la taille des trous seront d'autant plus importants que le niveau de redondance des lectures est faible. Ces trous peuvent ensuite être "comblés" par un travail ciblé.
Une autre difficulté dans l'assemblage des séquences de "grands" génomes est causée par les séquences répétées, présentes plus ou moins à l'identique en plusieurs endroits du génome. Elles sont particulièrement abondantes dans les génomes de mammifères et représentent 50% du génome humain. Ces séquences répétées peuvent conduire à assembler ensemble deux séquences provenant en réalité de régions distantes du génome. Pour cette raison, elles sont "masquées" lors de l'assemblage.

La séquence du génome humain, avec ses 24 types de chromosomes, comporte environ 3 milliards de bases. Pour déterminer la séquence complète des chromosomes humains à une profondeur de 10X, il faut réaliser des dizaines de millions de lectures. Il est cependant possible d'obtenir une première ébauche avec un niveau de redondance moindre. Dans ce cas, les fragments réassemblés seront assez petits. Par exemple, avec un niveau de redondance de 5X, on obtient pour le génome humain des contigs d'environ 5000 bases. La séquence du génome ainsi obtenue sera donc éclatée en plusieurs centaines de milliers de morceaux.
| | Liste des questions |
- Pourquoi a-t-on créé des centres de séquençage (genome centers) ?
|
On vient de voir que la détermination de la séquence des grands génomes nécessitait des millions de lectures. Pour des raisons d'économie, il est beaucoup plus efficace de réaliser ces millions de manipulations à grande échelle dans des structures appropriées, les centres de séquençage : le travail y est organisé et en partie robotisé de manière à ce que l'on puisse effectuer chaque jour plusieurs milliers ou dizaines de milliers de lectures à un coût bien moindre que dans un laboratoire de recherche traditionnel.
De tels centres se sont constitués aux Etats-Unis, au Royaume-Uni, au Japon, en Allemagne, en Chine et en France, où le Genoscope est le seul établissement de cette nature. |
| Liste des questions |
- Qu'est-ce que le projet public de séquençage du génome humain ?
|
Au début des années 1990, la communauté scientifique internationale a jeté les bases d'un projet qu'on a parfois qualifié, en raison de son ampleur, de "projet Apollo de la biologie". L'objectif était d'obtenir, pour le début du troisième millénaire, la séquence complète du génome humain - 3,2 milliards de nucléotides, soit, en caractères, le contenu de 2000 livres de 500 pages. En raison de la taille de ce génome, les grands centres de séquençage, réunis en un consortium international, ont convenu de diviser le travail. Chacune des 20 institutions du consortium "public" (travaillant sur fonds publics ou caritatifs) s'est chargée de régions chromosomiques ou de chromosomes particuliers, parmi les 24 types de chromosomes humains (voir la liste des membres du consortium et leurs contributions respectives). Chaque centre s'est également engagé à déposer les séquences, dès leur obtention, dans des bases de données publiques.
Les premières années du projet Génome humain ont été consacrées à un travail de cartographie : établissement de cartes physiques (couverture de chaque chromosome par un ensemble de grands fragments génomiques ordonnés sur la base de leurs chevauchements) et de cartes de liaison (ensemble de marqueurs dont on détermine les positions relatives le long des chromosomes). Le travail de séquençage proprement dit n'a commencé pour l'essentiel qu'en 1998.
La fin du projet Génome humain était initialement prévue en 2005, mais les progrès accomplis en matière de séquençage au cours des années 1990, ainsi que le soutien financier renouvelé des institutions de tutelle, ont permis d'aboutir avant cette date : une première ébauche de la séquence du génome humain a été célébrée en juin 2000 à la Maison blanche, et le travail de finition s'est achevé en avril 2003, avec deux ans d'avance : une version complète et précise à 99,99% de la séquence du génome humain est aujourd'hui librement accessible en ligne, à la disposition des chercheurs du monde entier. Le travail d'identification des gènes humains se poursuit, mais la plupart sont déjà repérés le long de cette séquence et caractérisés.
Le projet Génome humain incluait des objectifs annexes, qui ont également été atteints en avance sur les délais. Il s'agit notamment d'un catalogue des positions variables d'un individu à un autre dans la séquence "générique" du génome humain (plus de 4 millions ont déjà été répertoriées), et de l'obtention d'une séquence de bonne qualité du génome de la souris : la connaissance du génome de ce mammifère, animal modèle en génétique depuis près d'un siècle, est d'une grande importance pour l'interprétation de la séquence du génome humain.
| | Liste des questions |
- Qu'est-ce que l'ébauche de la séquence du génome humain ?
|
En 1998, une société nouvellement créée, nommée Celera Genomics, déclara qu'elle avait l'intention de séquencer le génome humain avant la fin de l'année 2001. En réponse à cette annonce, et afin de faire face aux menaces d'appropriation du génome humain, les organismes publics de financement anglo-saxons (NIH, DOE et Wellcome Trust) annoncèrent une augmentation importante des budgets et un nouvel objectif intermédiaire : l'assemblage, pour le printemps 2000, d'une ébauche préliminaire ("working draft") de la séquence du génome humain. Les autres pays (Allemagne, Chine, Japon et France) se joignirent à cette initiative. L'ébauche avait pour intérêt de permettre d'ores et déjà l'identification de nombreux gènes humains. Les généticiens traquant les gènes impliqués dans les maladies ont ainsi disposé d'une première base de travail en attendant l'achèvement du projet.

Pour saisir la nature de l'ébauche, il faut d'abord comprendre la stratégie suivie par le consortium international. Elle repose sur un effort préalable de cartographie : les molécules d'ADN formant les chromosomes sont coupées au hasard en grands fragments chevauchants dont l'ordre est reconstitué. Ce sont ces grands fragments, et non le chromosome ou le génome entier, que l'on casse individuellement en morceaux plus petits destinés à être séquencés. Pour chaque grand fragment, les séquences obtenues sont ensuite assemblées, sur la base de leurs chevauchements, en blocs de séquence nommés contigs (voir "Qu'est-ce que l'assemblage"). Le fait d'effectuer l'étape d'assemblage localement, de façon compartimentée, divise la difficulté.
L'ébauche présentée en juin 2000 (voir lecommuniqué de presse)correspond à une tentative d'assemblage à partir d'un volume de séquence équivalant à 5 fois la taille du génome (profondeur de 5X). La séquence de chacun des 20 000 grands fragments environ qui forment la "carte" du génome a pu être réassemblée en 20 à 30 contigs en moyenne, de 5000 à 6000 bases chacun. L'ébauche était donc constituée de plusieurs centaines de milliers de contigs, dont la plupart n'étaient à ce stade ni ordonnés, ni orientés. Elle couvrait 90% environ de la séquence du génome humain, et présentait un niveau d'exactitude moyen de 99,9% (une erreur toutes les 1000 bases). L'état d'avancement du séquençage était en fait variable d'une région à une autre : par exemple, le séquençage des deux plus petits chromosomes humains, le 21 et le 22, était déjà achevé au printemps 2000, avec une séquence presque sans trous et un taux d'erreur dix fois plus faible. Près de 28% des séquences de l'ébauche répondaient à ce standard de séquence "finie" (voir Finition). Quoi qu'il en soit, le taux d'erreur global de l'ébauche, ainsi que son caractère très fragmentaire, constituaient un obstacle pour l'identification précise et exhaustive des gènes humains. La communauté scientifique ne pouvait donc en rester là et se satisfaire de l'ébauche.

| | Liste des questions |
|
La seconde étape du projet Génome humain, commencée dès l'obtention de l'ébauche en 2000, correspondait au travail de "finition" de la séquence. Le but était (1) d'orienter et d'ordonner tous les contigs au sein de chacun des 20 000 grands fragments ; (2) de boucher les trous, souvent petits mais très nombreux (plus de 350 000) ; et (3) d'atteindre un niveau de qualité suffisant pour épargner aux chercheurs de continuelles et coûteuses vérifications. Cela a été obtenu par le séquençage de 5 autres équivalents génomiques (portant la profondeur à 10X) et par un travail localisé sur les trous résiduels. Cette seconde étape s'est terminée officiellement en avril 2003 (voir le communiqué de presse), avec l'annonce d'une séquence complète (moins de 400 trous) et précise à 99,99% (moins d'une erreur toutes les 10 000 bases).

| | Liste des questions |
- La fin du séquençage du génome humain a été célébrée en avril 2003 ; n'avait-elle pas été déjà annoncée en juin 2000 ?
|
Ce qui a été annoncé en juin 2000 en présence du président américain était l'obtention d'une ébauche de la séquence du génome humain (voir aussi le communiqué de presse). La célébration de l'événement était justifiée, car l'ébauche donnait un premier aperçu de notre patrimoine héréditaire, et procurait aux chercheurs en génétique médicale une première base de travail pour la recherche des gènes impliqués dans les maladies. Toutefois, le travail était loin d'être achevé : trois années supplémentaires d'un travail de finition ont été nécessaires pour porter cette ébauche à un niveau de complétude et de précision suffisant pour un inventaire exhaustif et précis des gènes humains. L'annonce d'avril 2003 (voir le communiqué de presse) a donc marqué la fin officielle du projet Génome humain, même si le travail de repérage et de caractérisation des gènes humains se poursuit.
| | Liste des questions |
- Le génome humain est-il complètement séquencé à présent ?
|
| La séquence du génome humain aujourd'hui accessible dans les bases de données est aussi complète que les techniques actuelles le permettent. Elle correspond essentiellement à la partie "séquençable" du génome, celle qui contient la quasi totalité des gènes. Cette fraction du génome, nommée euchromatine, représente 2,9 milliards de nucléotides, soit 90% des 3,2 milliards de nucléotides de l'ensemble du génome humain. Elle a été séquencée à 99% (le 1% restant correspondant aux quelques centaines de trous que l'on n'est pas parvenu à boucher). La partie du génome qui n'était pas inclue dans le projet Génome humain est nommée hétérochromatine. Formée de séquences d'ADN hautement répétées, elle est très monotone et pratiquement vide de gènes. On trouve notamment l'hétérochromatine au niveau de structures chromosomiques nommées centromères, ainsi qu'aux extrémités des chromosomes, nommées télomères. Il est extrêmement difficile de séquencer cet ADN très répétitif avec les techniques courantes, ce qui explique qu'il ait été laissé de côté dans un premier temps. Toutefois, ces régions pourraient faire l'objet de travaux ciblés, car elles jouent un rôle important dans le fonctionnement des chromosomes, et quelques gènes pourraient s'y dissimuler. |
| Liste des questions |
- Combien y a-t-il de gènes humains ?
|
| Le nombre de gènes humains fait depuis longtemps l'objet d'évaluations selon diverses méthodes plus ou moins directes. Toutefois, seule une séquence complète et de bonne qualité du génome humain pouvait permettre de mener une recherche systématique des gènes et d'aboutir à un compte à peu près définitif. Une telle séquence est aujourd'hui disponible, et le travail "d'annotation", c'est-à-dire de recherche et de caractérisation des gènes, est en bonne voie. On dénombre à ce jour près de 25 000 gènes humains. Ce chiffre ne devrait plus beaucoup évoluer à l'avenir : d'un côté, certains des gènes déjà répertoriés seront peut être supprimés du décompte, car ils correspondraient à des vestiges de gènes aujourd'hui inactifs ; d'un autre côté, de nouveaux gènes resteraient à découvrir et pourraient compenser cette révision à la baisse. Les chercheurs du Genoscope ont été parmi les premiers à suggérer, en 2000, un nombre total de gènes humains de l'ordre de 30 000, soit une valeur bien inférieure aux estimations qui avaient cours à cette époque (plus d'une centaine de milliers de gènes humains pour certains) (voir le communiqué de presse et le contexte). Des paris avaient même été pris de façon informelle en 2000 sur le nombre de gènes humains, et un chercheur du Genoscope figure parmi les trois parieurs qui se sont approchés le plus près du décompte actuel. |
| Liste des questions |
- Pourquoi est-ce difficile de trouver les gènes dans la séquence du génome humain ?
|
S'il vous prenait l'envie de parcourir les trois milliards de lettres qui composent la séquence du génome humain, vous seriez bien en peine de repérer, dans cette suite interminable de A, T, G et C, les parties qui correspondent aux instructions, ou gènes. Aucune caractéristique évidente ne les signale à l'œil nu. Et il y a peu de chances pour que votre lecture, commencée au hasard, vous conduise rapidement sur un gène : chez l'homme comme chez les autres mammifères, les gènes occupent moins de 30% de l'ADN du génome. Il faut également compter avec leur morcellement : chez les animaux et les plantes, la partie biologiquement significative des gènes est divisée en blocs nommés exons, séparés par des séquences intercalaires nommées introns. Or les exons représentent moins de 3% du génome humain et ne sont pas faciles à délimiter. Par exemple, les 24 exons du gène codant la neurexine 3, séparés par de très grands introns, sont dispersés sur près de 1,5 million de nucléotides le long de la séquence du chromosome 14 humain !
Pour l'ordinateur, la séquence du génome humain est toutefois plus lisible que pour l'œil humain. La recherche de caractéristiques associées de façon statistique aux gènes a débouché sur des programmes informatiques de recherche des gènes, utiles pour une annotation préliminaire à grande échelle. Toutefois, ces programmes peuvent prédire faussement l'existence ou les frontières d'un exon, ou bien manquer un exon existant. Ils sont donc complétés par une approche qui fait appel aux données expérimentales. Cette approche consiste à rechercher des similarités entre la séquence du génome humain et divers types de séquences : d'une part, les séquences de produits d'expression des gènes (ARN messagers et protéines), déterminées en grand nombre depuis les années 1990 chez l'homme et chez d'autres organismes ; d'autre part, des séquences génomiques, qui peuvent être issues du génome humain ou d'autres génomes. Dans le premier cas, la séquence d'un gène est délimitée par alignement avec la séquence de son propre ARN messager, ou de l'ARN messager d'un gène apparenté ; dans le cas des comparaisons entre séquences génomiques, les gènes sont repérés parce que leurs parties "codantes" ont été davantage conservées au cours de l'évolution que le reste de la séquence du génome. Le Genoscope utilise ainsi les régions conservées entre le génome de l'homme et celui d'un petit poisson, Tetraodon nigroviridis, pour améliorer la prédiction des gènes humains. |
| Liste des questions |
- Quels ont été les premiers chromosomes humains séquencés ?
|
Les deux chromosomes humains les plus petits ont été entièrement séquencés avant même l'achèvement de l'ébauche au printemps 2000 : la séquence complète - à quelques trous près - du chromosome 22 a été publiée en décembre 1999 et celle du chromosome 21 en mai 2000 (les chromosomes sont numérotés à peu près par ordre de taille décroissante). Ce fut ensuite le tour du chromosome 20, en décembre 2001.
Le 1er janvier 2003 paraissait dans la revue Nature la description de la séquence du chromosome 14, signée par les chercheurs du Genoscope (voir le communiqué de presse). Il s'agit donc du quatrième chromosome humain dont la séquence a donné lieu à une publication, et du premier dont la séquence ne comportait aucun trou résiduel. Il s'agissait même, au moment de la publication, de la plus grande molécule d'ADN séquencée d'un seul tenant : 87 millions de nucléotides. D'autres publications devraient suivre à mesure que le travail de finition et d'analyse de la séquence des chromosomes humains progresse. |
| Liste des questions |
- De qui provient l'ADN humain qui a été séquencé ?
|
L'ADN séquencé dans le cadre du projet Génome humain ne provient pas d'un seul, mais de plusieurs donneurs anonymes, recrutés aux Etats-Unis. La procédure adoptée garantit que l'identité des volontaires ne puisse être révélée. Le recrutement s'est effectué au moyen d'annonces diffusées aux environs des deux laboratoires où les "banques" d'ADN devaient être préparées. Les donneurs, d'origines diverses, ont été informés sur le projet avant de donner leur consentement éclairé. L'ADN recueilli était celui de cellules sanguines prélevées par une simple prise de sang. Toutes les précautions ont été prises pour qu'on ne puisse remonter de l'échantillon à l'identité du donneur. En outre, cinq à dix échantillons ont été préparés pour chaque échantillon utilisé, de sorte qu'aucun donneur ne peut être sûr que son ADN fait bien partie du matériel séquencé. (Cliquez ce lien pour des informations supplémentaires)
Même si l'on était parti d'un donneur unique, on n'aurait pas obtenu une version unique de la séquence. En effet, chaque être humain a reçu un jeu de chromosomes de son père et un autre de sa mère, et la séquence d'un chromosome reçu du père diffère en certaines positions de la séquence du chromosome homologue reçu de la mère. Dans l'hypothèse d'un donneur unique, les grands fragments d'ADN sélectionnés par les chercheurs pour construire une "carte" du chromosome pourraient provenir de l'un ou l'autre des deux exemplaires chromosomiques. La séquence de chaque grand fragment serait homogène, d'origine paternelle ou maternelle, mais des différences apparaîtraient dans les régions où deux grands fragments d'origines différentes se chevauchent. Comme la séquence de chaque grand fragment est établie avec un haut niveau de confiance, de telles divergences peuvent être distingués d'erreurs de séquençage et répertoriées comme polymorphismes. C'est un avantage de la stratégie "clone par clone" suivie par le consortium. En partant de plusieurs donneurs, l'on séquence des grands fragments qui peuvent provenir non seulement de deux chromosomes homologues d'un même individu, mais aussi d'individus différents, et l'on découvre ainsi davantage de polymorphismes. |
| Liste des questions |
- Le consortium public international était-il en concurrence avec la société Celera Genomics ?
|
En 1998, les objectifs à court terme étaient similaires : obtenir courant 2000 une ébauche non complète mais utilisable de la séquence du génome humain (voir "Qu'est-ce que l'ébauche de la séquence du génome humain"). L'ébauche n'était toutefois qu'une étape pour le consortium public, qui conservait l'objectif ultime d'une séquence précise et sans trous. Le travail de finition requis pour atteindre cet objectif promettait d'être fastidieux, mais ne pose pas de problèmes particuliers dans la méthode "hiérarchique", ou "clone par clone", suivie par le consortium : le "lissage" de la séquence de qualité insuffisante et le comblement des trous de l'ébauche ont été effectués au niveau de chacun des grands fragments couvrant le génome. Les problèmes d'assemblage se sont posés localement, à l'échelle des grands fragments, et ont donc pu être facilement résolus. En avril 2003, ce travail de finition était pour l'essentiel achevé.
Celera, en revanche, ne s'était pas engagée à "finir" son ébauche, alors même que son argument était d'offrir au plus vite à ses clients l'accès à une séquence plus complète que celle du consortium. Cela est dû à la stratégie de séquençage adoptée par la firme, très différente et complémentaire de celle du consortium : elle lui a permis de progresser très vite jusqu'à l'ébauche, mais rendait ensuite l'étape de finition beaucoup plus difficile que dans le projet public. Cette stratégie, nommée "séquençage aléatoire global", ne passe pas par l'établissement préalable d'une carte de grands fragments ordonnés. Le principe est d'accumuler une grande quantité de séquences lues de façon aléatoire à l'échelle du génome entier, puis de tenter d'assembler ces séquences selon leurs recouvrements. La difficulté est plus grande que dans la stratégie "clone par clone", où l'assemblage est "compartimenté" à l'échelle de chaque grand fragment, et l'on risque d'assembler ensemble deux séquences provenant de parties éloignées du génome (les "liens clones" entre lectures appariées - voir le schéma ci-dessous - offrent un moyen de contrôle). Le nombre énorme de comparaisons de séquences nécessite en outre une puissance de calcul considérable. Quand aux trous entre les "contigs" assemblés (plus de 150 000), il n'est pas possible, pour les combler, de diriger le travail de séquençage supplémentaire sur un grand fragment bien identifié comme dans le projet public. Le coût de la finition était sans doute rédhibitoire pour Celera.

Dans la stratégie utilisée par Celera, les contigs issus de l'assemblage des séquences chevauchantes sont reliés en grandes "ossatures" au moyen des "liens clones" fournis par les lectures appariées (séquences lues aux deux extrémités d'un fragment).
Plusieurs dizaines de millions de lectures sont nécessaires pour espérer réussir un assemblage valable de la séquence du génome humain par cette stratégie du séquençage aléatoire global. L'équipe de Celera n'a en fait produit que la moitié du nombre requis ; profitant du fait que les données produites par le projet public étaient en libre accès, elle s'en est servi pour compléter son ensemble de données avant l'assemblage. Celera a fragmenté les séquences assemblées par le consortium pour les faire ressembler à ses propres lectures aléatoires, mais il s'agit là d'un tour de passe-passe, car ce faisant, une grande partie de l'information initiale est retenue. L'ébauche produite par Celera ne constitue donc pas une démonstration indépendante du succès de la stratégie du séquençage aléatoire global. Nombre de chercheurs doutent en fait que cette stratégie, utilisée de façon exclusive, soit valide dans le cas d'un génome aussi grand et aussi riche en séquences répétées que le génome humain. |
| Liste des questions |
- Le génome humain est-il "libre de droits" ? Si non, qui le possède ?
|
Les membres du consortium se sont engagés à déposer sans délai les séquences produites dans les bases de données publiques. Si le séquençage du génome humain avait été abandonné aux sociétés de génomique, le risque était grand que la séquence ait été "confisquée" dans des bases de données privées, consultables seulement au prix fort. C'est d'abord en ce sens que le projet public a évité "l'appropriation" de la séquence du génome humain. En divulguant la séquence d'un gène, les chercheurs du consortium suppriment en outre l'élément de nouveauté nécessaire à la délivrance d'un brevet, et rendent donc impossible le brevetage de la séquence elle-même. Il reste toutefois possible de breveter une application dérivée de la connaissance de la séquence. Beaucoup admettent que le libre accès à la séquence génomique est la meilleure façon de stimuler la recherche biomédicale, et que la compétition industrielle doit se déplacer en aval de la séquence, vers la compréhension biologique de la fonction des gènes dans l'organisme.
Toutefois, des gènes humains ont bel et bien été brevetés, et ce, avant même le début du projet Génome humain. D'une part, des programmes de séquençage d'ADN complémentaires (copies des ARN messagers issus de l'expression des gènes) ont débouché dans les années 1990 sur de nombreuses demandes de brevet, de la part de sociétés biotechnologiques mais aussi d'institutions publiques. D'autre part, des brevets ont pu être pris à l'issue de programme de séquençage d'ADN génomique. Par exemple, la société Celera Genomics a tiré parti de son effort de séquençage du génome humain pour déposer des demandes de brevet sur un nombre non précisé de gènes humains.
Toutes ces demandes n'aboutiront pas. Les critères pour l'attribution d'un brevet sur une séquence d'ADN sont devenus plus sévères, tant aux Etats-Unis qu'en Europe, à mesure que les progrès techniques faisaient du séquençage une activité de routine. Pour que le brevet soit attribué, l'"invention" doit répondre à un critère d'activité inventive, ainsi que d'utilité (aux Etats-Unis) ou d'application industrielle (en Europe). Il est donc devenu impossible de breveter une séquence "brute", sans caractérisation de la fonction du gène et sans évocation non triviale des possibles applications de la séquence, telles que le diagnostic, la thérapie génique ou la création d'animaux modèles transgéniques... En outre, une fois le brevet délivré, la portée de ses revendications peut être contestée sur ces mêmes bases. Enfin, il faut rappeler qu'un tel brevet n'est pas un titre de propriété sur un gène présent dans le corps de tout un chacun : il s'agit surtout d'une arme pour empêcher un concurrent de commercialiser une application dérivée de la connaissance de ce gène. Toutefois, un tel pouvoir d'interdire, lorsque les revendications ont une portée abusive, peut avoir pour effet de stériliser un domaine de recherche, surtout s'il est joint à une politique de licence exclusive.
Nul ne sait exactement quelle part du génome et des gènes humains peut être exploitée librement à des fins commerciales. Fin 2000, l'office américain des brevets (USPTO) avait accordé des brevets sur plus de 6000 séquences d'ADN, dont plus de 1000 humaines, et plus de 20 000 demandes de brevets sur des gènes étaient en attente. Il reste à savoir combien seront accordés, combien des déposants iront jusqu'au bout, et combien de ces brevets tiendront.
|
| Liste des questions |
- Pourquoi le projet Génome humain ? A quoi servira-t-il ?
|
Depuis que nous avons appris à lire la séquence de l'ADN au cours des années 1970, nous rêvons de connaître notre propre génome. Ce rêve est pratiquement réalisé aujourd'hui, même si nous ne sommes pas encore capables de connaître le sens de toutes les instructions contenues dans la séquence du génome.
L'interprétation de la séquence du génome humain est aujourd'hui en bonne voie, et de nombreuses retombées sont attendues dans les décennies à venir. Les plus importantes auront lieu dans les domaines de la médecine et de la recherche fondamentale en biologie, mais les retombées scientifiques seront elles-mêmes à l'origine de la grande majorité des nouvelles applications. Toutefois, ces fruits de la séquence ne seront pas engrangés immédiatement : plusieurs années de recherches seront nécessaires. A l'inverse, ces recherches ne pouvaient être entreprises sans la séquence du génome.
La séquence du génome humain permet en premier lieu de procéder à l'identification des gènes de l'homme. C'est même le seul moyen de dresser un inventaire exhaustif et précis des gènes humains. Au cours des années 1990, certains plaçaient leurs espoirs dans le séquençage des ARN messagers, produits de l'expression des gènes ; ils jugeaient inutile et coûteux de séquencer les 3 milliards de nucléotides du génome humain, dont seuls 3% correspondent à la partie "codante" des gènes (voir "Pourquoi est-ce difficile de trouver les gènes dans la séquence ?"). La suite a prouvé que, sans la séquence du génome, les collections de séquences d'ARN messagers ne permettent pas d'aboutir à un inventaire fiable des gènes humains. Le séquençage systématique du génome est apparu en outre comme plus économique, à terme, qu'une étude des gènes humains au cas par cas, impliquant des efforts redondants. C'est ce qui a motivé le lancement du projet Génome humain au début des années 1990.
L'inventaire des gènes humains profitera en premier lieu à la recherche des gènes impliqués dans les maladies génétiques. Très souvent, des études génétiques permettent de définir, le long d'un chromosome, un "intervalle" où se trouverait le gène causant la maladie dans sa forme mutée. L'inventaire des gènes de l'intervalle en question (obtenu par l'analyse de la séquence) permet alors de retenir ceux qui ont le plus de chances d'être impliqués dans la pathologie, du fait des propriétés connues ou supposées de leurs produits, et de commencer les travaux sur les meilleurs candidats. Avant que la séquence du génome humain soit disponible, les généticiens devaient explorer en aveugle des intervalles de plusieurs millions de nucléotides, à la recherche des centaines de gènes qui pouvaient s'y trouver. Grâce à la séquence finie et "annotée", ces équipes gagnent jusqu'à plusieurs années d'un travail fastidieux. Cela devrait se traduire dans un proche avenir par la découverte de plusieurs milliers de gènes responsables de maladies génétiques.
La connaissance d'un gène dont la mutation provoque une maladie génétique permet la mise au point d'un test diagnostic à partir de l'ADN. Pour les maladies les plus graves, le diagnostic génétique peut être pratiqué avant la naissance dans les familles à risque. L'identification du gène responsable permet aussi de comprendre le mécanisme physiologique de l'apparition de la maladie et donc, dans certains cas, d'explorer de nouvelles possibilités thérapeutiques. C'est ainsi qu'un traitement prometteur de l'Ataxie de Friedreich, directement issu de la connaissance du gène et de sa fonction, a été développé en 1999 par une équipe française à l'Hôpital Necker.
Enfin, la séquence du génome humain, jointe à l'inventaire des positions variables d'une personne à une autre, va faciliter l'identification des facteurs génétiques de susceptibilité aux maladies communes. Ces maladies, telles que le diabète ou l'artériosclérose, ont certes une composante génétique, mais une multitude de facteurs y contribuent chacun pour une faible part, et interagissent avec les facteurs de l'environnement de façon complexe. Grâce au degré de résolution atteint aujourd'hui par les études génétiques, nous allons peut-être commencer à démêler cet écheveau pour comprendre les mécanismes moléculaires de ces maladies et mieux faire la part de l'environnement. Cela pourrait conduire, d'une part, à des nouveaux traitements, d'autre part, à des mesures de prévention plus efficaces.
|
| Liste des questions |
|
Un grand nombre de maladies humaines ont une origine génétique ou en partie génétique. L'influence de cette composante sur la maladie est variable.
Pour de nombreuses maladies rares (comme la mucoviscidose ou la myopathie de Duchenne), une altération (mutation) dans un seul gène se manifestera en général par l'apparition d'une série de signes caractéristiques de la maladie. En revanche, pour la plupart des maladies communes telles que le diabète, l'hypertension, les maladies neuro-psychiatriques et cardiovasculaires, etc., l'effet des variations des gènes est modulé par une influence exercée par le reste du génome et par le milieu environnant. C'est pourquoi l'on distingue d'une part les maladies purement génétiques, encore appelées mendéliennes ou monogéniques, dont l'apparition peut être prédite dès que l'on connaît le gène responsable (ou même seulement sa localisation) et, d'autre part, les maladies communes, dont l'origine est "multifactorielle" et qui ne sont pas obligatoirement provoquées par la présence d'un facteur de prédisposition.
Les maladies purement génétiques sont "rares" (chaque maladie affecte peu de personnes), mais il en existe beaucoup de différentes. A ce jour, on connaît près de 1500 gènes responsables de maladies génétiques, et 3500 environ resteraient à découvrir. A condition de disposer de familles suffisamment nombreuses pour l'étude génétique, on peut désormais localiser les gènes responsables de ces maladies de façon presque routinière grâce à la séquence du génome humain. A l'inverse, on ne connaît pour l'instant que quelques gènes de prédisposition aux maladies communes. Il est en effet difficile d'impliquer des variations de séquence qui ne sont ni nécessaires ni suffisantes au déclenchement de la maladie, mais qui contribuent seulement pour une faible part au risque de la développer. Leur recherche sera toutefois considérablement facilitée par la connaissance de la séquence du génome humain et de ses variations d'un individu à un autre. |
| Liste des questions |
- Qui étaient les membres du consortium international ? Quelle a été la part de chacun ?
|
Le consortium international pour le
séquençage du génome humain réunissait 20 centres de séquençage dans
six pays (Allemagne, Chine, Etats-Unis, France, Japon,
Royaume-Uni). En voici la liste :
| Abbréviation |
Centre |
| BCM |
Human Genome Sequencing Center / Baylor College of Medicine, Houston (Texas) ; USA |
| Beijing |
Human Genome Center / Beijing Genomics Institute, Académie chinoise des sciences, Beijing ; Chine |
| CSHL |
Lita Annenberg Hazen Genome Center / Cold Spring Harbor Laboratory, Cold Spring Harbor (N.Y.), USA |
| GBF |
Gesellschaft fur Biotechnologische Forschung mbH, Braunschweig ; Allemagne |
| GS |
Genoscope, Evry ; France |
| GTC |
GTC Sequencing Center / Genome Therapeutics Corp., Waltham (Mass.) ; USA |
| IMB |
Department of Genome Analysis / Institute of Molecular Biotechnology, Jena ; Allemagne |
| JGI |
Joint Genome Institute / U.S. Department of Energy, Walnut Creek (Calif.) ; USA |
| Keio |
Département de biologie moléculaire / Ecole de médecine de l'université Keio, Tokyo ; Japon |
| MPIMG |
Max Planck Institute for Molecular Genetics, Berlin ; Allemagne |
| MSC |
Multimegabase Sequencing Center / The Institute for Systems Biology, Seattle (Wash.) ; USA |
| RIKEN |
RIKEN Genomic Sciences Center, Yokohama ; Japon |
| SC |
The Wellcome Trust Sanger Institute (Sanger Center), Hinxton ; Royaume-Uni |
| SGTC |
Stanford Genome Technology Center, Stanford (Calif.) ; USA |
| SHGC |
Stanford Human Genome Center, Stanford (Calif.) ; USA |
| UOACGT |
University of Oklahoma / Advanced Center for Genome Technology, Norman (Okla.), USA |
| UTSW |
University of Texas / Southwestern Medical Center, Dallas (Tex.) ; USA (ce centre n'est plus en activité) |
| UWGC |
University of Washington Genome Center, Seattle (Wash.) ; USA |
| WI |
Whitehead Institute / MIT Center for Genome Research, Cambridge (Mass.) ; USA |
| WUGSC |
Washington University / Genome Sequencing Center, St Louis (Mo.) ; USA |
D'autres institutions et centres de séquençage, sans faire officiellement partie du consortium, ont également contribué de façon substantielle à l'effort de séquençage du génome humain. Voici quelques uns des plus importants contributeurs :
| CGM |
Center for Genetics in Medicine (Perkin Elmer/Washinton Univ.), St Louis (Mo.) ; USA (ce centre n'est plus en activité) |
| JST |
Japan Science and Technology Corporation (équipes sous contrat à la fondation japonaise pour la recherche sur le cancer (JFCR) et aux universités Keio, Kitasato et Tokai) ; Japon |
| TIGR |
The Institute for Genomic Research, Rockville (Maryland) ; USA |
| YMGC |
The National Yang Ming University Genome Center, Taipei ; Taiwan |
Enfin, trois institutions ont joué un rôle crucial dans le projet au niveau bioinformatique : il s'agit du National Center for Biotechnology Information (NCBI) aux National Institutes of Health aux Etats-Unis, de l'European Bioinformatics Institute (EBI) à Cambridge, au Royaume-Uni, et de l'Université de Californie à Santa Cruz (UCSC), aux Etats-Unis. L'EBI a notamment créé, avec son voisin le Sanger Institute, le projet Ensembl (e!), qui effectue une recherche automatique des gènes dans la séquence du génome humain et permet de "naviguer" le long de cette séquence "annotée". L'UCSC propose également un tel navigateur.
Les différents centres impliqués dans le séquençage du génome humain ont retenu des chromosomes ou des régions chromosomiques de tailles différentes, chacun selon sa capacité. Leurs contributions respectives (mesurées en pourcentage de la séquence finie non redondante présente dans les bases de données début 2003) sont représentées ci-dessous :

Sur le plan international, les contributions des 6 pays impliqués dans le projet sont les suivantes :
| Etats-Unis | 60,8 % |
| Royaume-Uni | 28,9 % |
| Japon | 4,9 % |
| France | 2,8 % |
| Allemagne | 1,5 % |
| Chine | 0,7 % |
|
| Liste des questions |
- Quelle a été la contribution française au projet Génome humain ?
|
Le Genoscope, seul représentant de la
France au sein du consortium, a choisi de séquencer le bras long du
chromosome 14 humain (la partie séquençable de ce chromosome, celle
qui contient les gènes ; voir plus haut), soit
environ 3% du génome humain. L'effort de séquençage a été coordonné et
assuré à 86 % par le Genoscope, qui s'est également chargé de la
recherche des gènes, ou annotation. Le chromosome 14 est représenté
ci-dessous parmi les 23 autres types de chromosomes humains (cliquez
sur l'image pour l'agrandir).

Cet effort de séquençage a abouti, courant 2002, à une séquence continue de 87 410 661 nucléotides, qui s'étend d'un bout à l'autre de la partie séquençable du bras long du chromosome 14. Les résultats de l'analyse de cette séquence ont été publiés le 1er janvier 2003 dans la revue Nature (voir le communiqué de presse). Il s'agissait de la première séquence d'un chromosome humain publiée sans trou résiduel et, au moment de la publication, de la plus longue séquence d'ADN jamais déterminée d'un seul tenant. Pour mesurer les progrès accomplis en une décennie, on peut se souvenir du séquençage du génome de la levure, achevé en 1996, qui avait mobilisé près d'une centaine de laboratoires pendant 6 ans ; or le génome de la levure ne mesure que 13 millions de nucléotides, contre 87 millions pour le chromosome 14...
Les chercheurs du Genoscope ont mis à profit leur expertise en bioinformatique pour identifier les gènes dans la séquence du chromosome 14. Aux 506 gènes déjà connus sur ce chromosome, ils ont ajouté 344 autres gènes, validés ou "putatifs". En outre, deux régions d'une grande importance pour le système immunitaire ont été caractérisée. Près de 60 gènes du chromosome 14 avaient déjà été impliqués dans des maladies génétiques. Depuis le début de la décennie, les progrès du séquençage ont aidé diverses équipes à identifier 6 nouveaux gènes de maladies génétiques sur ce chromosome, en leur faisant économiser de nombreux mois de travail (voir "A quoi servira le projet Génome humain ?" et "Qu'est-ce qu'une maladie génétique ?"). Des dizaines d'autres gènes "morbides" devraient suivre. Pour que ces recherches puissent aboutir, il est important que les gènes soient correctement délimités et que l'inventaire des gènes soit complet. Les chercheurs du Genoscope s'efforcent donc de parfaire leur travail d'annotation, et disposent même d'outils pour évaluer et améliorer l'annotation de l'ensemble du génome humain. |
| Liste des questions |
- Combien a coûté le projet Génome humain ?
|
Le coût total du projet Génome humain est d'environ 2,7 milliards de dollars (dollars de l'année fiscale 1991), alors qu'il avait été estimé à 3 milliards de dollars au début du projet, en 1990. Cette économie résulte de progrès techniques considérables et de l'accélération du projet, terminé avec deux ans d'avance sur les prévisions. Une grande part de la somme a été dépensée pour la finition de l'ébauche génomique obtenue en 2000. Le séquençage du chromosome 14, quant à lui, a coûté environ 10 millions d'euros, auxquels s'ajoutent plusieurs millions d'euros pour l'analyse et l'annotation.
Les bénéfices attendus pour la société dans son ensemble excéderont sans doute largement le montant de cet investissement : les recherches fondées sur le génome devraient déboucher dans les prochaines décennies sur un essor de l'industrie biotechnologique, de nouveaux traitements et médicaments et de grands progrès pour la santé humaine, par exemple dans le domaine du diagnostic. |
| Liste des questions |
- Avec la fin du projet Génome humain, les grands centres de séquençage ont-ils encore une utilité ?
|
Loin de diminuer, la liste des génomes à séquencer ne cesse en fait de s'allonger. Pour interpréter la séquence d'un génome, il est en effet précieux de la comparer à celle d'autres génomes. Les espèces comparées peuvent être proches, ou issues de lignées ayant divergé tôt au cours de l'évolution. Les enseignements ne seront pas les mêmes. Plus deux espèces seront distantes en termes d'évolution, plus leurs séquences génomiques auront divergé, ce qui peut limiter la portée de la comparaison. Toutefois, les parties ayant le moins divergé, à savoir les gènes, seront plus clairement distinguées du reste de la séquence : ces régions "conservées" entre les deux génomes serviront d'indices pour la recherche des gènes. Il est donc instructif de disposer des génomes d'un spectre d'espèces choisies en des points clés de l'arbre évolutif.
Prenons l'exemple du génome humain. Le chimpanzé est notre plus proche parent dans le monde animal, et le séquençage de son génome, identique à 99 % au nôtre, livrera des informations passionnantes sur les changements génétiques qui ont eu lieu au cours des derniers millions d'années de l'évolution de la lignée humaine. Le séquençage du génome de la souris, achevé en 2003, va quant à lui profiter à l'ensemble des recherches biomédicales, car ce rongeur est de longue date un animal modèle en génétique. Les séquences des génomes d'autres mammifères placentaires viendront compléter les enseignements du génome de la souris. Il sera également instructif de séquencer le génome d'un représentant des marsupiaux, tôt séparés du reste des mammifères. Le génome du kangourou pourrait éclairer les étapes les plus précoces de l'histoire des mammifères, et offrir un bon compromis pour la recherche des gènes humains.
Au delà, ce sont les représentants d'autres branches de vertébrés qui faciliteront cette recherche, car les vertébrés ont conservé pour l'essentiel un bagage commun de gènes. Parmi les vertébrés au génome séquencé ou en voie de l'être, un oiseau, le poulet, et deux poissons au génome compact, dont l'un, Tetraodon nigroviridis, a été séquencé pour moitié au Genoscope. Le Genoscope s'est servi en 2000 de comparaisons entre les séquences génomiques de Tetraodon et de l'être humain pour estimer le nombre de gènes humains à 30 000, et il continue de s'en servir pour parfaire l'annotation du génome humain. Plus loin encore, on trouve les génomes d'une ascidie, animal marin proche parent des vertébrés, puis du ver Caenorhabditis elegans et de la mouche Drosophila melanogaster. Le génome d'organismes multicellulaires très simples pourrait révéler les changements qui ont accompagné l'organisation des cellules en "sociétés cellulaires". Enfin, le génome de la levure, organisme unicellulaire, est utile pour découvrir les éléments communs à l'ensemble des eucaryotes, êtres vivants au génome abrité dans un noyau au sein de la cellule, de l'homme au chêne ou à l'infusoire. La compréhension de mécanismes eucaryotes fondamentaux comme la condensation, la recombinaison ou la ségrégation des chromosomes lors de la division cellulaire est d'une grande importance dans l'étude de certaines maladies humaines.
| | Aux raisons énoncées ci-dessus pour entreprendre de nouveaux programmes de séquençage s'ajoutent des raisons plus spécifiques. La séquence du génome de tel ou tel organisme peut être importante pour des raisons économiques (microbe important pour l'industrie laitière, par exemple) ou médicales (quelle batterie de gènes explique la virulence d'une bactérie par rapport à une espèce voisine?). On comprend aisément l'intérêt du séquençage du génome du riz, base de l'alimentation de la moitié de l'humanité, ou du génome de l'anophèle, moustique vecteur du paludisme qui tue plus d'un million de personnes chaque année. Nombre de pathogènes - bactéries ou eucaryotes - ont déjà été séquencés, et d'autres le seront bientôt. Enfin, l'exploration du monde bactérien dans son ensemble occupera les centres de séquençage pour de nombreuses décennies : les études de génomique entreprises depuis quelques années dans des milieux très divers (sol, océan, boues d'épuration, etc.) ont en effet révélé une formidable diversité bactérienne. Nous ne connaîtrions qu'environ 1% des espèces de bactéries, les autres étant passées jusque là inaperçues, faute d'être cultivables. Les bactéries font preuve d'une grande inventivité métabolique, et ces espèces mystérieuses constituent donc un riche réservoir de gènes qui pourraient avoir une grande importance dans le domaine de l'industrie ou de l'environnement. L'exploration des génomes de ces bactéries est une tâche d'une ampleur comparable à celle du projet Génome humain, pour laquelle les grands centres de séquençage restent plus que jamais nécessaires. |
| Liste des
questions |
|
|