Notre mission

La thématique principale de l'équipe R&D Bioinformatique et Séquençage est le traitement des données issues des séquençeurs nouvelle génération. Le groupe interagit avec le laboratoire de séquençage, l'équipe développement technologique (développement de nouveaux protocoles et mise en place de nouveaux séquençeurs), et les équipes de recherche. Les missions sont multiples : la mise en forme des données produites par les séquençeurs, le contrôle qualité des données, l'assemblage de génomes et de transcriptomes, l'annotation de génomes eucaryotes.

Veille technologique

L'équipe R&D Bioseq est en interaction étroite avec l'équipe développement technologique afin de développer de nouveaux protocoles qui répondent aux besoins des analyses bioinformatiques sous-jacentes (metagenomique, transcriptomique, assemblage, annotation ...).

Contrôle Qualité

L'équipe R&D Bioseq a mis en place un processus de contrôle qualité des données issues des séquenceurs. Ce contrôle est basé sur des métriques identifiées en fonction des différentes technologies de séquençage et des types d'analyses bioinformatiques sous-jacentes.

Assemblage

A partir de collections de lectures aléatoires d'un projet de séquençage de génome, dit WGS (Whole Genome Shotgun), l'étape d'assemblage a pour but de reconstituer la séquence des chromosomes de l'organisme étudié.

Annotation

L'annotation a pour objectif de définir le long des séquences assemblées la structure des gènes, c'est-à-dire leurs positions de début et de fin, ainsi que celles de leurs exons.

Visualisation

Les résultats des différentes analyses sont stockées dans une base de données et sont accessibles par les collaborateurs par une interface dédiée, un navigateur GGB (Generic Genome Browser).

Workflow appliqué aux données générées.
Workflow appliqué aux données générées.




 

 
(Extrait du GGB de la vigne) Annotation d'un locus du K11 de la vigne.
(Extrait du GGB de la vigne) Annotation d'un locus du K11 de la vigne.

notre équipe

L'équipe R&D en Bioinformatique et Séquençage est composée d'une vingtaine de bioinformaticien(ne)s. Cette équipe fait partie du Laboratoire d'Informatique Scientifique du Genoscope, qui est intégré à l'Institut de Génomique du CEA.

Jean-Marc Aury

Responsable d'équipe

Frédérick Gavory

Production

Aurélie Périn

Production

Eidji Bord

Production

Stefan Engelen

Production, Evaluation technologies de séquençage

Caroline Belser

Evaluation technologies de séquençage

Arnaud Couloux

Assemblage

Carole Dossat

Assemblage

Léo D'Agata

Assemblage

Benjamin Istace

Assemblage, Longues lectures et Oxford Nanopore

Benjamin Noel

Annotation

Marc Wessner

Annotation

Corinne Da Silva

Transcriptome, Annotation

Marion Dubarry

Annotation

Artem Kourlaiev

Calcul parallèle, bigData et HPC, Optimisation de workflows

Simone Duprat

Assemblage

Aimeric Bruno

Calcul parallèle et HPC, Optimisation de workflows

Nachida Tadrent

Annotation

nous rejoindre

L'équipe R&D Bioseq propose 4 stages de niveau bac+5 (université ou école d'ingénieurs) d'une durée de 6 mois à partir de début 2019. Seuls les stages non pourvus sont affichés sur cette page. Les anciennes offres sont ici : voir archives.

Sujet 1

Assemblage de génomes hétérozygotes de plantes à base de longues lectures


Mots clés: Assemblage, Oxford Nanopore, Illumina, SNPs.


Descriptif: Le Genoscope participe à de nombreuses initiatives visant à séquencer les génomes d’organismes variés. Pour cela le centre dispose d’une grande capacité de séquençage de Seconde Génération (Illumina) mais également de Troisième Génération (Oxford Nanopore Technologies). Les séquenceurs appartenant à cette dernière catégorie sont relativement nouveaux (2014 et 2017), mais permettent déjà d’obtenir de très bons assemblages, du moins pour les génomes homozygotes. L’assemblage de génomes hétérozygotes, pour lesquels les génomes maternel et paternel sont variables, reste encore un challenge méthodologique. En effet, le taux d’erreur des séquences générées étant relativement élevé (environ 10%), les techniques usuelles ne sont pas applicables ici. Dans ce contexte, nous proposons un stage orienté “recherche en bioinformatique”, visant à développer une méthode facilitant l’assemblage de génomes hétérozygotes, en s’appuyant sur des données Illumina et Nanopore.


Référence: Phased Diploid Genome Assembly with Single Molecule Real-Time Sequencing (Nature methods, 2016).


Python, Détection de SNP, Algorithmique, R, Gestionnaire de workflows

Sujet 2

Analyse des modifications épigénétiques par séquençage Oxford Nanopore


Mots clés: Epigénétique, Oxford Nanopore, Traitement du signal, Basecalling.


Descriptif: Le Genoscope participe à de nombreuses initiatives visant à séquencer les génomes d’organismes variés. La plateforme de séquençage du Genoscope génère une grande quantité de données en utilisant la technologie récente d’Oxford Nanopore Technologies (ONT). Cette technologie permet de lire un fragment d’ADN qui transite dans un pore. Par cette technique, chaque base de l’ADN ou de l’ARN peut être différenciée, aussi bien les bases classiques (A, C, G, T et U) que les bases modifiées. Dans le cadre d’un projet de reséquençage d’une centaine de génome de plantes à l’aide de cette technologie, le Genoscope souhaite intégrer et utiliser des outils d'analyse des bases modifiées. La mission du stagiaire consistera à effectuer la veille technologique de ce domaine afin d'évaluer les outils existants et intégrer les outils choisi au pipeline existant.


Référence: Detecting DNA cytosine methylation using nanopore sequencing (Nature methods, 2017).


Perl, Python R, Gestionnaire de workflows

Sujet 3

Assemblage guidé de grands génomes de plantes en utilisant le séquençage par nanopore


Mots clés: Assemblage, Oxford Nanopore, Génomique comparative.


Descriptif: Le Genoscope participe à de nombreuses initiatives visant à séquencer les génomes d’organismes variés. Pour cela le Genoscope s’appuie notamment sur le séquençage nanopore, commercialisée par Oxford Nanopore Technologies (ONT). Les premières versions du séquenceur (MinION) proposées par ONT ne permettaient, de part leur débit restreint, de ne séquencer que de petits génomes de quelques dizaines de mégabase. A présent, la version haut-débit (PromethION) permet de séquencer des génomes de plusieurs centaines de mégabases. Cependant le séquençage de génomes de plusieurs dizaines de gigabases reste coûteux. Dans ce contexte, nous proposons un stage orienté “recherche en bioinformatique”, visant à développer une méthode permettant de produire des assemblages guidés (en utilisant un génome de référence proche et des lectures longues) pour des génomes de plantes >10Gb.


Référence: CrossStitch (https://github.com/schatzlab/crossstitch).


Python, Assemblage, Comparaison de génomes, Algorithmique, R

Sujet 4

Utilisation de longues lectures pour l’amélioration du catalogue de gènes du projet Tara Océans


Mots clés: Transcriptomique, RNA-Seq, Assemblage, Oxford Nanopore, Illumina.


Descriptif: L'ensemble des données du projet Tara Océans ont été générées à partir de la technologie commercialisée par Illumina. Cette technologie séquence des fragments de petites tailles, il faut donc passer par une étape d'assemblage pour reconstituer les gènes présents dans un échantillon. L’arrivée du séquençage « longue lecture » Oxford Nanopore Technologies (ONT) permet de s'affranchir de cette étape d'assemblage et donc, permettra en théorie de reconstituer des gènes plus complets. Dans ce contexte, nous proposons un stage orienté “recherche en bioinformatique”, visant à développer une méthode permettant de tirer partie de ces nouvelles données afin d'améliorer le catalogue des gènes existant.


Référence: A global ocean atlas of eukaryotic genes (Nature Communications, 2018).


Perl/Python, Bash, Analyse génomique

Informations complémentaires sur les stages

Durée : 6 mois

Date de validité : 15/01/2019

Rémunération : À partir de 700e brut (selon type d'étude) + tickets restaurant et éventuellement une aide au logement ou transport.


Merci de nous envoyer vos CV et lettre de motivation par mail.


Adresse:

Institut de Génomique - Genoscope
2 Rue Gaston Crémieux
91000 Évry, FRANCE
-1 et -1 pour IE