Notre mission

La thématique principale de l'équipe R&D Bioinformatique et Séquençage est le traitement des données issues des séquençeurs nouvelle génération. Le groupe interagit avec le laboratoire de séquençage, l'équipe développement technologique (développement de nouveaux protocoles et mise en place de nouveaux séquençeurs), et les équipes de recherche. Les missions sont multiples : la mise en forme des données produites par les séquençeurs, le contrôle qualité des données, l'assemblage de génomes et de transcriptomes, l'annotation de génomes eucaryotes.

Veille technologique

L'équipe R&D Bioseq est en interaction étroite avec l'équipe développement technologique afin de développer de nouveaux protocoles qui répondent aux besoins des analyses bioinformatiques sous-jacentes (metagenomique, transcriptomique, assemblage, annotation ...).

Contrôle Qualité

L'équipe R&D Bioseq a mis en place un processus de contrôle qualité des données issues des séquenceurs. Ce contrôle est basé sur des métriques identifiées en fonction des différentes technologies de séquençage et des types d'analyses bioinformatiques sous-jacentes.

Assemblage

A partir de collections de lectures aléatoires d'un projet de séquençage de génome, dit WGS (Whole Genome Shotgun), l'étape d'assemblage a pour but de reconstituer la séquence des chromosomes de l'organisme étudié.

Annotation

L'annotation a pour objectif de définir le long des séquences assemblées la structure des gènes, c'est-à-dire leurs positions de début et de fin, ainsi que celles de leurs exons.

Visualisation

Les résultats des différentes analyses sont stockées dans une base de données et sont accessibles par les collaborateurs par une interface dédiée, un navigateur GGB (Generic Genome Browser).

Workflow appliqué aux données générées.
Workflow appliqué aux données générées.




 

 
(Extrait du GGB de la vigne) Annotation d'un locus du K11 de la vigne.
(Extrait du GGB de la vigne) Annotation d'un locus du K11 de la vigne.

notre équipe

L'équipe R&D en Bioinformatique et Séquençage est composée d'une vingtaine de bioinformaticien(ne)s. Cette équipe fait partie du Laboratoire d'Informatique Scientifique du Genoscope, qui est intégré à l'Institut de Biologie François Jacob du CEA.

Jean-Marc Aury

Responsable d'équipe

Frédérick Gavory

Production

Paul Mielle

Production

Stefan Engelen

Production, Evaluation technologies de séquençage

Caroline Belser

Evaluation technologies de séquençage

Arnaud Couloux

Assemblage

Benjamin Istace

Assemblage, Longues lectures et Oxford Nanopore

Benjamin Noel

Annotation

Marc Wessner

Annotation

Corinne Da Silva

Transcriptome, Annotation

Simone Duprat

Assemblage

Aimeric Bruno

Calcul parallèle et HPC, Optimisation de workflows

Nachida Tadrent

Annotation

nous rejoindre

L'équipe R&D Bioseq propose 3 stages de niveau bac+5 (université ou école d'ingénieurs) d'une durée de 6 mois à partir de début 2020. Seuls les stages non pourvus sont affichés sur cette page. Les anciennes offres sont ici : voir archives.

Sujet A

Annotation de génomes de tiques


Descriptif: Dans le cadre d'un projet France Génomique (france-genomique.org), le Genoscope réalise le séquençage de plusieurs génomes de tiques, dont Ixodes ricinus, vecteur de multiples pathogènes d'animaux vertébrés, comme la bactérie Borrelia burgdorferi responsable de la maladie de Lyme chez l'humain. L'analyse de ces génomes va permettre d'apporter un éclairage à l'échelle moléculaire de la diversité génétique de ces espèces, ainsi que sur la relation avec leurs pathogènes. L'approche choisie fait appel à plusieurs technologies allant du séquençage sur Illumina HiSeq4000 à l'exploitation de librairies Hi-C. La grande taille de ces génomes (environ 2Gb) et leurs hétérozygoties importantes représentent un challenge supplémentaire dans l'obtention de leurs séquences. Dans le but de procéder à des analyses de niveaux d'expressions des gènes d'Ixodes ricinus, les transcriptomes de plusieurs tissus de cette espèce ont été séquencés.

L'étudiant aura pour objectif de réaliser l'annotation de ces génomes. Pour cela, il devra mettre en œuvre les méthodes et outils en usage au laboratoire pour la prédiction des gènes Eucaryotes, et au besoin les adapter aux propriétés des génomes étudiés. Ainsi, l'étudiant devra faire un état des lieu des ressources disponibles pour la prédiction de gènes appliquées aux génomes de tiques, les exploiter ainsi que les transcriptomes générés dans le cadre de ce projet, et proposer un set de gènes localisés sur chacun de ces génomes à la suite d'une validation experte.

Le stage se déroulera au sein d'une équipe d'environ une quinzaine de personnes impliquées dans différentes thématiques bioinformatiques, allant du séquençage à l'analyse des génomes et de transcriptomes. L'étudiant devra faire preuve d'esprit d'équipe, de curiosité et d'adaptation dans le travail qui lui sera confié. Il devra être familier avec l'environnement type unix, avoir des connaissances de bases dans les langages de script (comme perl, python, bash, awk ou R) et en biologie des génomes.


Sujet B

Utilisation de longues lectures pour l'amélioration du catalogue de gènes du projet Tara Océans


Descriptif: L'ensemble des données du projet Tara Océans ont été générées à partir de la technologie commercialisée par Illumina. Cette technologie séquence des fragments de petites tailles, il faut donc passer par une étape d'assemblage pour reconstituer les gènes présents dans un échantillon. L'arrivée du séquençage 'longue lecture' Oxford Nanopore Technologies (ONT) permet de s'affranchir de cette étape d'assemblage et donc, permettra en théorie de reconstituer des gènes plus complets. Dans ce contexte, nous proposons un stage orienté 'recherche en bioinformatique', visant à développer une méthode permettant de tirer partie de ces nouvelles données afin d'améliorer le catalogue des gènes existant.

Le stage se déroulera au sein d'une équipe d'environ une quinzaine de personnes impliquées dans différentes thématiques bioinformatiques, allant du séquençage à l'analyse des génomes et de transcriptomes. L'étudiant devra faire preuve d'esprit d'équipe, de curiosité et d'adaptation dans le travail qui lui sera confié. Il devra être familier avec l'environnement type unix, avoir des connaissances de bases dans les langages de script (comme perl, python, bash, awk ou R) et en biologie des génomes.


Sujet C

Séquençage nanopore et bioinformatique


Mots clés: Basecalling, Epigénétique, Traitement du signal, Oxford Nanopore


Descriptif: Le Genoscope participe à de nombreux projets visant à séquencer le génome d'organismes modèles. La plateforme de séquençage du Genoscope génère une grande quantité de données à l'aide de la technologie commercialisée par Oxford Nanopore Technologies (ONT, nanoporetech.com). Cette technologie permet de lire un fragment d'ADN qui transite dans un pore. Le passage du fragment d'ADN génère un courant électrique qui sera converti en bases à l'aide de logiciels, cet étape est appelée le basecalling. De nombreux outils de basecalling existent et permettent d'adresser différentes questions en fonction des caractéristiques du génome (contenu en GC, homopolymère, répétition ...) et de la question biologique (bases modifiées, ADN ou ARN). Le Genoscope souhaite intégrer et utiliser ces outils afin d'obtenir des données de haute qualité et adaptées aux projets de séquençage. La mission du stagiaire consistera à effectuer la veille technologique de ce domaine, d'évaluer les outils existants et d'intégrer les outils choisis au pipeline existant.

Le stage se déroulera au sein d'une équipe d'environ une quinzaine de personnes impliquées dans différentes thématiques bioinformatiques, allant du séquençage à l'analyse des génomes et de transcriptomes. L'étudiant devra faire preuve d'esprit d'équipe, de curiosité et d'adaptation dans le travail qui lui sera confié. Il devra être familier avec l'environnement type unix, avoir des connaissances de bases dans les langages de script (comme perl, python, bash, awk ou R) et en biologie des génomes.


Référence: Performance of neural network basecalling tools for Oxford Nanopore sequencing (Genome Biology 2019)


Informations complémentaires sur les stages

Durée : 6 mois

Date de validité : 15/01/2020

Rémunération : À partir de 700e brut (selon type d'étude) + tickets restaurant et éventuellement une aide au logement ou transport.


Merci de nous envoyer vos CV et lettre de motivation par mail.


Adresse:

Institut de Génomique - Genoscope
2 Rue Gaston Crémieux
91000 Évry, FRANCE