Toutes les versions de cet article :
Les traitements informatiques appliqués aux données produites par le Genoscope entrent dans la catégorie des applications dites ’data intensive’ (à usage intensif de données, en français). Cette famille d’applications se caractérise par la mise en œuvre de grandes quantités de données, qui sont lues, écrites et modifiées par des programmes qui vont les filtrer, en évaluer la qualité, les rapprocher (en les comparant) de données déjà connues, ou encore en analyser le contenu par des méthodes statistiques. Ces traitements entrent parfois aussi dans la catégorie des traitements dits ’calcul intensif’.
Dans tous les cas, les temps d’exécution sont longs, que ce soit du fait de la quantité de données mise en œuvre ou de la complexité de l’algorithme . Heureusement, il est rare d’avoir à traiter de très grandes quantités de données avec un algorithme coûteux.
La production quotidienne de séquences par les séquenceurs automatiques d’ADN type 3730 génère environ 6 Go de données brutes (chromatogrammes) par jour. Pour certains projets, ces données brutes sont soumises à un dépôt publiquement accessible, le ’trace repository’ .
Les différentes étapes de préparation de l’ADN avant séquençage sont enregistrées, pour chaque échantillon produit, dans un système de gestion de données du laboratoire, le LIMS (Laboratory Information and Management System). Début 2007, la base de données LIMS contenait ainsi les informations de traitement (ou manipulation) des 300.000 plaques d’ADN ayant conduit à la production de 44 millions de séquences. Cette base de données est en constante évolution pour prendre en compte les modifications continues du processus de production, dues à l’introduction d’optimisations et de nouvelles technologies.
| Responsable : Claude Scarpelli ([Email]) |
|
| Système | Laurent Sainte Marthe Sylvain Bonneval Denis Debaussart Fabien Dupont Claude Verdier |
| Flux et traitement de données | Jean-Marc Aury Arnaud Couloux Carole Dossat Frédérick Gavory Maud Haquelle |
| Développement et Systèmes d’Information | Guillaume Albini Franck Anière Simone Duprat Shahinaz Gas E’Krame Jacoby Sumitta Samair |
| Développements technologiques | Julien Patrouix |
© Genoscope - Centre National de Séquençage
2 rue Gaston Crémieux CP5706 91057 Evry cedex
Tél: (+33) 0 1 60 87 25 00
Fax: (+33) 0 1 60 87 25 14
Accueil
|
Présentation
|
Projets |
Actualités |
Panorama de presse |
Ressources |
Contact
RSS 2.0
| Plan du site
|
Crédits
|
Mentions légales