Plateformes et équipements - France Génomique

Un réseau de plateformes spécialisées et complémentaires

L’infrastructure France Génomique rassemble la majorité des plateformes de séquençage et/ou de bio-informatique en France :

les plateformes nationales du Génoscope et du CNRGH à Évry, dont les capacités de séquençage, génotypage et bio-informatique permettent la réalisation de projets à très grande échelle,

les plateformes de séquençage ayant chacune leurs expertises et technologies spécifiques ainsi que les outils de bio-informatique ad hoc,

les plateformes associées à France Génomique,

le volume de données à stocker et à traiter augmentant de façon exponentiel, les partenaires de France Génomique peuvent s’appuyer sur le TGCC- Très Grand centre de Calcul- du CEA.

FRANCE GENOMIQUE a également reconnu comme plateformes associées de bioinformatique, un certain nombre de plateformes membres de l'IFB (Institut Français de Bioinformatique), travaillant en collaboration avec les plateformes de séquençage de FRANCE GENOMIQUE et les utilisateurs de ces plateformes.

LIGANGo@lbilille

GenomEastGenomax

PSI2BCPOPSMigaleInforBioPlantBioinfoPF

GenomiqueENSICGexBiomicsGenom'ICiGenSeqCUBICBIOINFO Pasteur

GenoscopeCNRGHTGCCMicroScope

UCAGenomix

TGML

MGXATGC

GeT-PlaGeGenoToul Bioinfo

Survolez le nom de la plateforme sur la carte et cliquez pour accéder à la fiche plateforme.

Plateformes nationales de séquençage
Plateformes de séquençage
Plateformes de séquençage associées
Plateformes de bio-informatique associées
TGCC : Très Grand Centre de Calcul

VOIR TOUTES LES PLATEFORMES

Plateformes nationales de séquençage
Plateformes régionales de séquençage
Plateformes de bio-informatique
Plateformes associées
TGCC : Très Grand Centre de Calcul

VOIR TOUTES LES PLATEFORMES

Un parc d'équipements très haut débit et de 3ème génération

FRANCE GENOMIQUE est équipée des technologies les plus performantes et innovantes dédiées au séquençage. Le parc évolue très rapidement avec le très haut débit (NovaSeq 6000) et les appareils de séquençage dit de 3ème génération (technologie molécule unique).

FRANCE GENOMIQUE est ainsi capable de répondre à l’ensemble des demandes de projets de séquençage.

Une infrastructure de calcul haute performance

Le Très Grand Centre de Calcul (TGCC) du CEA est une infrastructure dédiée au calcul haute performance, capable d’héberger des supercalculateurs d’échelle petaflopique et conçue sur la base d’une architecture orientée vers les données. Au sein du TGCC, le CCRT dispose d’une extension qui est dédiée aux utilisateurs du projet FRANCE GÉNOMIQUE.

Cette e-infrastructure de stockage et de traitement des données, mise en œuvre par les équipes CEA/DIF permet aux utilisateurs de FRANCE GÉNOMIQUE de bénéficier d’un espace de stockage moyen terme (échelle : projets scientifiques de plusieurs années) de plusieurs petaoctets, connecté à plusieurs milliers de cœurs de calcul scalaires par une interconnexion à haute performance. Les volumes de données à stocker et à traiter augmentant de façon exponentielle, elle est également conçue pour être évolutive, avec l’objectif de relever demain l’ensemble des défis de la génomique.

Equipements et capacités

La configuration dédiée à FRANCE GENOMIQUE est composée de :

180 nœuds bi processeurs (Intel Sandy Bridge E5-2680, 2.7 GHz, 8 cœurs) avec 128 Go de mémoire par noeud, soit 2.880 cœurs (Bull),
2 systèmes à très grande mémoire Bullx S6410 à 2 To de mémoire,
9 lames hybrides, équipées de GPU nvidia Kepler.

L’hébergement des données est réalisé grâce à la configuration de stockage suivante :

un stockage moyen terme présentant un système de fichiers global de 5 Po, dont 2 Po sur disque (système de stockage hiérarchique Lustre + IBM HPSS),
un dispositif d’archivage des données initiales.

Expertise et support

Les équipes du CEA/DIF ont développé une expertise et une compétence reconnue de façon internationale aussi bien dans le domaine de la gestion des très grands volumes de données (contribution à des développements Open-source, pilotage de EOFS …) que dans la définition et le management de très grands centres de calculs. Des équipes d’assistance et de support aux utilisateurs sont disponibles pour les aider à tirer le meilleur parti des moyens du centre.

Une équipe de support applicatif dédiée est mise en œuvre par les plateformes nationales (CEA), pour le compte de FRANCE GÉNOMIQUE.

Quelques réalisations

Afin de caractériser un ensemble de 83 familles protéiques sans fonctions connues et regroupant quelques 60.000 séquences, les chercheurs de Genoscope ont mené une campagne de modélisation sur le supercalculateur Titane du CCRT. Cette phase, qui aurait nécessité 280.000 heures de calcul, a pu être exécutée en seulement 70 heures sur 4.000 processeurs. A partir des résultats, les chercheurs ont créé un catalogue de signatures structurales spécifiques pour chacune des familles étudiées. Ce catalogue va apporter aux biochimistes des informations précieuses pour découvrir de nouvelles activités enzymatiques.

Le Genoscope utilise les moyens de calculs du TGCC/CCRT depuis déjà plusieurs années, notamment via les appels à projets DARI. Dans ce cadre, le projet TARA OCÉANS a bénéficié de plus de 3,5 millions d’heures de calculs pour étudier la diversité des organismes marins. Pour ce faire, différents outils d’analyse de séquences ont été portés sur cette infrastructure : BLAST, BLAT, InterProScan & CDDsearch. Des codes spécifiques ont été conçus et déployés afin d’adapter ces outils aux contraintes techniques d’exploitation des machines du TGCC (parallélisation massive par les données, contrôle d’exécution, reprise sur erreur, jobs unitaires courts).

En savoir plus

Site web : www-hpc.cea.fr/, www-ccrt.cea.fr

Responsable de la plateforme : Pierre Leca

CEA DAM-île de France
Bruyères-le-Châtel
91297 Arpajon Cedex

Contact: e-infrastructure@france-genomique.org

Illumina propose du séquençage de haut débit et très haut débit.

Après amplification clonale de fragments d’ADN courts, le séquençage par synthèse (SBS) commence : chaque base émet un signal de fluorescence unique lorsqu’elle est ajoutée au brin en cours de synthèse. La détection du signal à chaque incorporation détermine la séquence d’ADN.

La large gamme d’appareils permet de répondre à tout un panel de besoins tant en terme d’applications ou de rendement.

MiniSeq

Run time

20 hours

Maximum Output

7.5 Gb

Max Reads per run

44-55 millions

Max Reads length

2X150 bp

Plateformes équipées

MGX
Biomics

MiSeq

Run time

4-55 hours

Maximum Output

13.2-15 Gb

Max Reads per run

40-50 millions

Max Reads length

2X300 bp

Plateformes équipées

CNRGH
ICGex
Biomics
GeT-PlaGe
Genoscope
LIGAN
GO@L
ECOGENO
PGTB
Genom’IC
ProfileXpert
iGenSeq

NextSeq 500

Run time

29 hours

Maximum Output

100-120 Gb

Maximum Reads per run

Up to 800 millions

Maximum Reads length

2X150 bp

Plateformes équipées

CNRGH
Biomics
TGML
PSI2BC
LIGAN
GENOMAX
POPS
Genom’IC
ProfileXpert

HiSeq 2500

Run time

< 1-3.5 days

Maximum Output

250-300 Gb

Maximum Reads per run

4 billion

Maximum Reads length

2X125 bp

Plateforme équipée

ProfileXpert

NextSeq 2000

Run time

11- 48h

Maximum Output

360 Gb

Maximum Reads per run

1.2 billion

Maximum Reads length

2X150 bp

Plateformes équipées

GenomiqueENS
ICGex
Biomics
GenomEast
UCAGenomiX
TGML
PSI2BC
GENOMAX
iGenSeq
PTGB
Genom’IC

iSeq 100

Run time

9.5- 19h

Maximum Output

1.2 Gb

Maximum Reads per run

4 million

Maximum Reads length

2X150 bp

Plateformes équipées

Biomics
GenomEast
LIGAN
PTGB

NovaSeq 6000

Run time

13-44h

Maximum Output

4800-6000 Gb

Maximum Reads per run

32-40 billion

Maximum Reads length

2X250 bp

Plateformes équipées

CNRGH
ICGex
MGX
GeT-PlaGe
Genoscope
LIGAN
GO@L

NovaSeq X series

Run time

13-48h

Maximum Output

16 Tb

Maximum Reads per run

52 billion

Maximum Reads length

2X150 bp

Plateformes équipées

CNRGH
ICGex
Genoscope
LIGAN
GenoA
IGenSeq

MiSeq i100 Series

Run time

4-16h

Maximum Output

30 Gb

Maximum Reads per run

200 million

Maximum Reads length

2X300 bp

Plateformes équipées

Les instruments de séquençage d’ADN de MGI utilisent la technologie de base appelée DNBSEQ^TM.

Les DNB (nanobilles d’ADN) sont pompées par le système fluidique et chargés sur une puce gravée de motifs.

L’amorce de séquençage est ensuite ajoutée et hybridée à la région adaptatrice du DNB. La réaction de séquençage commence par le pompage de réactifs de séquençage contenant des sondes dNTP marquées par fluorescence et de l’ADN polymérase. Les images sont prises après que les sondes marquées par fluorescence sur le DNB soient excitées avec des lasers. Les images sont ensuite converties en un signal numérique. Cette information est ensuite utilisée pour déterminer la séquence d’ADN de l’échantillon.

DNBSEQ-G400

Run time

37 hours

Maximum Output

1400 Gb

Max Reads per run

1500-1800 millions

Max Reads length

PE300

Plateformes équipées

CNRGH
Biomics
GenomEast
Genoscope
EcogenO
ProfileXpert

DNBSEQ-T7

Run time

30 hours

Maximum Output

6 Tb

Max Reads per run

5000 millions

Max Reads length

PE150

Plateforme équipée

La plateforme de séquençage PacBio est une plateforme de séquençage à lecture longue.

La technologie de base, le temps réel à molécule unique (SMRT), permet de générer des lectures d’une longueur de plusieurs dizaines de kilo-bases. Le séquençage SMRT évite largement les biais spécifiques à la séquence dans le système NGS, dans la mesure où la plupart des étapes d’amplification PCR ne sont pas requises dans le processus de construction de la banque.

Sequel

Run time

24 hours

Maximum Output

20 Gb

Longueurs de lectures moyennes

10 kb

Lectures HiFi

jusqu’à 500 000 avec 99,9% de précision

Plateformes équipées

Biomics

Sequel II

Run time

30 hours

Maximum Output

24 Gb

Longueurs de lectures moyennes

15 kb

Lectures HiFi

4 M et 99,9% précision en moyenne

Plateformes équipées

GeT-PlaGe
Gentyane
ICGex

Revio

Run time

24 hours

Maximum Output

360 Gb

Longueurs de lectures moyennes

15-20 kb

Lectures HiFi

25 M et 99,95% précision en moyenne

Plateformes équipées

Genoscope
Gentyane
CNRGH

Vega

Run time

24 hours

Maximum Output

60 Gb

Longueurs de lectures moyennes

1-20 kb

Lectures HiFi

jusqu’à 10 M

Plateformes équipées

GeT-PlaGe

Oxford Nanopore Technologies propose une technologie de séquençage de l’ADN et de l’ARN en temps réel sans synthèse et sans amplification, la lecture s’effectuant au travers d’un nanopore soumis à un champ électrique.

Le courant ionique diffère selon la base A, T, G ou C qui obstrue le nanopore. L’identification de la séquence se fait par la mesure de l’évolution du courant ionique traversant le nanopore.

MinION

Maximum Output

10-30 Gb per flow cell

Maximum Reads length

kbs to hundred kbs

Plateformes équipées

Genoscope
CNRGH
GenomiqueENS
MGX
UCAGenomiX
PSI2BC
ECOGENO
GO@L
PGTB
POPS
Genom’IC
ProfileXpert

GridION

Maximum Output

30 Gb per flow cell
150 Gb for 5 flow cell

Maximum Reads length

kbs to hundred kbs

Plateformes équipées

Biomics
ICGex
GeT-PlaGe
Genoscope
PSI2BC

PromethION

Maximum Output

158 Gb per flow cell
7.6 Tb for 48 flow cell

Maximum Reads length

kbs to hundred kbs

Plateformes équipées

CNRGH
UCAGenomiX
GeT-PlaGe
Genoscope

P2 solo, P2i

Maximum Output

158 Gb per flow cell

Maximum Reads length

kbs to hundred kbs

Plateformes équipées

ICGex
Biomics
GenomiqueENS
Gentyane
PSI2BC
GO@L
PGTB
POPS
ProfileXpert

Le séquenceur AVITI d’Element Biosciences permet un séquençage à moyen débit avec une qualité supérieure et des coûts inférieurs comparés aux séquenceurs Illumina.

Bien que la chimie de séquençage soit très différente, l’instrument est compatible avec les banques Illumina. Contrairement à la chimie de séquençage par synthèse (SBS) traditionnelle, l’AVITI utilise une chimie de séquençage par liaison (SBB) qui nécessite la liaison d’un substrat de polymérase fluorescente multivalente par « avidité ». L’utilisation de ces avidites augmente la spécificité et réduit les coûts de la chimie fluorescente d’un ordre de grandeur. Grâce à cette technologie, les étapes de synthèse de l’ADN peuvent être réalisées avec des nucléotides non marqués.

AVITI

Run time

60 hours

Maximum Output

300 Gb

Max Reads per run

1 billion

Max Reads length

2X300 bp

Plateformes équipées

GeT-PlaGe
GenomEast
Gentyane

AVITI LT

Run time

51 hours

Maximum Output

150 Gb

Max Reads per run

500 millions

Max Reads length

2X300 bp

Plateformes équipées

AVITI24

Run time

60 hours

Maximum Output

300 Gb

Maximum Reads per run

1 billion

Maximum Reads length

2X300 bp

Plateformes équipées

La société 10x Genomics a développé une machine permettant de résoudre en partie les écueils du séquençage par synthèse (SBS) à lectures courtes: le Chromium.

Ce système utilise une méthode de PCR en émulsion. La création de l’émulsion a pour rôle d’encapsuler dans une goutte de liquide réactionnel quelques molécules d’ADN de haut poids moléculaire dans le cas de séquençage de longue lecture synthétique, ou une cellule dans le cas de séquençage « cellule unique ».

Cette méthode permet de faire des assemblages de lectures courtes (Illumina) via un système de barcoding unique, rendant accessibles des informations à longue distance, ce qui facilite l’analyse du phasage et la caractérisation de structures chromosomiques. Il permet également d’étudier le transcriptome par RNAseq de plusieurs milliers de cellules uniques en parallèle. Après préparation des librairies, le séquençage s’effectue sur machine Illumina.

Plus récemment, 10X Genomics propose une solution qui intègre la détection de transcrits au niveau de la cellule unique à de l’imagerie haute résolution pour le décodage et l’analyse de données de transcriptomique spatiale.

Chromium Connect

Plateformes équipées

GENOMAX

Chromium X series (iX, X, Xo)

Plateformes équipées

ICGex
GenomEast
Genom’IC
GenomiqueENS
GeT-PlaGe
MGX
UCAGenomiX
TGML
GENOMAX
GO@L
POPS

Chromium Controller

Plateformes équipées

CNRGH
ICGex
GenomiqueENS
GenomEast
UCAGenomiX
MGX
TGML
PSI2BC
LIGAN
GenoA
GENOMAX
GO@L
iGenSeq
POPS
ProfileXpert

Visium CytAssist

Plateformes équipées

GenomEast
MGX
GENOMAX

Xenium Analyser

Plateformes équipées

GenomEast
UCAGenomiX

Nos expertises

Nos équipements

Soumettre un projet

L'infrastructure France Génomique

Un réseau de plateformes spécialisées et complémentaires

Un parc d'équipements très haut débit et de 3ème génération

Une infrastructure de calcul haute performance

Equipements et capacités

Expertise et support

Quelques réalisations

En savoir plus

MiniSeq

MiSeq

NextSeq 500

HiSeq 2500

NextSeq 2000

iSeq 100

NovaSeq 6000

NovaSeq X series

MiSeq i100 Series

DNBSEQ-G400

DNBSEQ-T7

Sequel

Sequel II

Revio

Vega

MinION

GridION

PromethION

P2 solo, P2i

AVITI

AVITI LT

AVITI24

Chromium Connect

Chromium X series (iX, X, Xo)

Chromium Controller

Visium CytAssist

Xenium Analyser