Le Très Grand Centre de Calcul du CEA
Le TGCC -Très Grand Centre de Calcul du CEA- est une infrastructure dédiée au calcul haute performance, capable d’héberger des supercalculateurs d’échelle petaflopique et conçue sur la base d’une architecture orientée vers les données. Au sein du TGCC, le CCRT disposera d’une extension qui sera dédiée aux utilisateurs du projet France Génomique.
Cette e-infrastructure de stockage et de traitement des données, mise en œuvre par les équipes CEA/DIF permettra aux utilisateurs de France Génomique de bénéficier d’un espace de stockage moyen terme (échelle : projets scientifiques de plusieurs années) de plusieurs petaoctets, connecté à plusieurs milliers de cœurs de calcul scalaires par une interconnexion à haute performance.
Mutualisée avec celle du CCRT, elle est également conçue pour être évolutive, avec l’objectif de relever demain l’ensemble des défis de la génomique.
Equipements et capacités
La configuration dédiée à France Génomique est composée de :
- 180 nœuds bi processeurs (Intel Sandy Bridge E5-2680, 2.7 GHz, 8 cœurs) avec 128 Go de mémoire par noeud, soit 2.880 cœurs (Bull),
- 2 systèmes très grande mémoire Bullx S6410 à 2 To de mémoire,
- 9 lames hybrides, équipées de GPU nvidia Kepler,
C’est une extension de la configuration Airain du CCRT, installée au TGCC.
L’hébergement des données sera réalisé grâce à la configuration de stockage suivante :
- Stockage moyen terme présentant un système de fichiers global de 5 Po, dont 2 Po sur disque (système de stockage hiérarchique Lustre + IBM HPSS),
- Dispositif d’archivage des données initiales.
Principales réalisations
Afin de caractériser un ensemble de 83 familles protéiques sans fonctions connues et regroupant quelques 60.000 séquences, les chercheurs de Genoscope ont mené une campagne de modélisation sur le supercalculateur Titane du du CCRT. Cette phase, qui aurait nécessité 280.000 heures de calcul, a pu être exécutée en seulement 70 heures sur 4.000 processeurs. A partir des résultats, les chercheurs ont créé un catalogue de signatures structurales spécifiques pour chacune des familles étudiées. Ce catalogue va apporter aux biochimistes des informations précieuses pour découvrir de nouvelles activités enzymatiques.
Le Genoscope utilise les moyens de calculs du TGCC/CCRT depuis déjà plusieurs années, notamment via les appels à projets DARI. Dans ce cadre, le projet TARA OCÉANS a bénéficié de plus de 3,5 millions d’heures de calculs pour étudier la diversité des organismes marins. Pour ce faire, différents outils d’analyse de séquences ont été portés sur cette infrastructure : BLAST, BLAT, InterProScan & CDDsearch. Des codes spécifiques ont été conçus et déployés afin d’adapter ces outils aux contraintes techniques d’exploitation des machines du TGCC (parallélisation massive par les données, contrôle d’exécution, reprise sur erreur, jobs unitaires courts).
Labels / Démarche qualité
Les équipes du CEA/DIF ont développé une expertise et une compétence reconnue de façon internationale aussi bien dans le domaine de la gestion des très grands volumes de données (contribution à des développements Opensource, pilotage de EOFS …) que dans la définition et le management de très grands centres de calculs. Des équipes d’assistance et de support aux utilisateurs sont disponibles pour aider les utilisateurs à tirer le meilleur parti des moyens du centre.
Une équipe de support applicatif dédiée est mise en œuvre par l’Institut de Génomique (CEA), pour le compte de France Génomique.
Responsables de la Plateforme
Pierre Leca
CEA DAM-île de France
Bruyères-le-Châtel
91297 Arpajon Cedex