Développement d’architectures de réseaux de neurones en graphes pour données massives et calcul parallèle

1 - Contexte

Les réseaux de neurones en graphes (Graph Neural Networks, ou GNN) sont des méthodes récentes visant à adapter les réseaux de neurones artificiels aux espaces non-euclidiens que décrivent les données structurées en graphes, afin de résoudre des problèmes propres à ce type de données (classification de nœuds ou de sous-graphes, etc.). L'application de ces méthodes émergentes aux très grandes données pose plusieurs défis au niveau de la définition de l'architecture et de la communication des différentes couches de neurones, et de leur combinaison pour conserver la localité des régions du graphe.

Le passage à l'échelle nécessite également d'utiliser des concepts et outils de calcul haute performance (code parallèle, mémoire distribuée, formats de stockage adaptés, etc.), dont une partie ont déjà été développés à la Maison de la Simulation. Il est donc attendu des travaux du stage proposé, d'utiliser ces outils afin de proposer une solution compréhensive à des problèmes de "machine learning" sur graphes.

2 - Objectifs

Dans ce cadre, les objectifs seront les suivants :

  • explorer différentes méthodes d'algèbre linéaire, ou d'autres propriétés, permettant d'extraire des aspects distincts de la structure du graphe,
  • utiliser ces méthodes pour proposer des architectures de GNN (ainsi que leurs formulations mathématiques associées),
  • développer une implémentation parallèle, adaptable à de très larges données, d'un framework générique pour une telle méthode (en premier lieu en C++ sous MPI ; d'autres implémentations pourront être considérées par la suite, avec CUDA et XMP par exemple),
  • implémenter plusieurs options pour chaque élément de la méthode, et réaliser des séries d'expérimentations sur un cluster d’accélérateurs permettant d'identifier l'impact des différents composants, à la fois sur l'exactitude des résultats pour des tâches de "machine learning" et sur le temps d'exécution.

3 - Prérequis

  • des connaissances en algèbre linéaire, programmation parallèle et répartie, et génie logiciel sont souhaitées.

4 - Encadrement et environnement

  • Il s'agit d'un stage de 6 mois, rémunéré selon les grilles du CNRS.
  • Des accès à des superordinateurs et clusters sont prévus.
  • Le stage se déroulera au sein du laboratoire mixte CNRS-CEA-Université Paris Saclay-Université de Versailles (USR 3441) à Saclay.
  • Le directeur de stage est Serge Petiton

5 - Doctorat

Une poursuite en doctorat est envisageable.

6 - Contact

Serge Petiton

Voir la page de l'offre pour contacter le superviseur

Ingénieur en calcul scientifique haute performance H/F

Description du poste

Domaine

Management et projet

Contrat

CDI

Intitulé de l'offre

Ingénieur en calcul scientifique haute performance H/F

Statut du poste

Cadre

Description de l'offre

Afin de renforcer son équipe « Génie logiciel, parallélisme et développements applicatifs », la Maison de la Simulation recrute un ingénieur spécialiste du calcul haute performance.

Il ou elle sera en charge de coordonner ou de contribuer aux développements applicatifs des thématiques de recherche hébergées au laboratoire. Ce travail s’effectuera au sein d’équipes pluridisciplinaires sur des projets à moyen et long terme visant à fournir des outils de simulation capables d’exploiter pleinement les grandes infrastructures de calcul. Ce recrutement a notamment pour objectif de soutenir les communautés scientifiques en vue de l’arrivé des machines dites exascale. Au moins deux tiers de l’activité sera consacré à travailler pour l’optimisation ou la réécriture d’applications, le reste du temps pourra être dédié à de la veille technologique et à des travaux plus prospectifs, notamment sur les modèles de programmation adaptés aux nouvelles architectures de calcul, en particuliers celles à base de GPU.

Profil du candidat

Le candidat devra avoir des connaissances opérationnelles des techniques et langages de programmation avancé (Fortran90, C ou C++) et du développement de codes applicatifs ;
- expérience importante dans la parallélisation (MPI, OpenMP) et l'optimisation de codes scientifiques sur diverses architectures (SMP, MPP) dans un environnement Unix ;
- maîtrise de l'anglais technique à l'écrit et à l'oral (collaboration avec des chercheurs Européens)
- aptitude à travailler en équipe.

En complément, des connaissances ou une expérience dans un ou plusieurs des domaines suivants seront appréciées :
- utilisation d'outils d'analyse de performance et de débogage sur des applications parallèles ;
- expérience du calcul massivement parallèle (hybride MPI+OpenMP) ou du calcul sur accélérateur (GPGPU) ;
- connaissance de l'architecture des ordinateurs ;
- connaissance avancée en C++;
- expérience d'enseignement.

Langues

Anglais (Courant)

Formation recommandée

Thèse ou diplôme d'ingénieur dans un domaine scientifique

Localisation du poste

Maison de la Simulation

CEA Saclay
France

Informations générales

Entité de rattachement

Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche. Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions : . la défense et la sécurité . l'énergie nucléaire (fission et fusion) . la recherche technologique pour l'industrie . la recherche fondamentale (sciences de la matière et sciences de la vie). Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration aux côtés de ses partenaires académiques et industriels.

Description de la Direction

La Direction de la recherche fondamentale (DRF) du CEA mène des activités scientifiques dans les domaines de la physique, de la chimie, de la biologie et santé, des sciences des matériaux, des sciences du climat et de l'environnement

Description de l'unité

La Maison de la Simulation (http://www.maisondelasimulation.fr) est une Unité de Service et de Recherche (USR), rattachée au CEA, au CNRS (INS2I-Institut sciences de l'information et de leurs interactions) et aux universités de Paris Saclay et Versailles Saint Quentin en Yvelines. L'objectif de l'unité est d'accompagner, de soutenir et de stimuler les communautés scientifiques afin de tirer le meilleur parti des supercalculateurs, ceux déployés notamment dans le cadre de GENCI, du projet Européen PRACE et prochainement de EuroHPC. Elle doit également favoriser et accompagner l'émergence en France d'une communauté du calcul intensif et développer des synergies fortes entres chercheurs et ingénieurs de différentes disciplines nécessaires pour concrétiser les avancées scientifiques importantes attendues du calcul haute performance.La Maison de la Simulation mène à la fois des activités de recherche dans le domaine du calcul haute performance et de son utilisation ainsi que des activités développements et de support applicatif de haut niveau pour différentes communautés. Elle collabore très étroitement avec les trois centres de calculnationaux, et plus particulièrement avec l'IDRIS avec qui elle partage du personnel et des projets communs. La thématique principale de la Maison de la Simulation sur le HPC, s'élargit progressivement au traitement massif de données et à l'intelligence artificielle, en lien avec les simulations numériques massivement parallèles.

Liens

Annonce officielle sur le site du CEA
LinkedIn
Liste calcul

Recruitment of a postdoctoral researcher

Solène BULTEAU has recently joined Maison de la Simulation as a postdoctoral researcher to develop new numerical methods for stratified magneto-hydrodynamic in a 3D convection code called Ark. This postdoc position of 3 years is funded by the European ERC ATMO project. It aims at studying exo-planet atmosphere using numerical simulation to prepare the future observation campaign of the space telescope James Webb. The work of Solène on atmospheric convection will be used for stars, brown dwarf and exo-planets.

Recrutement d’un ingénieur HPC pour l’amélioration de l’AMR dans le code ParFlow

Jose Fonseca a rejoint la Maison de la Simulation début mai 2019 en tant qu'ingénieur HPC. Dans le cadre du projet EoCoE-II, son travail porte sur le développement d'une version AMR (Adaptive Mesh Refinment) du code scientifique ParFlow dédié à la simulation en hydrologie des écoulements d'eau en surface et en profondeur. ParFlow est notamment utilisé dans la recherche liée aux cycles de l'eau dans des situations idéalisées ou réelles pour des études météorologiques ou de climat. Pour améliorer ParFlow, Jose Fonseca utilisera dans un premier temps la bibliothèque AMR P4est. Dans un second temps sera envisagé le portage des solveurs et de l'AMR sur GPU pour bénéficier de la pleine puissance des prochains calculateurs GPU. Son contrat à la Maison de la Simulation financé par EoCoE-II est de deux ans.