Webinar : FTI, using the state-of-the-art multi-level checkpointing library

Date: 01/04/2020, 11AM

Speaker: Leonardo Bautista Gomez and Kai Keller, senior research scientist and software engineer at Barcelona Supercomputing

Registration url: https://attendee.gotowebinar.com/register/2628884328056255755

Language: English

Abstract:

Large scale infrastructures for distributed and parallel computing offer thousands of computing nodes to their users to satisfy their computing needs. As the need for massively parallel computing increases in industry and development, cloud infrastructures and computing centers are being forced to increase in size and to transition to new computing technologies. While the advantage for the users is clear, such evolution imposes significant challenges, such as energy consumption and fault tolerance. Fault tolerance is even more critical in infrastructures built on commodity hardware. Recent works have shown that large-scale machines built with commodity hardware experience more failures than previously thought.

In this webinar, Leonardo Bautista Gomez and Kai Keller, respectively Senior Researcher and Software Engineer at the Barcelona Supercomputing Center, will focus on how to guarantee high reliability to high-performance applications running in large infrastructures. In particular, they will cover all the technical content necessary to implement scalable multilevel checkpointing for tightly coupled applications. This will include an overview of the internals of the FTI library, and explain how multilevel checkpointing is implemented today, together with examples that the audience can test and analyze on their own laptops, so that they learn how to use FTI in practice, and ultimately transfer that knowledge to their production systems.

 

Webinar : PDI – Introduction to the Portable data interface

La Maison de la Simulation et le Centre d’Excellence EoCoE organisent une série de webinars sur les technologies software utilisées en physique numérique et en informatique pour la science. Ces webinars sont des séminaires en ligne accessible via le service GoToWebinar. Ils sont ouverts à tous et totalement gratuits.

Le prochain séminaire aura lieu le 6 mars 2020 à 10h. Il portera sur la bibliothèque PDI et sera présenté par Julien Bigot de la Maison de la Simulation. La présentation sera en anglais.

Abstract:

Julien Bigot, tenured computer science researcher at CEA, will present the PDI data interface, a declarative API to decouple application codes from the Input / Output strategy to use. He will present its plugin system, which supports the selection of the best-suited existing IO library through a configuration file in each part of the code depending on the hardware available, the IO pattern, the problem size, etc.

This webinar will demonstrate the advantage of this approach in term of software engineering and performance through the example of the Gysela5D code.

Plus d’information sur le site official d’EoCoE : https://www.eocoe.eu/video_resource/ et sur l’agenda de la Maison de la Simulation : http://www.maisondelasimulation.fr/lagenda/.

En espérant vous voir nombreux.

Séminaire de la Modélisation : Two-level Coarse Corrected Optimized Schwarz Methods using PETSc

La Maison de la Simulation organise un nouveau Séminaire de la Modélisation le 12 mars prochain à 10h. Nous accueillerons Serge Van Criekingen de l’Institut du développement et des ressources en informatique scientifique (IDRIS). Il viendra nous parler des méthodes d’optimisation appliquées aux solveurs de type Schwarz par décomposition de domaine dans la bibliothèque PETSc. Vous trouverez davantage d’information sur le page des Séminaires de la Modélisation.

Le séminaire aura lieu dans l’amphithéâtre 34 du bâtiment Digiteo Saclay (première salle à droite en entrant dans le bâtiment). Un café de bienvenue sera servi en salle 26 à partir de 10h00. Le séminaire commencera à 10h30. Le séminaire est ouvert à tous sans inscription.

Nous espérons vous voir nombreux. Nous restons à votre disposition si vous souhaitez plus d’information.

Titre :

Two-level Coarse Corrected Optimized Schwarz Methods using PETSc

Résumé :

Parallel Schwarz-type domain decomposition methods are based on an iterative process where, at each iteration, a local solve is simultaneously performed on each of the (possibly overlapping) subdomains, using interface values previously computed on neighboring subdomains. The reference method in this framework is the Restricted Additive Schwarz (RAS) method, implemented as a preconditioner in the PETSc library. Using existing PETSc tools, we here implement two improvements to this method: a new coarse correction to obtain a two-level scalable method, as well as optimized transmission conditions, resulting in an Optimized 2-level Restricted Additive Schwarz method.

The first improvement, namely the introduction of a coarse correction to insure scalability, is wellknown and due to that fact that, in the case of elliptic problems, information is only transferred from each subdomain to its direct neighbors at each iteration of a 1-level method such as RAS. This makes the number of iterations grow with the number of subdomains. Scalability is achieved by introducing a coarse grid on which a reduced-size calculation is performed, yielding a coarse correction at each iteration of the solution process. Such a 2-level method permits global propagation of the iterative corrections throughout the entire domain, leading to the scalability of the method. Many choices for the coarse grid point locations are possible, and we here follow a method introduced by M.J. Gander et al. yielding a reduced number of iterations.

The second improvement, namely optimized transmission conditions, stems from the idea that the transmission conditions used in the iterative process at subdomain interfaces can also be chosen such as to reduce the number of iterations. In our case, we consider Robin transmission conditions instead of the classical Dirichlet ones, i.e. a well-chosen combination of Dirichlet and Neumann values at subdomain interfaces. A good choice of the Robin coefficient representing the relative weight of Dirichlet and Neumann values permits minimizing the number of iterations, which led to the name Optimized Schwarz Methods.

We combine these two improvements and apply them to a 2D Laplace test case up to 16,384 CPU cores. We obtain substantially improved computation times, comparable to the ones obtained with the multigrid library HYPRE interfaced by PETSc. This is significant in that Schwarz-type domain decomposition methods were up to now not considered competitive with multigrid methods on this type of problem. Furthermore, we extend the method to non-symmetric problems, adding an advection term to the Laplacian, and investigate various ways of adapting the coarse space.

Démarrage du projet européen EoCoE-II – Energy Oriented Center of Excellence

Carte des partenaires du projet européen EoCoE-II.

Description du projet

Le projet européen EoCoE-II, deuxième volet pour 3 ans du projet EoCoE (Energy oriented Centre of Excellence in computing applications) a pour objectif d'utiliser la puissance grandissante des supercalculateurs afin d'accélérer la transition européenne vers des sources d'énergie décarbonées. Il est l'un des 8 centres d'excellence dans le domaine en simulation établi dans le cadre du programme de la commission européenne Horizon 2020. Le projet est construit autour de 18 partenaires provenant de 7 pays différents formant un réseau de scientifiques et d'experts en simulation numérique et HPC dont 3 centres de calcul. Le projet concentre ses efforts sur 5 domaines applicatifs que sont le vent, les matériaux, la météorologie, l'hydrologie et la fusion. De manière transverse, le projet s'articule autour de 5 piliers techniques : applications numériques, modèles de programmation, algèbre linéaire, entrée-sorties et simulations d'ensemble.

18 partenaires provenant de 7 pays européens différents

Chaque domaine applicatif se focalise sur un ou quelques codes porteurs dans le but d'atteindre un objectif scientifique ambitieux sur les futures calculateur exascale. Le budget total du projet est de l'ordre de 8 millions d'euros partagé entre l'ensemble des partenaires en fonction des tâches allouées.

La Maison de la Simulation au sein d'EoCoE-II

La Maison de la Simulation via le CEA est un partenaire important de ce projet. Elle supervise le projet au plus haut niveau en partenariat avec le centre de recherche de Jülich et ENEA (Italian National Agency for New Technologies, Energy and Sustainable Economic Development). La Maison de la Simulation est également impliqué dans les aspects scientifiques et techniques du projet.

La Maison de la Simulation supervise le projet au plus haut niveau.

Elle est responsable du pilier technique sur les modèles de programmation (Work Package 2) et s'impliquera dans l'optimisation du code de calcul ParFlow dédié à la simulation des écoulements souterrains. Elle est également impliqué dans le pilier technique sur les entrée-sorties (Work Package 4) pour l'intégration de la bibliothèque PDI dans les applications.

Participation du code Smilei au grand challenge Jean Zay

Le calculateur Jean Zay est en ce moment en cours de préparation à l'IDRIS pour le début du Grand Challenge début juillet. Jean Zay est un calculateur acquis par GENCI auprès de Hewlett-Packard Entreprise (HPE) pour une puissance théorique de 14 Petaflops. Il est équipé de deux partitions. La première est composé de 1528 nœuds bi-socket Intel Cascade Lake. La deuxième est une partition hybride équipée de 261 nœuds CPU bi-socket similaires auxquels s'ajoutent 4 GPUs Nvidia V100 par nœuds. Ce calculateur est destiné à la fois aux applications HPC et aux applications d'intelligence artificielle.

Pour rappel, un Grand Challenge est une ouverture de la machine quelques mois avant sa mise en production pour en tester les capacités. Un certain nombre de codes sont sélectionnés sur appel à projet. Les équipes scientifiques pourront dès lors utiliser avec très peu de concurrence sur les ressources l’intégralité de la machine. En échange, les applications fournissent un retour sur les performances globales et aident les ingénieurs à corriger les bugs et autres problèmes.

Schéma du principe de l'accélération d’électrons à double étage. Un premier faisceau d'électrons accélérés est créé dans un jet de gaz par un laser. Le faisceau est ensuite redirigé dans une seconde onde de sillage généré par un laser dans un canal plasma. Le deuxième étage augmente l'énergie des électrons mais nécessite une longue distance de propagation.

La Maison de la Simulation est partenaire du code Particle-In-Cell Smilei sélectionné pour le Grand Challenge Jean Zay. Le code Smilei est open-source, massivement parallèle et optimisé pour ce type d'architecture. Le code tournera sur la partition CPU seulement. Le projet scientifique est porté par Arnaud Beck du laboratoire LLR et portera sur la simulation de l'accélération de faisceaux d’électrons en onde de sillage laser dans un plasma. Plus spécifiquement, les scientifiques du LLR souhaitent simuler une configuration dite à double étage afin de se rapprocher des expériences qui seront menés sur le laser multi-petawatt Apollon du plateau de Saclay. Les simulations devraient pouvoir exploiter des données expérimentales du faisceau laser pour la simulation réaliste du première étage. Les simulations exploiteront les dernières implémentations en terme de modèle et les dernières optimisations vectorielles.