Eviden, qui fait partie du groupe Atos, avec un chiffre d’affaires annuel d’environ 5 milliards d’euros, est un leader mondial de la transformation numérique axée sur les données, fiable et durable. En tant qu’entreprise numérique de nouvelle génération, avec des positions de leader mondial dans les domaines du numérique, du cloud, des données, de l’informatique avancée et de la sécurité, elle apporte une expertise approfondie à tous les secteurs d’activité dans plus de 47 pays. En réunissant des technologies haut de gamme uniques sur l’ensemble du continuum numérique et 47 000 talents de classe mondiale, Eviden élargit les possibilités des données et de la technologie, aujourd’hui et pour les générations à venir.
Les applications de calcul scientifique modernes, tout comme les entrainements de modèles en intelligence artificielle, manipulent des quantités de données toujours plus importantes. Par ailleurs, la puissance de calcul disponible par nœud de calcul avec les dernières générations de GPU continue d’augmenter de façon significative, mettant toujours plus de pression sur la performance d’accès aux données. Des mécanismes de pré-chargement des données en mémoire existent, mais se trouvent de plus en plus confrontés à la taille mémoire proportionnellement de plus en plus limitée sur ces nœuds par rapport à la puissance de calcul disponible. Par ailleurs, l’énergie consommée par ces supercalculateurs devient un enjeu crucial pour maitriser leurs couts d’exploitation. Avoir des nœuds de calcul passant une partie significative de temps à attendre des données à traiter n’est plus acceptable.
Eviden développe des outils permettant de détecter ces conditions sous-optimales d’exécution et d’agir pour les corriger en activant différents leviers (ajustement dynamique de la fréquence des processeurs, pré-chargement contrôlé des données en mémoire…).
Nous proposons dans le cadre de ce stage d’explorer une solution originale d’optimisation exploitant un composant logiciel développé par l’un de nos partenaires (le centre de recherche grec FORTH). Ce composant (module kernel Linux) permet de limiter, ou au contraire d’étendre l’espace de mémoire virtuelle disponible sur les nœuds de calcul en débordant sur des équipements de stockage rapides de type Solid State Disk NVMe. Ce nouveau levier devrait permettre de configurer l’environnement d’exécution mémoire d’une application dynamiquement, en fonction des objectifs de consommation énergétique fixés.
Le stagiaire sera amené à prendre connaissance de l’état de l’art, puis intégrera et mettra en œuvre le composant de notre partenaire sur des cas d’usage synthétiques et des applications réelles afin de qualifier les différents modes de fonctionnement ainsi que leurs effets sur la consommation énergétique et sur la performance. Il s’agit d’un sujet de recherche qui demandera de la curiosité et de l’initiative.
En fonction du profil du candidat, une poursuite en thèse CIFRE est envisagée.
Mots-clés : IA, HPC, Data movement, memory management, Energy-efficiency Pré-requis :
Ce stage s’adresse à un étudiant en M2 qui devra maitriser les bases de Linux et qui est intéressé par les aspects système, l’optimisation de la performance et de l’efficacité énergétique.
Let’s grow together.