Stage - Fiabilité des serveurs et supercalculateurs HPC R&D (H/F) (Les Clayes-sous-Bois, FR)

Eviden, qui fait partie du groupe Atos, avec un chiffre d’affaires annuel d’environ 5 milliards d’euros, est un leader mondial de la transformation numérique axée sur les données, fiable et durable. En tant qu’entreprise numérique de nouvelle génération, avec des positions de leader mondial dans les domaines du numérique, du cloud, des données, de l’informatique avancée et de la sécurité, elle apporte une expertise approfondie à tous les secteurs d’activité dans plus de 47 pays. En réunissant des technologies haut de gamme uniques sur l’ensemble du continuum numérique et 47 000 talents de classe mondiale, Eviden élargit les possibilités des données et de la technologie, aujourd’hui et pour les générations à venir.

Pôle : Advanced Computing R&D – Server Design – Architecture

Titre : Fiabilité des serveurs et supercalculateurs HPC

Notre centre recherche et développement conçoit, développe et valide des serveurs « haut de gamme » en termes de performance, de robustesse et de fiabilité. Nos serveurs d’Enterprise sont basés sur des architectures multiprocesseurs (32 CPU) et permettent d’héberger les plus grosses bases de données en mémoire vive. Nos serveurs dédiés au calcul haute performance (HPC) et à l’intelligence artificielle sont utilisés dans les supercalculateurs.

Nos supercalculateurs HPC sont parmi les plus puissants au monde, et les seuls refroidis à 100% par liquide pour une meilleure efficacité énergétique.

L’équipe d’architecture matérielle et firmware de la R&D définit l’architecture de ces produits. La fiabilité et la disponibilité des serveurs et supercalculateurs est un enjeu au regard de l’investissement qu’ils représentent, de leur durée d’opération ininterrompue et de la nature des technologies qu’ils intègrent. La performance de fiabilité est portée par les orientations d’architectures et par les choix de conception des nœuds, lames, cabinets…

Dans ce contexte, nous recherchons un stagiaire de fin d’études (école d’ingénieur ou Master 2) pour un stage rémunéré et certifié « Happy Trainees ».

Il se déroulera sur 6 mois dans les locaux de la R&D aux Clayes-sous-Bois, dans un environnement équipé de machines de pointe.

L’objectif est d’améliorer notre compréhension des éléments la fiabilité prévisionnelle, de réduire l’écart entre fiabilité prévisionnelle et fiabilité mesurée, et de proposer des pistes d’amélioration de la fiabilité au niveau architecture pour permettre la mise à l’échelle des systèmes HPC (scalabilité).

Le stage portera sur les 3 axes suivants :

• Amélioration du calcul de fiabilité prévisionnelle : étude bibliographique/normative, calcul sur des cas réels, compréhension des facteurs principaux affectant la fiabilité de nos systèmes, comparaison aux retours terrain, synthèse argumentée de nouvelles hypothèses pour le calcul de fiabilité

• Etude à l’échelle du système : étude de cas sur un système installé (HPC ou serveur entreprise), rédaction d’une note d’application donnant les grandeurs et expliquant les choix d’architecture, de cas d’emploi…

• Approfondissement en fonction des résultats obtenus et du profil du candidat :

– Pour un profil plus électronicien : analyse de cas de pannes, tri parmi défauts de conception, fabrication, surcharge, pannes intrinsèques…

-Pour un profil plus statisticien : étude théorique de l’amélioration de fiabilité apportée par les mécanismes de correction sur différentes familles de produit comme les DIMMs, les disques SSD selon différents profils de charge.

Profil recherché :

– Ingénieur électronique de préférence ou sureté de fonctionnement avec un intérêt pour l’électronique et les technologies de composants

– Connaissance de bases en statistiques et fiabilité électronique (loi exponentielle, loi de Poisson, loi d’Arrhenius)

– Curiosité, facilité de communication (en français et en anglais) : ce stage nécessite d’échanger avec différentes personnes de différents métiers (qualité, conception, maintenance, client) et différentes nationalités

– Connaissance d’un langage de script pour automatiser les calculs

Let’s grow together.