Famille professionnelle / Métier : SYSTEMES D’INFORMATION, TELECOM ET NUMERIQUE/Expertise / Recherche
Type de contrat : Stage
Description du poste :
Contexte
La R&D d’EDF (1800 chercheurs) a pour missions principales de contribuer à l’amélioration de la performance des unités opérationnelles du groupe EDF, d’identifier et de préparer les relais de croissance à moyen et long terme. Dans ce cadre, au sein du Département PERICLES (PErformance et prévention des Risques Industriels du parC par la simuLation et les EtudeS), le groupe ARTEMIS (Acquisition, Réalité virtuelle et augmentée, Traitement et Exploitation des Maquettes, Intelligence artificielle et Simulation) a deux principales missions :
· D’une part, il propose des innovations numériques au service de la performance des moyens de production, et tout particulièrement du parc nucléaire ;
· D’autre part, le groupe fournit des outils et des méthodes pour aider les ingénieurs d’études, à la R&D et dans les unités dédiées, sur l’ensemble des étapes de la simulation numérique.
Dans le cadre de travaux exploratoires sur les usages de l’intelligence artificielle, EDF souhaite évaluer les capacités de modèles à l’état de l’art dans le domaine de la reconnaissance automatique de la parole (ASR).
Ce travail vise deux applications potentielles :
· Transcrire de longs enregistrements vocaux (entretiens, simulations en salle de commande, débriefings, etc) captés pour les besoins des études du groupe Facteurs Organisationnels et Humains d’EDF R&D.
· Concevoir nouvelles interfaces vocales pour les intervenants de l’exploitation et de la maintenance des centrales nucléaires (rondes, relevés, aide à la relève, etc.).
La principale difficulté rencontrée par les systèmes de reconnaissance vocale est la capacité à reconnaître correctement un vocabulaire technique et spécifique. Le vocabulaire du domaine nucléaire contient notamment des acronymes et identifiants de matériel. L’objectif de ce projet est d’adapter un modèle récent comme WhisperX afin qu’il reconnaisse ce langage.
Objectifs du stage
L’objectif de ce stage est de fine-tuner WhisperX pour apprendre à retranscrire des enregistrements vocaux contenant beaucoup de vocabulaire lié aux métiers du nucléaire, et d’évaluer l’apport de ce fine-tuning en comparant les performances avant et après fine-tuning (voire éventuellement avec d’autres modèles).
Pour cela, EDF dispose :
· D’un moteur de reconnaissance vocale multilocuteur « Chicago » déployé sur son infrastructure, utilisant WhisperX pour la retranscription (audio en texte) et Pyannote pour la diarization (distinction des différents interlocuteurs) ;
· D’enregistrements vocaux de sessions de simulation en salles de commande, de débriefs, d’entretiens ainsi que d’une plateforme de recueil ;
· De moyens de calcul performants (PC de développement en laboratoire, super-calculateurs) permettant de réaliser un fine-tuning ;
· De résultats de travaux préliminaires utilisant les modèles Wave2Vec 2.0 et Whisper.
Les actions à réaliser au cours de ce stage incluent :
· Fine-tuner WhisperX en utilisant des échantillons audios et textes recueillis par EDF ;
· Mettre au point une méthode et des métriques d’évaluation de la qualité des résultats de la retranscription.
En fonction de l’avancement, le ou la stagiaire pourra également réaliser les actions suivantes :
· Evaluer la possibilité d’entraîner un LLM et de l’utiliser pour améliorer les transcriptions produites par WhisperX ;
· Faire une veille sur les modèles de reconnaissance vocale ;
· Tester, le cas échéant, un nouveau modèle qui semblerait pertinent.
Profil recherché
· Etudiant(e) en master 2 ou école d’ingénieur.
· M1 ou M2 en ingénierie informatique.
· Connaissances des problématiques et technologies de la reconnaissance vocale.
· Connaissances en développement informatique (Python).
· Connaissance des méthodes mathématiques, statistiques, de machine learning et deep learning.
· Des connaissances sur le secteur de l’énergie seraient un plus.
· Curieux.se, ingénieux.se et motivé.e pour le domaine de la recherche appliquée.
· Bon niveau rédactionnel.
Références
· A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” Dec. 2022, doi: 10.48550/ARXIV.2212.04356.
· M. Bain, J. Huh, T. Han, and A. Zisserman, “WhisperX: Time-Accurate Speech Transcription of Long-Form Audio,” Mar. 2023, doi: 10.48550/ARXIV.2303.00747.
· S. Kim et al., “Semantic Distance: A New Metric for ASR Performance Analysis Towards Spoken Language Understanding,” Apr. 2021, doi: 10.48550/ARXIV.2104.02138.
Ville : PALAISEAU