2024-20819 - Stage – Data Science / NLP –Analyse de corpus massifs H/F45 rue de Paris 95747 ROISSY CHARLES DE GAULLE CEDEX

Expirée

Métier : Systèmes d’informations/Développement
Type de contrat : Convention de stage
Description du poste :
Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d’explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels. Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donnée la volumétrie importante de ces corpus, une utilisation directe des LLM n’est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels. Un autre sujet potentiel durant le stage pourrait être l’optimisation d’un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients. En intégrant l’équipe, vous aurez également l’opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l’environnement Google Cloud. Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation Stack technique : Python, Google Cloud Plateform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, pytorch, langchain

Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d’explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels.
Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donnée la volumétrie importante de ces corpus, une utilisation directe des LLM n’est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels.

Un autre sujet potentiel durant le stage pourrait être l’optimisation d’un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients.

En intégrant l’équipe, vous aurez également l’opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l’environnement Google Cloud.

Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation
Stack technique : Python, Google Cloud Plateform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, pytorch, langchain
Site : 45 rue de Paris 95747 ROISSY CHARLES DE GAULLE CEDEX
Niveau d’études min. requis : Bac + 5 et plus