Métier : METIERS/Data
Contrat : STAGE
Description du poste :
Stage de 3 à 6 mois à pourvoir à compter du 03/03/2025
Les nouvelles réglementations de la bancassurance imposent de caractériser les biens immobiliers avec davantage de précision. Il est maintenant recommandé d’utiliser des « méthodes statistiques avancées » telles que le Machine Learning (ML). Par exemple, le ML peut être utilisé pour estimer le prix d’un logement afin d’ajuster le calcul des fonds propres nécessaires en cas de défauts de remboursements des crédits. Le ML permet également d’estimer des notes de diagnostic énergétique afin, par exemple, de couvrir certains risques climatiques.
Dans ce contexte, l’IA-Factory propose des produits qui exploitent la base des notaires DVF ou celle de l’ADEME. Par exemple, la base DVF publique est utilisée pour entraîner les paramètres d’un modèle de ML qui prédit le prix du logement à partir de ses coordonnées spatiales et de sa surface. Des travaux ont montré que d’autres sources de données immobilières sont disponibles et exploitables. Ce stage vise à étudier les sources de données possibles, mettre en œuvre leur exploitation et démontrer leur apport pour les estimations des caractéristiques des logements.
Le stage peut ainsi se découper en trois parties élémentaires :
L’analyse des sources de données immobilières. À ce stade, tout est possible. Des images fournies par Google Map Street View, aux données géographiques de l’IGN, l’objectif est de lister les sources de données et d’évaluer leur capacité de prise en main (format, accessibilité, gratuité, pérennité, etc). Le livrable sera ici un rapport énumératif et descriptif.
La proposition d’algorithmes d’estimation. La première étape aura permis d’identifier des données que nous voudrons prendre en main et pour lesquelles il faudra proposer des algorithmes de ML. À ce stade, nous nous adapterons aux formats des données : pour des images nous privilégierons des méthodes usuelles de Deep Learning, pour des données tabulaires des arbres seront utilisés, si les données sont temporelles nous pourrons exploiter des modèles de séries temporelles, etc. Le livrable sera ici un ensemble de codes informatiques en Python pour l’estimation des caractéristiques des logements en fonction des données identifiées. Il sera également intéressant de proposer un modèle de fusion des différentes modalités.
La comparaison des méthodes dans un protocole statistique. Nous aimerions que le stage réponde à la question : “quelles données utiliser et comment ?” Ainsi, nous attendons un rapport dans lequel figure un protocole statistique d’analyse où les méthodes sont évaluées selon le même protocole et le même jeu de test.
Selon les affinités du candidat, il sera également possible de proposer une étude du risque (risque du modèle, impact du modèle sur le calcul des fonds propres, etc).
Voici le profil idéal de notre futur.e stagiaire :
En formation bac+4 ou bac+5, vous recherchez un stage en data science d’une durée de 3 à 6 mois maximum.
De bonnes compétences en mathématiques appliquées et en programmation sont attendues.
Des connaissances théoriques et pratiques d’un framework de deep learning (PyTorch, TensorFlow, Keras) et/ou de machine learning (Scikit-Learn) seraient un plus.
Nous souhaitons que le candidat n’ait pas peur de s’approprier une nouvelle thématique métier, qu’il sache aller au-delà du simple travail de développement informatique en tentant d’interpréter les résultats et d’être force de proposition pour répondre au mieux au besoin métier.
Environnement de travail : Linux (Ubuntu), Python.
Lieu : Brest
Niveau d’études min. requis : BAC+4