Stage de R&D : LLM pour l’analyse et la génération de connaissances à partir de séries temporelles complexes

Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un ingénieur-chercheur SystemX du domaine sciences des données et interaction.

Vous travaillerez au sein d’un projet porté par l’IRT SystemX et qui vise à développer un cadre scientifique et technologique permettant de faire avancer des modèles d’IA générative pré-entraînés en les spécialisant à des cas d’usages industriels/industrialisables.

Présentation du sujet

Objectifs du stage : la recherche menée dans le cadre de ce stage est liée au défi d’exploiter simultanément des connaissances hétérogènes collectées et ou simulées à partir de différentes sources multimodales qu’impliquent les systèmes d’ingénierie en industrie. Elle concerne en particulier l’apprentissage génératif à partir de nouvelles modalités autre que le texte : les séries temporelles. Un intérêt particulier en IA générative porte en effet sur la construction de modèles à partir de modalités différentes du texte, en particulier les séries temporelles. Par exemple Gruver et al. 2023, ont montré le potentiel des grands modèles de langages (LLM) pour les séries temporelles en montrant que la prédiction dans les séries temporelles peut s’effectuer assez correctement lorsque celles-ci sont présentées à un LLM sous format texte, sans faire appel à un modèle de séries temporelles par construction.

Les verrous principaux que traitera le stage portent sur :

la multimodalité d’un modèle LLM et sa capacité à traiter des séries temporelles ;
sa spécialisation (eg. fine-tuning, RAG, Knowledge distillation) à des données spécifiques, eg. issues d’un cas d’usage industriel,
et son évaluation selon par des métriques adaptées.

Les missions dans le cadre du stage sont les suivantes :

Réaliser un état de l’art sur les modèles de fondation opérant sur des séries temporelles, les techniques de spécialisation des modèles de fondation, et les métriques d’évaluation associées, en analysant les avantages et les inconvénients des différents modèles et techniques étudiés,
Concevoir et mettre en œuvre, à partir d’un grand de modèle LLM pré-entraîné (eg. LLaMA ou autre), un small LLM adapté à des séries temporelles, permettant d’analyser et de produire un rapport d’analyse (segmentation, détection d’anomalies, etc) de séries temporelles présentées en prompt (eg. fichier csv ou Excel ou autre),
Construire un benchmark de séries temporelles pour l’adaptation du modèle développé, et ensuite l’instancier sur des séries temporelles métier en prenant en compte les sémantiques métiers,
Documentation des méthodes développées et rédaction d’un rapport en anglais, favorisant la mise en open-source,
Participer à des réunions du projet,
Présenter ses travaux en séminaire SystemX et dans le cadre du projet,
Une publication scientifique peut-être envisagée en fonction de l’originalité des travaux.

Références bibliographiques sur le sujet :

N Gruver, M Finzi, S Qiu, A G. Wilson. “Large Language Models Are Zero-Shot Time Series Forecasters” Part of Advances in Neural Information Processing Systems 36 (NeurIPS 2023)
W Liao, F Porte-Agel, J Fang, C Rehtanz, S Wang, D Yang, Z Yang. TimeGPT in Load Forecasting: A Large Time Series Model Perspective. 2024. arXiv:2404.04885v1

Ce stage peut être suivi d’une proposition de thèse.

Profil et compétences

De formation bac +5 (Master 2 Recherche ou 5^ème année d’études en école d’ingénieurs avec un intérêt avéré pour la recherche) en Informatique, Mathématiques Appliquées, Science des données, Apprentissage Automatique, ou équivalent.

Connaissances et savoir-faire essentiels :

Maîtrise des concepts théoriques et algorithmiques de Machine Learning ; Statistiques, Optimisation ;
Une première expérience (cours, formation, mini-projet, etc) en Traitement Automatique du Langage naturel (TAL) / Natural Language Processing (NLP)
Maîtrise d’un environnement logiciel pour le Machine Learning, comme Python et ses librairies scientifiques par exemple, numpy, pandas, pytorch (ou similaires);

Qualités professionnelles :

Aptitude à communiquer à l’oral et à l’écrit en français et en anglais ;
Intérêt avéré pour la recherche partenariale et appliquée ;
Motivation pour une recherche en thèse de doctorat en lien avec le domaine du stage ;

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation (au minimum une) et relevés de notes des deux années du Master (ou des deux dernières années du cycle ingénieur).

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : février 2025
Localisation du poste : Palaiseau et Gif-sur-Yvette (91)
Gratification : 1300 € brut mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-2025-06-IAG1

Postuler à cette offre d’emploi

Merci de joindre CV, lettre de motivation et relevé(s) de notes.

Domaine :

Science des données et IA