Stage de R&D : Développement d’une application à base de LLM pour l'assistance à la modélisation des systèmes de transport intelligents

Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un ingénieur-chercheur SystemX du domaine Interaction, Usage et Connaissances.

Vous travaillerez au sein d’un projet de recherche exploratoire dont les partenaires académiques sont le German Research Center for Artificial Intelligence (DFKI) et le Josef Ressel Centre for Dependable System-of-Systems Engineering en Autriche.

Présentation du sujet

Objectifs du stage
Dans la conception de systèmes complexes, tels que les Systèmes de Transport Intelligents (STI), comme les véhicules autonomes, l’ingénierie des systèmes basée sur des modèles (MBSE) constitue une approche clé pour maîtriser cette complexité et garantir que le système réponde à ses exigences [1]. Cette approche repose sur l’utilisation de modèles pour définir la composition et les interfaces de toutes les couches architecturales du système (fonctionnelle, logique et physique) [2]. Un «modèle» est une abstraction d’un système, offrant une vue sur un ou plusieurs de ses aspects, tels que ses fonctions, sa structure ou son comportement [3].
Néanmoins, la construction de ces modèles peut être longue et laborieuse lorsque la modélisation est une activité purement humaine et/ou lorsque le modélisateur manque de connaissances métier spécifiques (comme dans le cas des systèmes STI où des connaissances au domaine du transport intelligent sont nécessaires). D’où le besoin d’assistants intelligents pour la modélisation de l’architecture de tels systèmes STI, afin de réduire le temps consacré à cette activité. Dans ce contexte, de récents travaux s’intéressent à explorer le rôle des grands modèles de langage (LLMs), tels que GPT4 d’OpenAI, dans l’assistance à la modélisation [4].
En effet, les LLMs peuvent assister au développement de modèles, entre autres, en mode « accélération » (c’est-à-dire lorsque qu’un modèle initial existe) [5]. Dans ce cas, les LLMs ont pour rôle d’étendre le modèle existant en y intégrant de nouvelles entités ou fonctionnalités, ou en enrichissant certains éléments avec des caractéristiques supplémentaires.

Cependant, comme les LLMs sont des modèles à usage général et risquent donc de ne pas répondre avec précision et pertinence aux besoins spécifiques des modélisateurs, il est crucial de les fiabiliser en les orientant vers une architecture de référence adaptée au domaine du transport intelligent, telle qu’ARC-IT (Architecture Reference for Cooperative and Intelligent Transportation) [6]. D’où l’importance de développer un système RAG (Retrieval Augmented Generation, ou génération augmentée par récupération) qui spécialise les LLMs en récupérant des informations provenant de sources spécifiques au domaine du transport intelligent. Le RAG est une technique d’intelligence artificielle qui permet d’améliorer la qualité des réponses générées par le LLM en s’appuyant sur des sources externes de connaissances, complétant ainsi la représentation interne de l’information par le LLM [7].

L’objectif de ce stage est donc de développer un assistant intelligent pour la modélisation de l’architecture des systèmes de transport intelligent (STI) en utilisant une approche RAG. Cette approche combine la récupération d’informations à partir de l’architecture de référence ARC-IT et la génération de texte via des modèles de langage (LLMs) afin de fournir des réponses pertinentes au modélisateur. Il s’agit d’une application à base de LLM, conçue pour fournir une assistance en mode « accélération ».

Missions

Identifier les librairies et outils existants pour mettre en œuvre le système RAG (application à base de LLM) destiné à l’assistance à la modélisation de l’architecture des systèmes de transport intelligent (STI), en mode «accélération».
Mettre en œuvre le système RAG.
Evaluer l’efficacité du système développé sur des données de benchmark.
Contribuer à présenter et publier les résultats des travaux.

Références bibliographiques
[1] Friedenthal, S., Moore, A., & Steiner, R. (2014). A practical guide to SysML: the systems modeling language. Morgan Kaufmann.
[2] Haomin, W., Haomin, L., Xinai, Z., & Miao, Y. (2021, April). High-Frequency Data Link System Architecture Design based on SysML Modeling Language. In Journal of Physics: Conference Series (Vol. 1884, No. 1, p. 012014). IOP Publishing.
[3] Lukács, G., & Bartha, T. (2022). Formal modeling and verification of the functionality of electronic urban railway control systems through a case study. Urban Rail Transit, 8(3), 217-245.
[4] Combemale, B., Gray, J., & Rumpe, B. (2023). ChatGPT in software modeling. Software and Systems Modeling, 22(3), 777-779.
[5] Barke, S., James, M. B., & Polikarpova, N. (2023). Grounded copilot: How programmers interact with code-generating models. Proceedings of the ACM on Programming Languages, 7(OOPSLA1), 85-111.
[6] https://www.arc-it.net/
[7] Martineau, K., Explainable, A. I., & Generative, A. I. (2023). What is retrieval-augmented generation? IBM Research Blog, 22.

Profil et compétences

De formation : BAC +5/ école d’ingénieur, dans le domaine de l’informatique.

Compétences souhaitées :

Compétences en programmation, en particulier python
Compétences en IA / Machine Learning / Data Science
Bonus : Expérience en traitement du langage (NLP) et utilisation de LLM
Des connaissances en modélisation UML/SysML seraient un plus

Aptitudes personnelles :

Bon relationnel
Curiosité, esprit d’initiative, capacité d’analyse et rigueur
Avoir envie de travailler en collaboration
Intérêt pour la recherche appliquée
Aptitude à communiquer aussi bien à l’oral qu’à l’écrit (en français et anglais)

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation et relevés de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : janvier 2025
Localisation du poste : Palaiseau (91)
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-2025-03-Explo

Postuler à cette offre d’emploi

Merci de joindre CV, lettre de motivation et relevé(s) de notes.

Domaine :

Interaction usage et connaissances