Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique d’excellence mondiale de Paris-Saclay, vous prendrez une part active au développement d’un centre de recherche technologique de niveau international dans le domaine de l’ingénierie numérique des systèmes. Adossé aux meilleurs organismes de recherche français du domaine et constitué par des équipes mixtes d’industriels et d’académiques, ce centre a pour mission de générer de nouvelles connaissances et solutions technologiques en s’appuyant sur les percées de l’ingénierie numérique et de diffuser ses compétences dans tous les secteurs économiques.

Vous serez encadré par un ingénieur-chercheur SystemX du domaine sciences des données et interaction.

Vous travaillerez au sein d’un projet porté par l’IRT SystemX et qui vise à développer un cadre scientifique et technologique permettant de faire avancer des modèles d’IA générative pré-entraînés en les spécialisant à des cas d’usages industriels/industrialisables.

 

Présentation du sujet

Contexte
Dans un contexte industriel, les acteurs tels que les ingénieurs, chercheurs, valideurs etc,  produisent et utilisent une variété de documents techniques hétérogènes (textes, schémas, diagrammes, etc.) pour concevoir, valider et maintenir des systèmes complexes. La gestion et l’exploitation efficace de ces connaissances techniques représentent donc un enjeu majeur pour l’industrie.
Les récents progrès des grands modèles de langage (LLM) offrent de nouvelles opportunités pour traiter et organiser ces informations dans un cadre multimodal.
Ce stage s’intéressera à la manière dont les LLM peuvent aider à interroger, structurer, et analyser de tels documents pour faciliter l’accès aux informations techniques et exploiter celles-ci pour des objectifs d’aide à la décision (eg. Aide à la maintenance, à la conception, à la validation, etc).

Objectifs du stage :
La recherche menée dans le cadre de ce stage vise à explorer l’utilisation des LLM pour intégrer et exploiter des connaissances techniques multimodales, à partir de documents issus de bases de données publiques (HAL, ArXiv, brevets) et/ou de rapports internes (à l’IRT ou ces partenaires) spécifique au domaine d’ingénierie concerné. L’objectif est de permettre aux modèles de langage de traiter efficacement ces documents techniques en intégrant diverses modalités (texte, schémas, diagrammes) et de proposer une solution pour une gestion optimisée des connaissances techniques.
Les principaux défis abordés durant le stage porteront sur :

  • Multimodalité : Recherche de LLM capable de traiter des documents multimodaux (texte enrichi de schémas et diagrammes).
  • Spécialisation : Adapter le modèle à des données spécifiques, via des techniques telles que le fine-tuning, la récupération d’informations augmentée (RAG), ou la distillation de connaissances.
  • Évaluation : pouvoir évaluer la performance des modèles sur des documents techniques sur la base de métriques adaptées.

Missions du stage : 

  • État de l’art : Réaliser un état de l’art des LLM appliqués à la gestion de documents multimodaux et des techniques de spécialisation de modèles pour des domaines techniques spécifiques. Examiner les avantages et limites des approches existantes.
  • Conception d’un LLM spécialisé : Adapter un modèle LLM existant (par exemple à partir LLaMA ou autre LLM open-source) pour traiter des documents techniques multimodaux. L’objectif est de permettre au modèle d’extraire, organiser et analyser des informations techniques contenues dans des documents comportant du texte et des schémas, diagrammes,  ..
  • Benchmark et évaluation : Créer un benchmark de documents techniques et mettre en place un cadre d’évaluation pour tester la performance du modèle adapté sur des tâches spécifiques (résumé, classification, extraction d’information).
  • Documentation des méthodes développées et rédaction d’un rapport en anglais, favorisant la mise en open-source,
  • Participer à des réunions et séminaires, et présenter les travaux réalisés aux équipes du projet et lors de séminaires internes.
  • Une publication scientifique peut-être envisagée en fonction de l’originalité des travaux.

Quelques références bibliographiques sur le sujet :

  • « DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation ». Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Hyunmin Cheong, Faez Ahmed. https://arxiv.org/pdf/2404.07917, 2024.
  • « DocLLM: A Layout-Aware Generative Language Model for Multimodal Document Understanding ». Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu.
    arXiv preprint. arXiv:2401.00908, 2023.
  • « DocBank: A Benchmark Dataset for Document Layout Analysis » Yiheng Xu, Teng Zhao, Lei Cui, Furu Wei, Minlie Huang, Zhiyuan Liu. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020.
  • « LLMs Meet Multimodal Generation and Editing: A Survey ». Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen. arXiv preprint arXiv:2405.19334, 2024.

Ce stage peut être suivi d’une proposition de thèse.

 

Profil et compétences

De formation bac +5 (Master 2 Recherche ou 5è année d’études en école d’ingénieurs avec un intérêt avéré pour la recherche) en Informatique, Mathématiques Appliquées, Science des données, Apprentissage Automatique, ou équivalent.

Connaissances et savoir-faire essentiels :

  • Maîtrise des concepts théoriques et algorithmiques de Machine Learning ; Statistiques, Optimisation ;
  • Une première expérience (cours, formation, mini-projet, etc) en Traitement Automatique du Langage naturel (TAL) / Natural Language Processing (NLP)
  • Maîtrise d’un environnement logiciel pour le Machine Learning, comme Python et ses librairies scientifiques par exemple, numpy, pandas, pytorch (ou similaires);

Qualités professionnelles :

  • Aptitude à communiquer à l’oral et à l’écrit en français et en anglais ;
  • Intérêt avéré pour la recherche partenariale et appliquée ;
  • Motivation pour une recherche en thèse de doctorat en lien avec le domaine du stage ;
  • Capacité d’analyse, esprit de travailler en équipe.

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation (au minimum une) et relevés de notes des deux années du Master (ou des deux dernières années du cycle ingénieur).

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : février 2025
Localisation du poste : Gif-sur-Yvette (91)
Gratification : 1300 € brut mensuel
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : STAGE-2025-16-CSIA


Postuler à cette offre d’emploi

Merci de joindre CV, lettre de motivation et relevé(s) de notes.


Domaine :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

 et recevez chaque mois les dernières actualités de l'institut :