Contexte du stage

Au sein de l’Institut de Recherche Technologique SystemX, situé au cœur du campus scientifique Paris-Saclay, vous prendrez une part active dans les travaux de recherche et développements au sein d’une recherche exploratoire qui s’intéresse à l’amélioration des modèles de langage en s’appuyant sur le feedback de l’humain.    

Vous serez encadré par des ingénieurs-chercheurs SystemX du domaine Science des données et IA. Vous travaillerez au sein d’un projet de recherche exploratoire SystemX en partenariat avec le Centre de Recherche en Informatique de Lens (CRIL). Vous aurez également des interactions régulières avec les équipes et les groupes de travail sur le sujet porté par cette recherche exploratoire.

 

Présentation du sujet

Contexte 
Les grands modèles de langage (LLM) tels que GPT-4 ont révolutionné le domaine de l’intelligence artificielle en offrant des capacités impressionnantes pour comprendre et générer du texte. Cependant, ces modèles présentent des limitations en termes de précision factuelle et de mise à jour des informations. Ils peuvent être sujets à des phénomènes d’hallucination qui les rendent difficilement exploitables sans intervention humaine pour vérifier la pertinence et la précision des résultats générés.  L’intégration de techniques de génération augmentée par récupération (RAG) et l’apprentissage renforcé par retour d’information de l’humain (RLHF-Reinforcement Learning with Human Feedback) offrent des solutions prometteuses pour surmonter ces défis et peuvent contribuer à l’atténuation des effets d’hallucination et de production incohérente de ces modèles.

Objectif du stage
Ce stage vise à explorer et à implémenter des techniques avancées telles que la génération augmentée par récupération et l’apprentissage renforcé par retour d’information de l’humain pour améliorer la précision et la pertinence des modèles LLM.

Vos missions pour ce stage seront les suivantes :

  • Étude de la littérature : Réaliser une revue des travaux de recherche existants sur les techniques RLHF appliquées aux modèles de langage. Comprendre les mécanismes par lesquels ces techniques peuvent réduire les hallucinations et améliorer la cohérence des modèles LLM.
  • Développement méthodologique : Proposer et développer une approche pour intégrer le feedback humain dans le processus de fine-tuning des LLM, en utilisant des techniques de RLHF.
  • Implémentation et tests : Mettre en œuvre un pipeline RLHF pour un modèle de langage pré-entraîné, incluant les étapes de raffinement, d’entrainement du modèle de récompense, et de ré-raffinement.
  • Évaluation des performances : Évaluer les performances du modèle affiné à l’aide de métriques quantitatives (perplexité, ROUGE, BLEU, BERTScore…) et qualitatives (évaluation humaine, tests de sécurité et d’éthique) sur des jeux de données réels.
  • Analyse des résultats : Analyser les sorties du modèle dans le but d’identifier les améliorations en termes de précision, de pertinence, et de réduction d’hallucination.
  • Documentation : Rédiger un rapport détaillé des méthodes, expériences et résultats obtenus pour faciliter la reproduction des travaux.

Références
[1] Yao, Yifan, et al. « A survey on large language model (llm) security and privacy: The good, the bad, and the ugly. » High-Confidence Computing (2024): 100211.
[2] Fan, Wenqi, et al. « A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models. » Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2024.
[3] Cai, Zefan, Baobao Chang, and Wenjuan Han. « Humanin-the-Loop through Chain-of-Thought. » arXiv preprint arXiv:2306.07932 (2023).
[4] Zhang, Ruichen, et al. « Interactive AI with retrieval-augmented generation for next generation networking. » IEEE Network (2024).
[5] Dai, Shih-Chieh, Aiping Xiong, and Lun-Wei Ku. « LLM-in-the-loop: Leveraging large language model for thematic analysis. » arXiv preprint arXiv:2310.15100 (2023).
[6] LEE, Harrison, PHATALE, Samrat, MANSOOR, Hassan, et al. RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. In : Forty-first International Conference on Machine Learning.
[7] Afzal, Anum, et al. « Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop. » arXiv preprint arXiv:2407.05925 (2024).
[8] Wang, Xi, et al. « Adaptive Retrieval-Augmented Generation for Conversational Systems. » arXiv preprint arXiv:2407.21712 (2024).
[9] Freitas, Bruno Amaral Teixeira, and Roberto de Alencar Lotufo. « Retail-GPT: leveraging Retrieval Augmented Generation (RAG) for building E-commerce Chat Assistants. » arXiv preprint arXiv:2408.08925 (2024).
[10] Kulkarni, Mandar, et al. « Reinforcement Learning for Optimizing RAG for Domain Chatbots. » arXiv preprint arXiv:2401.06800 (2024).
[11] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.
[12] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D.,and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprintarXiv:2009.01325
[13] OUYANG, Long, WU, Jeffrey, JIANG, Xu, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 2022, vol. 35, p. 27730-27744.
[14] Chang, Yupeng, et al. « A survey on evaluation of large language models. » ACM Transactions on Intelligent Systems and Technology 15.3 (2024): 1-45.

 

Profil et compétences

Etudiant BAC+5 en fin de cycle école d’ingénieur ou Master 2, dans le domaine de la science des données, IA, statistiques, mathématiques appliquées ou informatique avec une spécialisation en science des données et Deep Learning.

Compétences souhaitées :

  • Compétences en programmation (Python, frameworks de Deep Learning).
  • Connaissances en traitement automatique du langage naturel (NLP).
  • Familier avec les librairies et les frameworks LLM : Huggingface, LangChain ou autre.
  • Familier avec les outils Git/Bash, etc.
  • Connaissances en développement d’Interface Homme-Machine (IHM) avec l’une des librairies Python: Dash, Streamlit, etc.

Aptitudes personnelles :

  • Esprit d’analyse, autonomie, travail collaboratif.
  • Intérêt et motivation pour la recherche appliquée
  • Aptitude à communiquer aussi bien à l’oral qu’à l’écrit (en français et anglais).

 

Merci d’indiquer la référence du stage dans l’objet de votre mail de candidature, d’y joindre CV, lettre de motivation, lettre(s) de recommandation et relevés de notes.

Informations clés

Durée du stage : 6 mois
Date de démarrage envisagée : mars 2025
Localisation du poste : Gif-sur-Yvette (91)
Référence de l’offre à mentionner dans l’objet dans votre e-mail de candidature : DSR-2025-10-EXPLO

 


Postuler à cette offre d’emploi

Merci de joindre CV, lettre de motivation et relevé(s) de notes.


Domaine :


Partager cette offre d’emploi :

Inscrivez-vous à la newsletter de l'IRT SystemX

 et recevez chaque mois les dernières actualités de l'institut :