Pol Labarbarie, doctorant au sein du programme Confiance.ai (projet EC4 – robustesse des algorithmes IA) mené par l’IRT SystemX, soutiendra sa thèse de l’Université Paris-Saclay le 18 décembre 2024, à 14h, sur le thème : Attaques par patch transférables – une menace potentielle pour les algorithmes de vision par ordinateur opérant dans le monde réel.

Résumé de la thèse :

Les réseaux de neurones profonds offrent aujourd’hui des performances inégalées notamment pour les fonctions de vision par ordinateur comme par exemple la classification d’images, la détection d’objets et la segmentation sémantique. Malgré ces avancées, les modèles d’apprentissage profond présentent des vulnérabilités qui peuvent être exploitées par des agents malveillants pour induire des comportements dangereux de la part des modèles d’IA. Une des menaces, appelée attaque par patch, consiste à introduire dans la scène un objet texturé pour duper le modèle. Par exemple, un patch placé sur un panneau stop peut amener le réseau à le classer à tort comme étant un panneau de limitation de vitesse. Ce type d’attaque soulève d’importants problèmes de sécurité pour les systèmes de vision par ordinateur opérant dans le monde physique. Dans cette thèse, nous étudions si un tel patch peut perturber un système physique dans des conditions d’attaque réalistes, i.e., sans connaissance préalable sur le système ciblé.

Bien que de nombreuses attaques par patch aient été proposées dans la littérature, il n’existe pas, à notre connaissance, de travail qui décrit les caractéristiques essentielles qualifiant une attaque par patch de critique. L’une de nos contributions est la définition de ce que serait une attaque par patch critique. Pour être qualifié de critique, une attaque par patch doit vérifier deux critères essentiels. Tout d’abord, le patch doit être robustes à des transformations physiques, ce qui est résumé par la notion de physicalité du patch. Ensuite, le patch doit être transférable, c’est-à-dire que le patch a la capacité de duper avec succès un réseau sans posséder aucune connaissance préalable sur celui-ci. La transférabilité de l’attaque est un facteur clé, car les systèmes physiques déployés par les entreprises sont souvent opaques ou inconnus. Bien que la physicalité des patchs ait été développée et améliorée par de nombreux travaux, la transférabilité des patchs reste faible et peu de méthode propose de l’améliorer.

Afin de créer une attaque par patch transférable pour une grande variété de classifieurs d’images, nous proposons une nouvelle méthode de conception des patchs. Cette méthode repose sur l’utilisation de la distance de Wasserstein, distance définie entre deux mesures de probabilité. Notre patch est appris en minimisant la distance de Wasserstein entre la distribution des caractéristiques des images corrompues par notre patch et la distribution des caractéristiques d’images d’une classe cible préalablement choisie. Une fois appris et placé dans la scène, notre patch induit plusieurs réseaux à prédire la classe de la distribution ciblée. Nous montrons qu’un tel patch est transférable et peut être implémenté dans le monde physique afin de perturber des classifieurs d’images sans aucune connaissance sur ceux-ci.

Afin d’avantage caractériser la potentielle menace des attaques par patch, nous proposons d’étudier leur transférabilité quand ceux-ci sont développer pour duper des détecteurs d’objets. Les détecteurs d’objets sont des modèles plus complexes que les classifieurs d’objets et sont souvent plus utilisés dans les systèmes opérant dans le monde physique. Nous étudions plus particulièrement les attaques par patch dites cape d’invisibilité, un type particulier de patchs conçus pour inhiber la détection d’objets lorsqu’ils leur sont appliqués dessus. Nos résultats révèlent que le protocole dévaluation utilisé dans la littérature comporte plusieurs problèmes rendant l’évaluation de ces patchs incorrecte. Pour y remédier, nous introduisons un problème de substitution qui garantit que le patch produit supprime bien la bonne détection de l’objet que nous souhaitons attaquer. En utilisant ce nouveau processus d’évaluation, nous montrons que les attaques par patch de la littérature ne parviennent pas à inhiber la détection d’objets limitant ainsi leur criticité.

Composition du jury :

  • Julien RABIN – Maître de conférences, HDR, ENSI Caen – Rapporteur
  • William PUECH – Professeur des Universités, Université de Montpellier / CNRS – Rapporteur
  • Anissa MOKRAOUI – Professeure des Universités, Université Sorbonne Paris Nord – Examinatrice
  • Stéphane CANU – Professeur des Universités / INSA de Rouen / Normandie Université – Examinateur

Encadrants :

  • Directeur de la thèse : Stéphane Herbin, chercheur à ONERA
  • Co-encadrant : Adrien Chan Hon Tong, chercheur à ONERA
  • Co-encadrant et référent à l’IRT : Milad Leyli-Abadi, Ingénieur de recherche architecte à l’IRT SystemX

Informations pratiques :

La soutenance aura lieu le mercredi 18 décembre à 14h à l’IRT SystemX dans l’amphithéâtre du site Digiteo Moulon Batiment 660 université paris-saclay, soit à l’adresse suivante : 660 Av. des Sciences Bâtiment, 91190 Gif-sur-Yvette (https://maps.app.goo.gl/dwpFaivDmvDr25VN7)

La présentation sera en français. Vous êtes invités au traditionnel « pot de thèse » qui suivra la soutenance.

Inscrivez-vous à la newsletter de l'IRT SystemX

 et recevez chaque mois les dernières actualités de l'institut :