Appréhender le réel par les données
Pour appréhender le fonctionnement d’un système complexe, l’observation externe de son comportement est la piste la plus simple, mais qui nécessite de disposer d’une quantité très importante de données pour réussir la modélisation sur ses différentes zones de fonctionnement. Le déploiement massif de systèmes de mesure communicants et précis, couplés à des solutions efficaces de stockage rend réaliste cette approche pour un nombre croissant de systèmes.
Les techniques d’apprentissage statistique sont à la base de solutions d’extraction d’information particulièrement efficaces et les fonctionnalités qu’elles proposent s’avèrent à la fois robustes, parcimonieuses et scalables. Ces techniques permettent une modélisation de type « boite noire », que cela soit à des fins de classification, de détection, de régression ou de recherche de causalité et elles s’appliquent sur une large typologie de variables (signaux, images, vidéo, texte, parole, données relationnelles, graphes, données log, données dynamiques, séquences, etc.).
Les dernières avancées en apprentissage profond ouvrent des perspectives particulièrement attrayantes sur des corpus de grande taille en supprimant de facto l’étape préliminaire d’extraction de descripteurs grâce à un rapprochement pertinent entre les approches supervisées et non supervisées.
En complément, et pour aider à la compréhension des espaces de représentation dans lesquels évoluent les systèmes, l’axe « Science des donnés et Interaction » aborde également la visualisation des données, les interfaces utilisateurs, la réalité virtuelle, etc. qui sont des techniques facilitant l’interaction homme-machine, d’autant plus précieuses qu’elles concernent des problèmes dynamiques ou des problèmes en grande dimension difficilement appréhendables avec des outils standards.
L’axe 1 regroupe les compétences suivantes :
• apprentissage automatique,
• probabilités et statistiques,
• théorie des graphes,
• intelligence artificielle,
• web sémantique,
• traitement automatique des langues.
• traitement du signal,
• traitement d’image,
• vision,
• fusion de données,
• automatique,
• contrôle-commande,
• robotique.
• IHM,
• visualisation de données,
• ergonomie,
• réalité virtuelle,
• interaction.
Défis scientifiques associés à l’axe 1 :
Les techniques d'apprentissage statistique sont à la base de solution de classification d'information, de détection ou de régression à la fois robustes, parcimonieuses et évolutives. Elles s'appliquent à une grande variété de variables (signaux, images, vidéo, texte, données relationnelles, graphes, log data, séquences, etc.). Les dernières avancées en matière de deep learning ouvrent des perspectives particulièrement attrayantes sur les grands volumes de données en tirant partie simultanément des avantages des approches supervisées et non supervisées. La préparation des dataset, le choix des algorithmes, ainsi que leurs réglages et mises en œuvre, restent un travail d'expertise sur lequel il convient de progresser.
La recherche de causalité peut être considérée comme un problème de reconnaissance des causes et de leurs effets. Ces causalités sont d'un grand intérêt industriel en particulier si l'on s'intéresse à l'enchainement descriptif/prédictif/prescriptif qui doit être parcouru pour la mise au point in fine d'outils d'aide à la décision. Une branche très active des sciences des données concerne l'inférence causale, à la fois pour l'apprentissage des structures causales sous-jacentes et pour l'inférence des prédictions. Les modèles graphiques probabilistes (réseaux bayésiens) fournissent un cadre théorique riche pour structurer les relations de dépendance entre des variables et les probabilités associées à leurs états et à leurs interactions. Ces représentations profitent simultanément de la théorie des modèles graphiques, de la théorie des probabilités et de l'apprentissage statistique.
L'apprentissage par renforcement, réalise une connexion entre la théorie du contrôle optimal et celui de l'apprentissage statistique. Il consiste à considérer un agent autonome prenant itérativement des décisions basées sur l'état courant du processus et de l'environnement considéré comme une variable stochastique partiellement observable. En retour, l'agent est récompensé, positivement ou négativement, et la somme de ses récompenses fait l'objet d'une optimisation sur un horizon temporel donné. Cette technique s'avère très efficace pour les problèmes d'aide à la décision pour les systèmes autonomes.
Les systèmes techniques intégrant des briques d'intelligence artificielle doivent faire la preuve, comme les autres, de leur performance, de leur niveau de sécurité et de leur adaptabilité pour réussir leur déploiement industriel. Les preuves de programme ne sont pas applicables aujourd'hui aux systèmes connexionnistes du fait de leur trop grande complexité. Ce champ est bien sûr à investiguer, mais en parallèle, il convient d'avancer sur la robustesse, la sensibilité des algorithmes, leurs modes d'évaluation sur des corpus hybridant données réelles et données simulées et en utilisant des approches " adverserial " pour les contraindre. Pour l'explicabilité, l'introduction d'approches sémantique et à base de connaissances dans la sphère de l'apprentissage est sans doute une piste à investiguer.
Pour comprendre les espaces dans lesquels les systèmes évoluent et les trajectoires qu'ils génèrent, la visualisation des données en grande dimension est devenue une discipline à part entière. La réduction de dimensionnalité, la navigation ergonomique dans les dataset et une meilleure intelligibilité des résultats sont les attendus principaux de ces techniques, en particulier pour les données spatio-temporelle et pour les données de type graphe. Également, les interfaces homme-machine sont aujourd'hui un champ d'investigation incontournable pour rendre les interactions humains - systèmes complexes plus fluides et plus efficaces et pour faciliter ainsi l'aide à la décision des opérateurs.