Louis Hugues wiki - Résumé de Thèse

Dernière modification : 2008/11/18 19:26

Apprentissage de comportements pour un robot autonome

Thèse de Doctorat de l'Université Paris 6.

Soutenue par Louis Hugues le 19 décembre 2002
Mention : très honorable
Jury :
Jean Sallantin (rapporteur)
Philippe Gaussier (rapporteur)
Patrick Gallinari,(président)
Rachid Alami (examinateur)
Jean Daniel Zucker (examinateur)
Alexis Drogoul (directeur)

Télécharger zipped pdf (french)


Docking behavior : an exemple of behavior learned by demonstrations without any model of the environment.
Video (.mov 3.1M)

    

Contexte et problématique générale


Ce travail de thèse a été effectué au Laboratoire d'Informatique de l'Université Pierre et Marie Curie (LIP6) dans le cadre du projet MICRobES dirigé par A. Drogoul et mené par l'équipe Systèmes Multi-Agent/Intelligence Artificielle Distribuée (MIRIAD), consistant en l'étude des pré-requis pour l'intégration de groupes de robots autonomes dans les environnements humains.

Dans ce cadre, mes travaux ont porté sur la transmission de compétences concrètes à des robots autonomes . Cette problématique est intéressante, à la fois du point de vue de l'étude de la cognition en général mais aussi pour ses éventuelles retombées pratiques. En effet, dans un futur proche on peut s'attendre à ce que des robots mobiles remplissent des tâches dans des lieux aussi divers que les bureaux d'entreprises, les hôpitaux, les ateliers d'usines. L'intégration de robots autonomes mobiles dans de tels environnements réels, foncièrement différents des environnements simulés, requiert de doter ceux ci de comportements prenant en compte la nature incomplète, imprécises et incertaines de leurs perceptions ainsi que le caractère en partie imprédictible de leurs actions. Les robots appelés à évoluer dans ces environnements dynamiques très difficilement modélisables devront pourtant se comporter de manières utiles aux humains et être continuellement réadaptés à leurs besoins. La question se pose alors de savoir comment ces robots peuvent acquérir leurs comportements ? Certains comportements peuvent être programmés explicitement mais il faut pour cela disposer d'une description explicite des tâches à effectuer ainsi que d'un modèle de l'environnement ou il est possible de distinguer des invariants précis (positions des objets, distance aux obstacles…). D'autres comportements peuvent êtres appris en utilisant des méthodes téléologiques telles que l'apprentissage par renforcement ou les algorithmes génétiques. Mais celles-ci imposent elles aussi de définir explicitement les comportements, par l'intermédiaire de fonctions d 'évaluation ou de récompenses. De plus elles nécessitent une stratégie d'essais erreurs impossible à mettre en œuvre dans la plupart des environnements.

Contribution


La transmission de compétences à un robot autonome pose le problème d'associer une valeurs aux actions possibles. Ma principale hypothèse a consisté à penser que cet apprentissage devait se produire principalement lors d'interactions entre le robot et son concepteur (devenu tuteur) dans l'environnement de destination. D'abord en montrant des exemples des comportements souhaités, puis en interagissant en temps réel avec le robot il est, en effet, possible de transmettre un comportement sans le définir explicitement et sans avoir besoin d'un modèle du monde. Un tel processus d'apprentissage empirique suppose :

  1. une représentation permettant de capter la relation perception/actions telle qu'elle se produit dans le monde réel.
  2. un processus d'apprentissage interactif permettant à l'utilisateur de façonner le comportement, pour que celui-ci corresponde à ses intentions.
Ce sont ces deux axes que j'ai développés au cours de ma thèse. Encore peu de travaux abordent le problème de l'acquisition de comportement sous l'angle de l'apprentissage empirique. S'ils le font c'est le plus souvent en utilisant des perceptions prédéfinies et simplifiées telles que des formes fixes, des couleurs précises, des composants perceptuels ad-hoc. Ils éliminent de ce fait la difficulté centrale de l'adaptation des robots à leur environnement. A l'inverse dans mon approche, j'ai proposé une représentation des comportements conçue pour capturer de manière distribuée et statistique la relation perceptions-actions spécifique d'un comportement sans avoir recourt à des connaissances préalables modélisant les éléments perçus. Dans ce cadre l'un de mes objectifs était de trouver une représentation minimale reposant sur l'utilisation de percepts élémentaires et un mécanisme d'apprentissage utilisable en temps réel par un humain. L'apprentissage a été envisagé en deux phases successives: l'amorçage du comportement en apprenant à partir de peu d'exemples et l'adaptation en ligne du comportement par l'intermédiaire d'opérateurs interactifs permettant au tuteur d'amender les comportements en situation.

Le modèle proposé a été validé sur un prototype développé sur un robot réel. Il a été montré qu'il est possible d'enseigner rapidement au robot des comportements situés très difficiles, voire impossibles, à programmer et de plus inaccessibles à des méthodes d'apprentissages numériques 'classiques'. L'intérêt des deux phases d'amorçage d'adaptations y a clairement été montré. A l'occasion de ce travail les principales techniques mises en œuvres ont porté sur la structure distribuée du comportement, la vision, l'apprentissage numérique de type probabiliste, l'architecture temps réel et l'interface homme machine. (C++, Linux, Java). Ces travaux ont donnés lieu à des publications dans des conférences internationales de très bon niveau (ECAI,IROS).