Des chercheurs de Google LLC et du Université technique de Berlin cette semaine a dévoilé un robot alimenté par l’intelligence artificielle formé sur un modèle de langage visuel incarné multimodal avec plus de 562 milliards de paramètres.
PALM-E, comme le modèle est appelé, intègre une vision et un langage alimentés par l’IA pour permettre un contrôle robotique autonome, permettant au robot d’effectuer un large éventail de tâches basées sur des commandes vocales humaines, sans avoir besoin d’un recyclage constant. En d’autres termes, c’est un robot qui peut comprendre ce qu’on lui dit de faire, puis aller de l’avant et effectuer ces tâches immédiatement.
Par exemple, si le robot reçoit l’ordre de « apportez-moi les chips de riz du tiroir », PaLM-E créera rapidement un plan d’action, basé sur l’ordre et son champ de vision. Ensuite, la plate-forme robotique mobile avec un bras robotique qu’elle contrôle exécutera l’action, en toute autonomie.
PaLM-E fonctionne en visualisant son environnement immédiat à travers la caméra du robot, et peut le faire sans aucune sorte de représentation de scène prétraitée. Il regarde et absorbe simplement ce qu’il voit, puis détermine ce qu’il doit faire en fonction de cela. Cela signifie qu’il n’est pas nécessaire qu’un humain annote d’abord les données visuelles.
Les chercheurs de Google ont déclaré que PaLM-E peut également réagir aux changements de l’environnement lorsqu’il exécute une tâche. Par exemple, s’il va chercher ces chips de riz et que quelqu’un d’autre les attrape du robot et les place sur une table dans la pièce, le robot verra ce qui s’est passé, trouvera les chips, les saisira à nouveau et les apportera à la personne qui les a d’abord sollicités.
Un deuxième exemple montre comment PaLM-E peut accomplir des tâches plus complexes impliquant des séquences, qui auraient auparavant nécessité une assistance humaine :
“Nous démontrons les performances de PaLM-E sur des tâches de manipulation mobiles difficiles et diverses”, ont écrit les chercheurs. “Nous suivons en grande partie la configuration d’Ahn et al. (2022), où le robot doit planifier une séquence d’actions de navigation et de manipulation basée sur une instruction par un humain. Par exemple, étant donné la consigne « J’ai renversé mon verre, pouvez-vous m’apporter quelque chose pour le nettoyer ? », le robot doit planifier une séquence contenant « 1. Trouvez une éponge, 2. Ramassez l’éponge, 3. Apportez-la à l’utilisateur, 4. Déposez l’éponge.
PaLM-E est basé sur un grand modèle de langage existant connu sous le nom de PaLM qui est intégré aux informations sensorielles et au contrôle robotique, il s’agit donc d’un “modèle de langage visuel incarné”. Il fonctionne en prenant des observations continues de son environnement, en encodant ces données dans une séquence de vecteurs, de la même manière qu’il encode les mots en tant que « jetons de langage ». De cette façon, il peut comprendre les informations sensorielles de la même manière qu’il traite les commandes vocales.
Les chercheurs ont ajouté que PaLM-E présente un trait connu sous le nom de “transfert positif”, ce qui signifie qu’il peut transférer les connaissances et les compétences acquises lors de tâches antérieures vers de nouvelles, conduisant à des performances plus élevées que les modèles de robots à tâche unique. En outre, les chercheurs ont déclaré qu’il affiche également un “raisonnement multimodal de la chaîne de pensée”, ce qui signifie qu’il peut analyser une séquence d’entrées comprenant à la fois des entrées linguistiques et visuelles, ainsi qu’une “inférence multi-images”, où il utilise plusieurs images comme entrée pour faire une inférence ou prédire quelque chose.
Au total, PaLM-E est une percée impressionnante dans la robotique autonome, et Google a déclaré que ses prochaines étapes consisteront à explorer des applications supplémentaires dans des scénarios réels tels que la domotique et la robotique industrielle. Les chercheurs ont également exprimé l’espoir que leurs travaux inspireront davantage de recherches sur le raisonnement multimodal et l’IA incarnée.