La semana pasada, los investigadores de Microsoft Anunciado un marco experimental para controlar robots y drones utilizando las habilidades lingüísticas de ChatGPT, un popular modelo de lenguaje de IA creado por OpenAI. Usando comandos de lenguaje natural, ChatGPT puede escribir un código especial que controla los movimientos del robot. Luego, un humano obtiene una vista previa de los resultados y los ajusta según sea necesario hasta que la tarea se complete con éxito.
La búsqueda condujo a un artículo titulado «ChatGPT para robótica: Principios de diseño y habilidades de plantilla.”, escrito por Sai Vemprala, Rogério Bonatti, Arthur Bucker y Ashish Kapoor del Grupo de Robótica y Sistemas Autónomos de Microsoft.
En un vídeo de demostraciónMicrosoft muestra robots, aparentemente controlados por código escrito por ChatGPT mientras siguen instrucciones humanas, usando un brazo robótico para colocar bloques en un logotipo de Microsoft, volando un dron para inspeccionar el contenido de un estante o encontrando objetos usando un robot con capacidades de visión.
Para hacer que ChatGPT interactúe con la robótica, los investigadores le enseñaron a ChatGPT una API de robótica personalizada. Al recibir instrucciones como «atrapa la pelota», ChatGPT puede generar un código de control robótico de la misma manera que escribiría un poema o completaría un ensayo. Después de que un humano inspeccione y edite el código para verificar su precisión y seguridad, el operador humano puede ejecutar la tarea y evaluar su desempeño.
De esta forma, ChatGPT acelera la programación del control robótico, pero no es un sistema autónomo. «Hacemos hincapié en que el uso de ChatGPT para la robótica no es un proceso totalmente automatizado», dice el artículo, «sino que actúa como una herramienta para mejorar la capacidad humana».
Si bien parece que la mayoría de los comentarios de ChatGPT (en términos del éxito o el fracaso de sus acciones) provienen de humanos en forma de texto, los investigadores también afirman haber tenido cierto éxito al insertar datos visuales en ChatGPT. En un ejemplo, los investigadores encargaron a ChatGPT que ordenara a un robot que atrapara una pelota de baloncesto con la retroalimentación de una cámara: «ChatGPT puede estimar la apariencia de la pelota y el cielo en la imagen de la cámara usando código SVG. Este comportamiento sugiere la posibilidad de que LLM rastree un modelo mundial implícito que va más allá de las probabilidades basadas en texto».
Aunque los resultados parecen rudimentarios por ahora, representan los primeros intentos de aplicar la tecnología más moderna del momento -modelos de lenguaje amplio- al control robótico. Según Microsoft, una interfaz ChatGPT podría abrir la robótica a un público mucho más amplio en el futuro.
«Nuestro objetivo con esta investigación es ver si ChatGPT puede pensar más allá del texto y razonar sobre el mundo físico para ayudar con las tareas de robótica», dice una investigación de Microsoft. entrada en el blog. “Queremos ayudar a las personas a interactuar con los robots más fácilmente, sin tener que aprender lenguajes de programación complejos o detalles sobre sistemas robóticos”.