¿Cómo les afectará esto?

La revolución de los robots y la inteligencia artificial

Para toda una generación de científicos criados viendo Star Wars, resulta decepcionante la falta de robots tipo C-3PO deambulando por nuestras ciudades y hogares. ¿Dónde están los robots humanoides dotados de sentido común que pueden ayudar en casa y en el trabajo?

Los avances rápidos en inteligencia artificial (IA) podrían estar listos para llenar ese vacío. «No me sorprendería si fuéramos la última generación para la que esas escenas de ciencia ficción no sean una realidad», dice Alexander Khazatsky, investigador en aprendizaje automático y robótica en la Universidad de Stanford en California.

Desde OpenAI hasta Google DeepMind, casi todas las grandes empresas tecnológicas con experiencia en IA están trabajando en llevar los versátiles algoritmos de aprendizaje que alimentan los chatbots, conocidos como modelos base, a la robótica. La idea es imbuir a los robots con conocimientos de sentido común, permitiéndoles abordar una amplia gama de tareas. Muchos investigadores creen que los robots podrían volverse realmente buenos y rápidos. «Creemos que estamos en un punto de cambio en la robótica», dice Gerard Andrews, gerente de marketing enfocado en robótica en la empresa tecnológica Nvidia en Santa Clara, California, que en marzo lanzó un modelo de IA de propósito general diseñado para robots humanoides.

Al mismo tiempo, los robots podrían ayudar a mejorar la IA. Muchos investigadores esperan que al proporcionar una experiencia corporal al entrenamiento de IA los acerque al sueño de una ‘inteligencia artificial general’ – IA que tenga habilidades cognitivas similares a las humanas en cualquier tarea. «El último paso hacia la verdadera inteligencia tiene que ser la inteligencia física», dice Akshara Rai, investigador en IA en Meta en Menlo Park, California.

Pero a pesar de que muchos investigadores están entusiasmados con la última inyección de IA en la robótica, también advierten que algunas de las demostraciones más impresionantes son solo eso – demostraciones, a menudo realizadas por empresas ansiosas por generar publicidad. Puede ser un largo camino desde la demostración hasta la implementación, dice Rodney Brooks, un robótico del Instituto de Tecnología de Massachusetts en Cambridge, cuya compañía iRobot inventó la aspiradora autónoma Roomba.

Hay muchos obstáculos en este camino, incluyendo reunir suficientes datos correctos para que los robots aprendan, lidiar con hardware temperamental y abordar preocupaciones sobre la seguridad. Los modelos base para la robótica «deberían ser explorados», dice Harold Soh, especialista en interacciones humano-robot en la Universidad Nacional de Singapur. Pero él es escéptico, dice, de que esta estrategia lleve a la revolución en la robótica que algunos investigadores predicen.

Base sólida

El término robot abarca una amplia gama de dispositivos automatizados, desde los brazos robóticos ampliamente utilizados en la fabricación, hasta los automóviles autónomos y drones utilizados en la guerra y misiones de rescate. La mayoría incorpora algún tipo de IA – para reconocer objetos, por ejemplo. Pero también están programados para llevar a cabo tareas específicas, trabajar en entornos particulares o depender de algún nivel de supervisión humana, dice Joyce Sidopoulos, cofundadora de MassRobotics, un centro de innovación para empresas de robótica en Boston, Massachusetts. Incluso Atlas – un robot fabricado por Boston Dynamics, una compañía de robótica en Waltham, Massachusetts, que mostró sus habilidades en parkour en 2018 – funciona mediante el mapeo cuidadoso de su entorno y la elección de las mejores acciones a ejecutar a partir de una biblioteca de plantillas incorporadas.

Para la mayoría de los investigadores de IA que se aventuran en la robótica, el objetivo es crear algo mucho más autónomo y adaptable a una mayor variedad de circunstancias. Esto podría comenzar con brazos de robot que pueden ‘tomar y colocar’ cualquier producto de fábrica, pero evolucionar hacia robots humanoides que brinden compañía y apoyo a las personas mayores, por ejemplo. «Hay tantas aplicaciones», dice Sidopoulos.

La forma humana es complicada y no siempre está optimizada para tareas físicas específicas, pero tiene el enorme beneficio de estar perfectamente adaptada al mundo que las personas han construido. Un robot con forma humana sería capaz de interactuar físicamente con el mundo de la misma manera que lo hace una persona.

Sin embargo, controlar cualquier robot – y mucho menos uno con forma humana – es increíblemente difícil. Tareas aparentemente simples, como abrir una puerta, son en realidad enormemente complejas, requiriendo que un robot comprenda cómo funcionan los diferentes mecanismos de las puertas, cuánta fuerza aplicar a una manija y cómo mantener el equilibrio mientras lo hace. El mundo real es extremadamente variado y cambia constantemente.

El enfoque que ahora está cobrando fuerza es controlar un robot utilizando el mismo tipo de modelos base de IA que impulsan los generadores de imágenes y chatbots como ChatGPT. Estos modelos utilizan redes neuronales inspiradas en el cerebro para aprender de grandes cantidades de datos genéricos. Construyen asociaciones entre elementos de sus datos de entrenamiento y, cuando se les pide una salida, aprovechan estas conexiones para generar palabras o imágenes apropiadas, a menudo con resultados sorprendentemente buenos.

De manera similar, un modelo base para robot se entrena en texto e imágenes de Internet, lo que le proporciona información sobre la naturaleza de varios objetos y sus contextos. También aprende de ejemplos de operaciones robóticas. Puede ser entrenado, por ejemplo, en videos de ensayos y errores de robots, o videos de robots que están siendo operados de forma remota por humanos, junto con las instrucciones que acompañan a esas acciones. Un modelo base de robot entrenado puede entonces observar un escenario y usar sus asociaciones aprendidas para predecir qué acción llevará al mejor resultado.

Google DeepMind ha construido uno de los modelos base robóticos más avanzados, conocido como Robotic Transformer 2 (RT-2), que puede operar un brazo de robot móvil construido por su empresa hermana Everyday Robots en Mountain View, California. Al igual que otros modelos base robóticos, fue entrenado tanto en Internet como en videos de operaciones robóticas. Gracias al entrenamiento en línea, RT-2 puede seguir instrucciones incluso cuando esas órdenes van más allá de lo que el robot ha visto hacer a otro robot antes1. Por ejemplo, puede mover una lata de bebida sobre una fotografía de Taylor Swift cuando se le pide que lo haga, incluso si la imagen de Swift no estaba en ninguna de las 130,000 demostraciones en las que RT-2 había sido entrenado.

En otras palabras, el conocimiento obtenido de la búsqueda en Internet (como la apariencia de la cantante Taylor Swift) se transmite a las acciones del robot. «Muchos conceptos de Internet simplemente se transfieren», dice Keerthana Gopalakrishnan, investigador en IA y robótica de Google DeepMind en San Francisco, California. Esto reduce radicalmente la cantidad de datos físicos que un robot necesita haber absorbido para afrontar diferentes situaciones, dice.

Pero para comprender completamente los fundamentos de los movimientos y sus consecuencias, los robots aún necesitan aprender de una gran cantidad de datos físicos. Y aquí yace un problema.

Falta de datos

Aunque los chatbots se están entrenando con miles de millones de palabras de Internet, no existe un conjunto de datos equivalente para la actividad robótica. Esta falta de datos ha dejado a la robótica «en el polvo», dice Khazatsky.

Compartir datos es una forma de evitar esto. Khazatsky y sus colegas han creado DROID2, un conjunto de datos de código abierto que reúne alrededor de 350 horas de datos de video de un tipo de brazo robot (el brazo robotico Franka Panda 7DoF, construido por Franka Robotics en Munich, Alemania), mientras era operado remotamente por personas en 18 laboratorios de todo el mundo. La cámara con vista de robot ha registrado datos visuales en cientos de entornos, incluidos baños, lavanderías, dormitorios y cocinas. Esta diversidad ayuda a que los robots se desempeñen bien en tareas con elementos previamente no encontrados, dice Khazatsky.

El brazo robótico Google DeepMind RT-2 sosteniendo un juguete dinosaurio sobre una mesa con una gran variedad de objetos

Al recibir el comando de ‘recoger animal extinto’, el modelo RT-2 de Google selecciona la figura de dinosaurio de una mesa abarrotada.

Gopalakrishnan forma parte de una colaboración de más de una docena de laboratorios académicos que también está reuniendo datos robóticos, en su caso, de diversidad de formas de robots, desde brazos individuales hasta cuadrúpedos. La teoría de los colaboradores es que aprender sobre el mundo físico en un cuerpo de robot debería ayudar a que una IA opere en otro – de la misma manera en que aprender en inglés puede ayudar a un modelo de lenguaje a generar chino, porque los conceptos subyacentes sobre el mundo que las palabras describen son los mismos. Esto parece funcionar. El modelo de base resultante de la colaboración, llamado RT-X, que se lanzó en octubre de 20233, se desempeñó mejor en tareas del mundo real que los modelos que los investigadores entrenaron en una arquitectura de robot.

Muchos investigadores dicen que tener este tipo de diversidad es esencial. «Creemos que un verdadero modelo de base robótica no debería estar atado a solo un cuerpo», dice Peter Chen, investigador en IA y cofundador de Covariant, una firma de IA en Emeryville, California.

Covariant también está trabajando arduamente para ampliar los datos de robots. La compañía, que fue creada en parte por ex investigadores de OpenAI, comenzó a recopilar datos en 2018 de 30 variaciones de brazos de robots en almacenes de todo el mundo, todos operados con el software de Covariant. El Modelo Base de Robótica 1 (RFM-1) de Covariant va más allá de recopilar datos de video para abarcar lecturas de sensores, como cuánto peso se levantó o la fuerza aplicada. Este tipo de datos debería ayudar a un robot a realizar tareas como manipular un objeto blando, dice Gopalakrishnan, en teoría, ayudando a un robot a saber, por ejemplo, cómo no magullar un plátano.

Covariant ha construido una base de datos privada que incluye cientos de miles de millones de ‘tokens’ – unidades de información robótica del mundo real – que Chen dice que es más o menos equivalente a la escala de datos con la que se entrenó GPT-3, la versión de 2020 del modelo de lenguaje grande de OpenAI. «Tenemos mucho más datos del mundo real que otras personas, porque es en lo que nos hemos enfocado», dice Chen. RFM-1 está listo para ser lanzado pronto, dice Chen, y debería permitir a los operadores de robots con software de Covariant escribir o hablar instrucciones generales, como «recoger manzanas del cesto».

Otra forma de acceder a grandes bases de datos de movimiento es centrarse en una forma de robot humanoide para que una IA pueda aprender viendo videos de personas, de los cuales hay miles de millones en línea. El modelo base de Fundación de Proyecto GR00T de Nvidia, por ejemplo, está ingiriendo videos de personas realizando tareas, dice Andrews. Aunque copiar a los humanos tiene un gran potencial para mejorar las habilidades de los robots, hacerlo bien es difícil, dice Gopalakrishnan. Por ejemplo, los videos de robots generalmente vienen con datos sobre el contexto y comandos, algo que no sucede en los videos de humanos, dice.

Realidad virtual

Una última y prometedora forma de encontrar suministros ilimitados de datos físicos, según los investigadores, es a través de la simulación. Muchos robóticos están trabajando en la construcción de entornos de realidad virtual en 3D, cuya física imita el mundo real, y luego conectándolos a un cerebro robótico para entrenarlo. Los simuladores pueden generar enormes cantidades de datos y permitir que humanos y robots interactúen virtualmente, sin riesgos, en situaciones raras o peligrosas, todo sin desgastar la mecánica. “Si tuvieras que conseguir un conjunto de manos robóticas y hacerlas funcionar hasta que alcancen un alto nivel de destreza, se sobrecalentarían los motores», dice Andrews de Nvidia.

Pero crear un buen simulador es una tarea difícil. «Los simuladores tienen una buena física, pero no perfecta, y hacer entornos simulados diversos es casi tan difícil como simplemente recopilar datos diversos», dice Khazatsky.

Meta y Nvidia están apostando en grande en la simulación para ampliar los datos de robots, y han construido mundos simulados sofisticados: Habitat de Meta y Isaac Lab de Nvidia. En ellos, los robots adquieren el equivalente de años de experiencia en unas pocas horas y, en pruebas, luego aplican con éxito lo que han aprendido en situaciones que nunca han encontrado en el mundo real. «La simulación es una herramienta extremadamente poderosa pero subestimada en la robótica, y estoy emocionado de verla ganando impulso», dice Rai.

Muchos investigadores son optimistas de que los modelos base ayudarán a crear robots de propósito general que puedan reemplazar el trabajo humano. En febrero, Figure, una empresa de robótica en Sunnyvale, California, recaudó US$675 millones en inversión para su plan de utilizar los modelos de lenguaje y visión desarrollados por OpenAI en su robot humanoide de propósito general. Un video de demostración muestra a un robot entregando una manzana a una persona en respuesta a una solicitud general de ‘algo para comer’. El video en X (la plataforma anteriormente conocida como Twitter) ha acumulado 4,8 millones de vistas.

Exactamente cómo se ha entrenado el modelo base de este robot, junto con cualquier detalle sobre su rendimiento en diversos entornos, no está claro (ni OpenAI ni Figure respondieron a las solicitudes de entrevista de Nature). Estas demostraciones deberían tomarse con cautela, dice Soh. El entorno en el video es notablemente austero, dice. Agregar un entorno más complejo podría potencialmente confundir al robot, de la misma manera que esos entornos han engañado a los autos autónomos. «Los robóticos son muy escépticos de los videos de robots, por una buena razón, porque los hacemos y sabemos que de 100 intentos, generalmente solo uno funciona», dice Soh.

Desafíos por delante

A medida que la comunidad de investigación en IA avanza con los cerebros robóticos, muchos de los que realmente construyen robots advierten que el hardware también presenta un desafío: los robots son complicados y se estropean mucho. El hardware ha estado avanzando, dice Chen, pero «muchas personas que ven la promesa de los modelos base simplemente no conocen el otro lado de lo difícil que es desplegar este tipo de robots», dice.

Otro problema es hasta dónde pueden llegar los modelos base de robots utilizando los datos visuales que constituyen la gran mayoría de su entrenamiento físico. Los robots podrían necesitar gran cantidad de otros tipos de datos sensoriales, por ejemplo, del sentido del tacto o de la propiocepción – un sentido de dónde está su cuerpo en el espacio, dice Soh. Esos conjuntos de datos aún no existen. «Hay muchas cosas que faltan, que creo que son necesarias para que cosas como un humanoide funcionen eficientemente en el mundo», dice.

Lanzar modelos base en el mundo real también plantea otro gran desafío: la seguridad. En los dos años desde que comenzaron a proliferar, se ha demostrado que los grandes modelos de lenguaje vienen con información falsa y sesgada. También pueden ser engañados para hacer cosas que se les ha programado que no hagan, como decir a los usuarios cómo fabricar una bomba. Darle a los sistemas de IA un cuerpo trae estos tipos de errores y amenazas al mundo físico. «Si un robot se equivoca, puede causarle daño físico, romper cosas o caus

Deja un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR