La joven compañía Figure (2022), dedicada a la robótica, ha presentado recientemente su nuevo modelo de robot humanoide, el F.02, cuya principal novedad es la inclusión, de serie, de conexión con un modelo de lenguaje grande GPT proporcionado por OpenAI, de manera que dicho robot puede interaccionar en conversaciones con personas.
Esto forma parte del enfoque centrado en la IA que Figure quiere dar a su creación: un robot humanoide de aplicación universal, que tanto puede desempeñar labores profesionales, como ser un asistente personal en el hogar o para, simplemente, hacer compañía. Todavía se encuentra algo lejos de ello, pero el F.02 les permite acercarse un paso más a su meta.
Con una altura de 1,67 metros y un peso de 70 kg (más una carga que puede llevar de hasta 20 kg), el F.02 ofrece una autonomía de cinco horas y puede moverse a una velocidad de 1,2 m/s.
El modelo predecesor encontró aplicación en una cadena de montaje de la automovilística Volkswagen, y también dispone de capacidad GenIA gracias a una actualización que lo dotó de conectividad a ChatGPT.
Esta segunda generación puede utilizar la capacidad multimodal del modelo de lenguaje GPT, para captar imágenes mediante las cámaras que dispone, analizándolas mediante el LLM para poder captar el contexto en el cual se encuentra en cada momento.
Los micrófonos y altavoces que también incorpora, le permiten captar la voz de quienes se encuentran próximos, y mediante las capacidades de GPT para transcribir la voz y comprender lo que se le pide, podemos mantener conversaciones con él teniendo en cuenta el contexto e, incluso, pedirle que haga acciones (“acércame la maceta verde que hay encima de la mesa”).
Para poder percibir lo que hay a su alrededor, Figure ha desarrollado para el F.02 un modelo de lenguaje de visión, que es el que le permite entender qué es lo que están captando sus cámaras, y pasarlo a conceptos sencillos que sean fácilmente referidos por las personas de su alrededor.
Al comprender el contexto de lo que ve, el robot puede tomar decisiones por su cuenta. Esto puede ser útil en el caso de, por ejemplo, que una persona sufra un accidente cuando se encuentra cerca del F.02, de manera que, este, al “comprender” lo que pasa, pueda ayudarla.