Actualizado el 17/12/2024

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Proponen utilizar LLMs para mejorar la conducción autónoma

Proponen utilizar LLMs para mejorar la conducción autónoma

Escrito por Guillem Alsina el 11/09/2024 a las 08:33:30
193

La conducción autónoma todavía se enfrenta a algunas lagunas para poder ser aplicada a la práctica, es decir: que los vehículos autónomos puedan circular por cualquier calle o vía del mundo sin un conductor humano que esté pendiente de poder tomar el control en el caso que se dé alguna situación en la que el ordenador de a bordo no disponga de la capacidad de resolver el problema que se le presente.


Quien más quien menos, los que seguimos la actualidad del sector, hemos leído sobre algún incidente relacionado con esta falta de capacidad de resolución de algunas situaciones por parte de los vehículos, en lo que constituye una limitación de la tecnología de conducción autónoma que debe ser subsanada.


¿Y cómo la subsanamos? Pués aunque parezca contrario a lo que la lógica indicaría para un vehículo autónomo, echando mano a cómo conduciría una persona. Y, para eso, está la IA Generativa (GenAI) y los modelos de lenguaje (LLMs), que persiguen emular la forma del pensamiento humano.


Según explican en The Conversation, el auge de la conducción autónoma empezó a ganar fuerza a finales de la década de 2010 con la introducción de redes neuronales profundas (DNNs, por sus siglas en inglés) que, inspiradas en la estructura y funcionamiento del cerebro humano, permiten procesar imágenes y vídeos de escenarios de tráfico, identificando elementos críticos, como los obstáculos que pueda haber en la vía. Este procesamiento se basa en la creación de representaciones tridimensionales de los objetos, evaluando sus tamaños, orientaciones y posiciones en relación con el vehículo.


Este enfoque, conocido como "sentir-pensar-actuar", es el pilar de la mayoría de los sistemas de conducción autónoma actuales. En él, los datos de los sensores son procesados por las DNNs para predecir trayectorias y planificar las acciones del vehículo. Si bien esta metodología facilita la depuración y el análisis, presenta una limitación crítica: está fundamentalmente separada de los mecanismos cerebrales que los humanos empleamos al conducir.


La investigación en neurociencia, psicología y ciencias cognitivas sugiere que, en las personas, los procesos de percepción y acción se encuentran profundamente interrelacionados. Un conductor humano, por ejemplo, no procesa todo el entorno de manera uniforme, sino que focaliza aquellos elementos del entorno que van a ser relevantes para la maniobra que va a llevar a cabo, como al prepararse para girar a la izquierda en una intersección. En contraste, el enfoque "sentir-pensar-actuar" procesa el escenario completo, sin tener en cuenta las intenciones inmediatas del vehículo.


Además, las DNNs dependen en gran medida de los datos con los que fueron entrenadas. Frente a variaciones inusuales de un escenario familiar, estos sistemas pueden fallar o pasar por alto información crítica, lo que representa un problema significativo en situaciones que se salen de lo “normal”. Aunque se han hecho esfuerzos por ampliar los conjuntos de datos de entrenamiento, la complejidad y variabilidad de las situaciones reales hacen imposible cubrir todas las posibilidades.


Por otro lado, los seres humanos son especialmente buenos para manejar situaciones nuevas gracias a su conocimiento general del mundo, lo que les permite aplicar el sentido común y tomar decisiones acertadas en situaciones inesperadas, de las que no tienen precedentes establecidos. Para las personas, la conducción es también una forma de interacción social, en la que el sentido común es la clave para interpretar y predecir el comportamiento de otros usuarios de la vía.


Intentar replicar este sentido común en las DNNs ha sido uno de los mayores desafíos de la última década. Sin embargo, los recientes avances en modelos de lenguaje, como los que impulsan chatbots como ChatGPT, están mostrando un camino prometedor. Estos modelos, entrenados con grandes cantidades de información de diversos dominios, han desarrollado una forma de sentido común similar al humano, y es por esa vía por la que podrían ser útiles a la finalidad de conducir un vehículo.


Además, los últimos modelos de lenguaje multimodales, como GPT-4o y GPT-4o-mini, han empezado a combinar el lenguaje con la visión, integrando un vasto conocimiento del mundo con la capacidad de razonar sobre entradas visuales. Estos modelos pueden comprender escenarios complejos nunca antes vistos, proporcionando explicaciones en lenguaje natural y recomendando acciones adecuadas, lo que ofrece una solución potencial al problema.


Por su parte, en el campo de la robótica están surgiendo modelos de visión-lenguaje-acción (VLAMs) que combinan procesamiento lingüístico y visual con acciones, mostrando buenos resultados en el control de robots.


Sin embargo, estos avances presentan nuevos desafíos, como la complejidad en la evaluación de la fiabilidad y seguridad de estos modelos en comparación con los enfoques modulares tradicionales. Además, los modelos multimodales son exigentes en términos de recursos de hardware para funcionar, lo que resulta en una alta latencia, un problema crítico dado que los vehículos autónomos tienen que operar en tiempo real.


A pesar de estos desafíos, la integración de modelos de lenguaje en vehículos autónomos es una perspectiva alentadora. Se espera que, en los próximos años, veamos coches autónomos que puedan razonar y comportarse más como humanos, lo que podría reducir significativamente los accidentes de tráfico y salvar millones de vidas cada año.


Esperemos que los lunes por la mañana, estos vehículos, no estén de mal humor…