Las invenciones o alucinaciones de los sistemas de IAEscrito por Oxford University el 16/07/2024 a las 19:50:392796
(Oxford University) Los investigadores de la Universidad de Oxford han hecho un avance significativo para garantizar que la información producida por la inteligencia artificial generativa (IA) sea sólida y fiable. En un nuevo estudio publicado hoy en Nature, demuestran un método novedoso para detectar cuándo es probable que un modelo de lenguaje grande (LLM) "alucina" (es decir, inventan hechos que suenan plausibles pero que son imaginarios). Este avance podría abrir nuevas formas de implementar LLM en situaciones en las que los "errores descuidados" son costosos, como la respuesta a preguntas legales o médicas.
Los investigadores se centraron en las alucinaciones en las que los LLM dan diferentes respuestas cada vez que se hace una pregunta, incluso si la redacción es idéntica, conocida como "confabulación".
"Los LLM son altamente capaces de decir lo mismo de muchas maneras diferentes, lo que puede hacer que sea difícil decir cuándo están seguros de una respuesta y cuándo literalmente están inventando algo", dijo el autor del estudio, el Dr. Sebastian Farquhar, del Departamento de Ciencias de la Computación de la Universidad de Oxford. "Con enfoques anteriores, no era posible distinguir entre un modelo que no estaba seguro de qué decir y de cómo decirlo. Pero nuestro nuevo método supera esto".
Para hacer esto, el equipo de investigación desarrolló un método basado en estadísticas y utilizando métodos que estiman la incertidumbre en función de la cantidad de variación (medida como entropía) entre múltiples resultados. Su enfoque calcula la incertidumbre a nivel de significado en lugar de secuencias de palabras, es decir, detecta cuando los LLM no están seguros del significado real de una respuesta, no solo del fraseo. Para hacer esto, las probabilidades producidas por los LLM, que indican la probabilidad de que cada palabra sea la siguiente en una oración, se traducen en probabilidades sobre significados.
El nuevo método demostró ser mucho mejor para detectar cuándo era probable que una pregunta fuera respondida incorrectamente que todos los métodos anteriores, cuando se probó contra seis LLM de código abierto (incluidos GPT-4 y LLaMA 2). Este fue el caso de una amplia gama de conjuntos de datos diferentes, incluyendo respuestas a preguntas extraídas de búsquedas de Google, preguntas biomédicas técnicas y problemas matemáticos de palabras. Los investigadores incluso demostraron cómo la entropía semántica puede identificar afirmaciones específicas en biografías cortas generadas por ChatGPT que probablemente sean incorrectas.
"Nuestro método básicamente estima las probabilidades en el espacio de significado, o 'probabilidades semánticas'", dijo el coautor del estudio Jannik Kossen (Departamento de Ciencias de la Computación, Universidad de Oxford). "El atractivo de este enfoque es que utiliza los propios LLM para hacer esta conversión".
Al detectar cuándo es probable que un aviso produzca una confabulación, el nuevo método puede ayudar a que los usuarios de la IA generativa sean conscientes cuando las respuestas a una pregunta son probablemente poco fiables, y permitir que los sistemas basados en LLM eviten responder preguntas que puedan causar confabulaciones. Una ventaja clave de la técnica es que funciona a través de conjuntos de datos y tareas sin conocimiento a priori, no requiriendo datos específicos de tareas, y se generaliza de manera robusta a nuevas tareas nunca vistas antes. Aunque puede hacer que el proceso sea varias veces más costoso desde el punto de vista computacional que solo usar un modelo generativo directamente, esto está claramente justificado cuando la precisión es primordial.
Actualmente, las alucinaciones son un factor crítico que frena la adopción más amplia de LLM como ChatGPT o Gemini. Además de hacer que los LLM no sean fiables, por ejemplo, presentando imprecisiones en artículos de noticias y fabricando precedentes legales, incluso pueden ser peligrosos, por ejemplo, cuando se utilizan en el diagnóstico médico.
El autor principal del estudio, Yarin Gal, profesor de Ciencias de la Computación en la Universidad de Oxford y Director de Investigación en el Instituto de Seguridad de la IA del Reino Unido, dijo: "Obtener respuestas de los LLM es barato, pero la fiabilidad es el mayor cuello de botella. En situaciones en las que la fiabilidad es importante, la incertidumbre semántica de la computación es un pequeño precio a pagar".
Los investigadores destacan que la confabulación es solo un tipo de error que los LLM pueden cometer. "La incertidumbre semántica ayuda con problemas de fiabilidad específicos, pero esto es solo una parte de la historia", explicó el Dr. Farquhar. "Si un LLM comete errores consistentes, este nuevo método no lo captará. Los fallos más peligrosos de la IA se ven cuando un sistema hace algo malo, pero es seguro y sistemático. Todavía queda mucho trabajo por hacer".
Notas para los editores: For media requests and interviews, contact Dr Sebastian Farquhar: sebfar@gmail.com +1 415 830 6065
The study ‘Detecting Hallucinations in Large Language Models Using Semantic Entropy’ will be published in Nature at 16:00 BST/ 11:00 ET Wednesday 19 June 2024 at https://www.nature.com/articles/s41586-024-07421-0. To view a copy of the paper under embargo before this, contact: Dr Caroline Wood: caroline.wood@admin.ox.ac.uk
The study was partially funded by the Alan Turing Institute. Dr Sebastian Farquhar, Jannik Kossen, and Lorenz Kuhn share lead authorship of the paper. |