Actualizado el 19/11/2024

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. GPT miente cuando lo presionan

GPT miente cuando lo presionan

Escrito por Guillem Alsina el 16/01/2024 a las 16:40:36
445

En favor de la inteligencia artificial, cabe decir que no pocos seres humanos también mienten cuando se les presiona adecuadamente. Y que los sistemas de IA mientan no deja de demostrar que nadie sabe exactamente y al detalle cómo funcionan, ni los expertos reconocidos en la materia ya que, en tal caso, ya se habrían eliminado esas mentiras de su operativa. Es algo así como la teoría de la relatividad que, según cuentan, el mismo Einstein afirmaba que si crees entenderla... en realidad es que no has entendido nada.


Un reciente estudio realizado por Apollo Research, un laboratorio independiente de investigación en seguridad de IA, ha arrojado cierta luz sobre el porqué de las esas mentiras y, en este caso, no estamos hablando de las famosas ‘alucinaciones’, sinó más bien de esconder información, como si un ser humano, en una muestra de orgullo, no quisiera revelar que sus conclusiones provienen de una sapiencia externa a él.


El experimento realizado consistió en mandar al modelo de lenguaje GPT-4 (desarrollado por OpenAI y uno de los que equipa al famoso ChatGPT, junto a su predecesor GPT-3.5) que actuara como un sistema de inversión manejando un portafolio de acciones. A través de un detallado guión, los científicos informaron al modelo sobre las acciones que podía realizar, como recuperar datos del mercado y ejecutar compras o ventas de acciones, todo ello en un contexto de simulaciones bursátiles. Cada acción propuesta por el modelo venía acompañada de una justificación, planteando escenarios de riesgo y beneficio potencial.


Pero, además, también se le suministraron a GPT-4, informaciones que, en el mundo real, serían tipificadas como de “privilegiadas”, en forma de correos electrónicos cruzados con supuestos colegas de trabajo.


Sorprendentemente, en cerca del 75% de las ocasiones en que el modelo decidió comprar acciones basándose en la información privilegiada, no divulgó que esta información influía en su decisión en aproximadamente el 78% de los casos. Incluso, cuando se le preguntó específicamente, negó conocer la información privilegiada alrededor del 88% de las veces.


Dicha tendencia se pronunció cuando se modificó el guión para alentar o desalentar comportamientos ilegales. Aunque desalentar las transacciones ilegales redujo su frecuencia a un 8%, aumentó la probabilidad de que el modelo ocultara información privilegiada a un 95%.


Además, al eliminar elementos del guión que aplicaban presión social, como correos electrónicos sobre el mal rendimiento de una determinada firma, se observó una disminución en la probabilidad de realizar operaciones con información privilegiada.


Como este estudio se enfocó hacia un escenario específico, no se puede generalizar cómo los grandes modelos de lenguaje pueden mentir en otras situaciones.


Estos hallazgos son significativos dado que GPT-4 fue entrenado, al menos en teoría, para ser útil, inofensivo y honesto a través del aprendizaje reforzado por retroalimentación humana (RLHF por sus siglas en inglés). A pesar de esto, el entrenamiento previo no impidió que el modelo sucumbiera a presiones que podrían considerarse poco éticas o incluso ilegales.


Una de las conclusiones del estudio es que si queremos evitar que los modelos mientan bajo cualquier circunstancia, necesitaremos cambiar el enfoque de su construcción y entrenamiento.


Igualmente, si bien el estudio se refiere a GPT-4, las conclusiones son extrapolables a cualquier gran modelo de lenguaje, ya que todos están cortados por un patrón muy similar, diferenciándose uno de otro en la cantidad de información utilizada para su entrenamiento, y algunas características particulares más.