Actualizado el 17/12/2024

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Prompts en determinadas lenguas se saltan la seguridad de GPT-4

Prompts en determinadas lenguas se saltan la seguridad de GPT-4

Escrito por Guillem Alsina el 13/02/2024 a las 14:01:11
407

Saltarse las medidas de protección incorporadas de forma nativa en GPT-4 es fácil y está al alcance de cualquiera: tan solo es necesario pasar los ‘prompts’ (que es como se llaman las instrucciones para que el modelo genere una respuesta) en una de las lenguas que un equipo de científicos de la universidad estadounidense de Brown ha encontrado que permiten realizar este truco, y el modelo nos devolverá una respuesta que puede incluir contenidos que con el prompt realizado en lenguas como el inglés o el español, no podría devolver.


El estudio, denominado Low-Resource Languages Jailbreak GPT-4, ha analizado tres de estas lenguas: el gaélico escocés, el zulú, y el hmong.


Si bien el gaélico escocés es hablado solamente por unas 57.000 personas (cifra del censo de 2011), el zulú lo hablan unos 12 millones de personas, y el hmong cuenta con 2,7 millones de hablantes. Por lo tanto, las posibilidades de usar estas lenguas para saltarse los mecanismos de protección del modelo de lenguaje no tienen que ver con su número de hablantes, sinó con los recursos disponibles online para el entrenamiento del modelo.


Para realizar el estudio, el equipo de investigadores utilizó el benchmark AdvBench para evaluar el comportamiento de GPT-4 frente a 520 instrucciones dañinas traducidas a 12 idiomas de distintos niveles de recursos. Los resultados revelaron que la traducción a idiomas con escasos recursos en la red, incrementó la tasa de éxito de ataques (en este caso, prompts destinados a obtener respuestas con contenidos ‘delicados’) de menos del 1% hasta el 79%.


Estos resultados son comparables, o incluso superiores, a los que proporcionan los métodos de jailbreaking más avanzados, y sólo requieren de tener un traductor a mano (por ejemplo, Google Translate), o incluso intentar que la traducción la haga directamente el mismo ChatGPT.


Hasta ahora, el enfoque para delinear medidas de protección para que los modelos de lenguaje grandes no proporcionen a los usuarios respuestas comprometidas, ha incidido en las lenguas predominantes, como el inglés, pero ha dejado de lado a idiomas menos representados en Internet, que es la fuente de la que beben estos modelos.


Esto no solamente plantea un riesgo para los hablantes de dichos idiomas, sino que también permite a los actores malintencionados explotar estas brechas, utilizando las herramientas de traducción automáticas, como el antes mencionado Google Translate.


Para solucionar este problema, los investigadores de la Universidad de Brown proponen una estrategia de seguridad más holística y multilingüe, con conjuntos de datos (datasets) más completos en un mayor número de lenguas.


Es de esperar, también, que al calor de los resultados de este estudio, tanto desde OpenAI, como desde los demás actores del terreno de la IA, pongan medidas para prevenir este uso ilícito.