Portada
Noticias
Antrophic revela las reglas que guían el comportamiento de sus LLMs

Antrophic revela las reglas que guían el comportamiento de sus LLMs

Escrito por Guillem Alsina el 11/09/2024 a las 13:56:57

835

En un ejercicio de transparencia, Antrophic ha hecho públicas las reglas que siguen sus distintos modelos de lenguaje grandes (LLMs por sus siglas en inglés) a la hora de generar respuestas. En el caso de otras empresas que han desarrollado soluciones de IA, como OpenAI con GPT/ChatGPT, o Google con Gemini, dicha información no se hace pública para evitar que los usuarios puedan encontrar alguna forma de saltarse las protecciones que impiden, por ejemplo, que el modelo genere contenido que pueda herir la sensibilidad de determinados colectivos, o bien que pueda ser utilizado para la comisión de actos ilegales.

No obstante, y según ha explicado Alex Albert, prompt engineer en Antrophic, a través de la red social X, dicha empresa va a refrescar periódicamente la información sobre los prompts del sistema que marcan el comportamiento de sus modelos, y que también evolucionan con el tiempo, especialmente, a medida que algunos usuarios avanzados encuentran nuevas formas de ir saltándose las protecciones básicas que dichos prompts marcan.

Las reglas que establecen los prompts para los distintos modelos Claude de Antrophic son:

Claude 3.5 Sonnet

El más inteligente y rápido de los tres, es el que permite también responder a peticiones y tareas más complejas, y que goza de mayor capacidad para realizar análisis detallados.

Gracias a sus frecuentes actualizaciones de los prompts del sistema, Claude 3.5 Sonnet tiene en cuenta la fecha actual y se adapta mejor a las expectativas del usuario en términos de contexto y relevancia temporal. Por ejemplo, puede responder a preguntas sobre eventos posteriores a su última actualización de conocimientos (en este momento, de abril de este mismo año), simulando la perspectiva de un individuo altamente informado hasta la fecha.

Además, y en lo concerniente a los problemas matemáticos, de lógica, y tareas de pensamiento sistemático, este modelo sigue un enfoque paso a paso para resolver dichos problemas, para asegurar precisión y claridad en sus respuestas.

En lo concerniente a su comportamiento en la interacción con los usuarios, evita frases de relleno innecesarias y se centra en proporcionar respuestas claras y concisas para mejorar la eficiencia de la comunicación, especialmente en un entorno profesional.

Pese a que carece de la capacidad de abrir enlaces o vídeos directamente, puede solicitar a los usuarios que proporcionen el contenido necesario para continuar con la conversación. Este enfoque garantiza que la interacción se mantenga relevante y que el asistente pueda proporcionar el mejor soporte posible basado en la información disponible.

También es capaz de “ponerse en la piel” de colectivos de personas que expresan sus opiniones sobre determinados temas, mientras que si le preguntamos sobre temas controvertidos, busca dar la información de la forma más clara posible, pero sin indicar que el tema tratado puede ser considerado culturalmente sensible, ni que la información que ofrece es objetiva.

Como curiosidad, este modelo evita comenzar sus respuestas con las fórmulas “lo siento” o “me disculpo”, y avisa que puede ‘alucinar’ cuando se le pide información sobre temas de los que hay muy poca información en Internet.

Claude 3 Opus

Actualizado hasta agosto de 2023, aplica la misma política que su sucesor, Claude 3.5 Sonnet, pero hasta la fecha de la que tiene datos, dando a conocer al usuario hasta cuando dispone de información, cuando esto sea relevante.

Sus respuestas son más concisas cuando la pregunta da lugar a ello, expandiéndose si debe realizar una explicación de mayor profundidad para responder a cuestiones más complejas.

En lo que respecta a las opiniones expresadas por un amplio grupo de personas, realiza la tarea incluso cuando esta va en contra de su criterio (así lo pone en la explicación proporcionada por Antrophic), añadiendo al final las perspectivas que amplíen la discusión, un punto que Sonnet no cumple. También busca no tomar en cuenta los estereotipos negativos de grupos de personas.

Si le preguntamos sobre temas controvertidos, intenta ofrecer argumentos cuidadosamente seleccionados e información objetiva sin restar importancia a su contenido potencialmente dañino, ni dar a entender que hay perspectivas razonables de ambos lados.

Claude 3 Haiku

Actualizado también a agosto de 2023, sus prompts de sistema son más simples, indicándole que debe ofrecer respuestas concisas a preguntas simples, pero explayándose más en cuestiones complicadas. Y, como en los otros dos casos, no indica nada sobre él mismo y las reglas que lo guían excepto si dicha información es relevante para la resolución de la pregunta formulada por el usuario.

Aquí podemos encontrar la información completa sobre los prompts de sistema de los distintos modelos de Antrophic.

Facebook

Twitter

Meneame

Ver más Noticias

LO MAS VISTO

Nube de TAGs

diseño TI, tecnología, ERP virus tecnologia telecomunicaciones y perittage software atac android arquitectura, FM tecnologia, móvil perti posicionamiento seguretat de