En un reciente estudio publicado por The BMJ (sitio web dedicado a los temas de salud), un equipo de investigadores liderado por el doctor Roy Dayan del Hadassah Hebrew University Medical Center de Jerusalén, aplicó la prueba Montreal Cognitive Assessment (MoCA), que normalmente se utiliza para detectar signos de demencia en las personas, a varios chatbots o LLMs. Dicho test comprende un total de 30 puntos y un resultado de 26 o más se considera un indicador de función cognitiva normal.
Los modelos GPT-4 y Claude 3.5 alcanzaron 25 puntos en este test, mientras que Gemini 1.0 registró 16. Solamente GPT-4o obtuvo la puntuación mínima para clasificarse dentro de la considerada normalidad, con 26 puntos.
Pese a los buenos resultados de las LLMs en tareas diagnósticas y exámenes médicos, el equipo observó que las actuales plataformas no superan con facilidad un test MoCA. Estas conclusiones sugieren que aunque son capaces de resolver preguntas de atención, memoria y lenguaje, no muestran la misma habilidad en áreas de abstracción visual.
Dificultades en tareas visuoespaciales y ejecutivas
Los investigadores destacaron el bajo rendimiento en pruebas como el trail-making task o el test de dibujar un reloj. El modelo Gemini 1.5, por ejemplo, reprodujo un dibujo similar a un reloj con forma de aguacate, lo que, de acuerdo con trabajos previos, se ha asociado a un deterioro cognitivo. Además, mostró fallos al intentar recordar secuencias de palabras, uno de los ejercicios esenciales para valorar la memoria a corto plazo.
La mayoría de los chatbots examinados no pudieron reflejar empatía ni interpretar escenas visuales complejas. En contraste, ChatGPT 4o logró resolver la etapa incongruente de la prueba de Stroop, habitualmente empleada para medir el grado de interferencia que se produce al leer los nombres de colores escritos en tintas que no corresponden con su significado.
Implicaciones de los hallazgos en la práctica clínica
Los autores señalaron que, con la ventaja del aprendizaje continuo, los LLMs podrían en un futuro "copiar" respuestas humanas correctas para burlar el examen. Sin embargo, subrayaron que esto no implicaría un verdadero entendimiento del contenido, haciendo referencia al argumento de la "Habitación china" que describe la diferencia entre procesar información y comprenderla.
El limitado desempeño en capacidades de abstracción visual podría impactar su utilidad en entornos clínicos, donde el contacto inicial con una persona y la observación detallada de conductas o gestos son esenciales. Los investigadores consideran que estos resultados destacan los desafíos que afrontan las inteligencias artificiales para igualar las funciones propias del cerebro humano en pruebas diagnósticas.