El futuro de la inteligencia artificial (IA) para por su omnipresencia, y por poder ejecutar modelos de lenguaje diversos y adaptados a las necesidades de cada proyecto o tarea, de forma local, en los mismos dispositivos que utilizamos, y sin tener que recurrir a servicios en la nube tales como ChatGPT.
Esto se debe a varios factores, cómo la necesidad de dejar de depender de unas comunicaciones de datos que no siempre son tan omnipresentes como debe serlo la IA, y también disminuir la carga de trabajo de los centros de datos, además de lograr mayor rapidez de ejecución y disponibilidad. Y, finalmente, la privacidad de los datos, que si son procesados en local, no pasan por las manos de una tercera parte.
Incluso los smartphones ya pueden ejecutar modelos de datos en local, que no son tan potentes como sus equivalentes alojados en centros de datos, pero que pueden cumplir fácilmente funciones de asistencia.
En este contexto, NVIDIA ha presentado Hymba, un nuevo modelo de lenguaje compacto y, por lo tanto, que utiliza una arquitectura híbrida denominada "hybrid-head". Este diseño combina mecanismos de atención con modelos de espacio de estado (SSM) dentro de la misma capa, maximizando la eficiencia y la capacidad de procesamiento contextual.
Hymba destaca por superar los desafíos de memoria y rendimiento inherentes a los llamados transformers, estableciendo nuevos estándares en modelos de lenguaje pequeños.
En pruebas controladas, Hymba-1.5B ha mostrado un promedio de precisión del 1,32% superior incluso al del modelo Llama-3.2-3B (creado por Meta, y que podemos descargar, instalar y utilizar desde cualquier ordenador), con una reducción de tamaño de caché de 11,67 veces y un rendimiento 3,49 veces más rápido.
NVIDIA ha logrado estas mejoras gracias a innovaciones como el uso de tokens meta, que actúan como memoria comprimida para optimizar la atención hacia información clave, y un enfoque eficiente en la gestión de la caché de claves y valores (KV).
Además, Hymba utiliza un enfoque de atención parcial mediante ventanas deslizantes y comparte caché KV entre capas adyacentes, reduciendo significativamente los requisitos de memoria e incrementando el rendimiento sin comprometer la precisión.
Este modelo también ha sido afinado para tareas específicas, alcanzando un rendimiento sobresaliente en razonamiento de sentido común y tareas de alta demanda de memoria contextual.
Hymba se encuentra disponible en las versiones Base e Instruct en la plataforma Hugging Face, ofreciendo soluciones para usuarios que buscan rendimiento optimizado en dispositivos con recursos limitados.
Podemos leer más sobre este nuevo LLM publicado por NVIDIA en el paper que firman sus desarrolladores.