Según informan en VentureBeat, la empresa china de inteligencia artificial DeepSeek lo ha vuelto a hacer, ha vuelto a sorprender al mundo con el lanzamiento de un nuevo modelo de lenguaje que, según la misma revista online, está causando un gran impacto en la industria y no solo por sus capacidades, sino también por su forma de distribución.
El modelo, de 641 Gigabytes de peso y denominado DeepSeek-V3-0324, ha tenido una presentación en sociedad por parte de la firma china, inexistente, más que discreta, apareciendo hace unos días en el repositorio de IA Hugging Face prácticamente sin anuncio previo.
Lo que hace particularmente notable este lanzamiento es la licencia MIT del modelo, que lo convierte en disponible gratuitamente para uso comercial, y los primeros informes que indican que puede ejecutarse directamente en hardware de consumo, específicamente en el Mac Studio de Apple con chip M3 Ultra. Aunque el Mac Studio tiene un precio que parte de poco más de 2.500 euros en España, cualquiera que disponga de esta cifra lo puede adquirir, no necesitando un hardware más oneroso como acostumbran a ser los servidores dedicados.
La estrategia de lanzamiento sigiloso de DeepSeek rompe las expectativas del mercado
Este nuevo modelo que consta de 685.000 millones de parámetros, fue publicado sin documento técnico, artículo en blog o campaña de marketing, solo un archivo README vacío y los pesos del modelo, según indican en VentureBeat. Este enfoque contrasta fuertemente con los lanzamientos cuidadosamente orquestados típicos de las empresas occidentales de IA, dónde meses de promoción suelen preceder a los lanzamientos reales.
Los primeros evaluadores informan de mejoras significativas respecto a la versión anterior y, según las primeras pruebas de las que se hace eco la publicación referida, podría situar al nuevo modelo de DeepSeek por encima de Claude Sonnet 3.5 de Anthropic, uno de los sistemas comerciales de IA más respetados. Y a diferencia de Sonnet, que requiere una suscripción, los pesos de DeepSeek-V3-0324 están disponibles gratuitamente para que cualquiera los descargue y utilice.
Su arquitectura revolucionaria logra una gran eficiencia
DeepSeek-V3-0324 emplea una arquitectura de mezcla de expertos (MoE) que reimagina fundamentalmente cómo operan los modelos de lenguaje grandes. Los modelos tradicionales activan todo su recuento de parámetros para cada tarea, pero el enfoque de DeepSeek activa solo unos 37 mil millones de sus 685 mil millones de parámetros durante tareas específicas.
Esta activación selectiva representa un cambio de paradigma en la eficiencia del modelo. Al activar solo los parámetros "expertos" más relevantes para cada tarea específica, DeepSeek logra un rendimiento comparable al de modelos completamente activados mucho más grandes, reduciendo drásticamente las demandas computacionales.
El modelo incorpora dos tecnologías revolucionarias adicionales: Atención Latente Multi-Cabeza (MLA, por sus siglas en inglés) y Predicción Multi-Token (MTP). La MLA mejora la capacidad del modelo para mantener el contexto a través de largos pasajes de texto, mientras que la MTP genera múltiples tokens por paso en lugar del enfoque habitual de uno a la vez. Juntas, estas innovaciones incrementan la velocidad de salida en casi un 80%.
Simon Willison, creador de herramientas para desarrolladores, señaló en una publicación de blog que una versión cuantizada de 4 bits reduce la huella de almacenamiento a 352 GB, haciendo factible su ejecución en hardware de consumo de gama alta como el Mac Studio con chip M3 Ultra.
Esto representa un cambio potencialmente significativo en el despliegue de la IA. Mientras que la infraestructura tradicional de IA típicamente depende de múltiples GPUs de Nvidia que consumen varios kilovatios de energía, el Mac Studio consume menos de 200 vatios durante la inferencia. Esta brecha de eficiencia sugiere que la industria de IA puede necesitar replantearse las suposiciones sobre los requisitos de infraestructura para el rendimiento de modelos de primer nivel.
Según indican también en VentureBeat, el momento y las características de DeepSeek-V3-0324 sugieren fuertemente que servirá como base para DeepSeek-R2, un modelo mejorado centrado en el razonamiento que se espera dentro de los próximos dos meses. Esto sigue el patrón establecido de DeepSeek, donde sus modelos base preceden a los modelos de razonamiento especializados por varias semanas.