Actualizado el 18/02/2025

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Opiniones
  4. >
  5. Nuevo competidor en la IA

Nuevo competidor en la IA

Escrito por Vladimir Estivill el 11/02/2025 a las 14:41:24
1855

(Catedrático de Sistemas Inteligentes del Departamento de Ingeniería, UPF)

(Spanish below)

 

 

DeepSeek's AI tools demonstrated that cutting-edge generative AI can be developed without the latest chips, shaking the U.S. stock market by over $500 billion. Nvidia was hit hardest, dropping 18% before recovering 9%. U.S. efforts to restrict chip exports to China failed, as DeepSeek proved AI can be created at lower costs, reinforcing the idea that necessity drives innovation.

 

DeepSeek released two open-source LLMs, DeepSeek-V3 and DeepSeek-R1, in December 2024, followed by a free chatbot app in January that quickly topped Apple’s app store. Their models rival top closed LLMs from OpenAI and Anthropic. Benchmarks show DeepSeek’s R1 matches OpenAI o1’s quality at 90% lower cost and is nearly twice as fast, though OpenAI’s o1 Pro still delivers better responses. Despite being labelled "open," DeepSeek does not disclose its training datasets or code, only providing model weights. HuggingFace aims to create a fully open-source alternative with Open-R1, announced on January 28.

 

 

DeepSeek developed its model despite U.S. export restrictions on Nvidia’s H800 chips, which are a less powerful version designed to bypass the ban. To overcome hardware limitations, DeepSeek used a “DualPipe” parallelism algorithm and low-level programming to optimise training efficiency. The model also employs a mixture-of-experts (MoE) architecture, independently activating smaller, specialised neural networks. This reduces memory requirements and lowers compute costs during deployment.

 

DeepSeek-V3 is a 671-billion-parameter LLM that rivals or outperforms OpenAI’s GPT-4o and Anthropic’s Claude 3.5 Sonnet in benchmarks, despite OpenAI’s models possibly exceeding 1 trillion parameters. DeepSeek-R1 is a reasoning model with chain-of-thought capabilities like OpenAI’s o1. DeepSeek acknowledged a 4x computing disadvantage despite its efficiency gains.

 

DeepSeek initially experimented with reinforcement learning (RL) alone to train DeepSeek-R1-Zero but faced issues like language mixing. To address this, DeepSeek-R1 used a "cold start" approach, beginning with a small, supervised fine-tuning (SFT) dataset before applying RL. The AI community has embraced DeepSeek’s models, with over 700 variants available on Hugging Face and more than 5 million downloads.

 

DeepSeek was founded in 2023 by Liang Wenfeng, whose hedge fund, High-Flyer, used AI for trading. He believed China's challenge was not a lack of capital but confidence and talent management for innovation. However, he faced limitations due to China's restricted access to advanced AI chips.

 

DeepSeek-V3's economical training costs were achieved through optimised algorithms, frameworks, and hardware, using 2,048 Nvidia H800 GPUs for 2.788 million GPU-hours. The reported training cost was $5.576M at $2 per GPU-hour, excluding prior research and development expenses. Some estimate the total investment, including research and infrastructure, at $1 billion. By contrast, the US’s AI innovation has focused on building more immense infrastructure utilising the latest and fastest GPU chips to achieve ever more extensive scaling in a brute force manner instead of optimising the training and inference algorithms to conserve the use of these expensive computing resources.

 

DeepSeek is not hiding that it is sending data to China. DeepSeek collects and sends user data, including personal information, chat history, and keystrokes, to China. Wiz Research discovered an exposed database leaking over a million lines of sensitive logs. After being informed, DeepSeek promptly secured the exposure. DeepSeek faces concerns over censorship, similar to TikTok, as it avoids sensitive Chinese political topics. This is expected since, as a Chinese company, it must comply with regulations enforcing "core socialist values" and requiring security reviews before launching AI products.

 

European regulators are investigating DeepSeek for potential GDPR violations. Italy’s privacy regulator launched a probe, leading to the app’s removal from Apple and Google stores in the country. Ireland’s data protection agency has also started its own investigation into DeepSeek’s data processing practices.

 

Knowledge distillation transfers knowledge from a large "teacher" model to a smaller "student" model, allowing similar performance with fewer resources. While common in AI, OpenAI prohibits users from using its outputs to develop competing models. OpenAI faces lawsuits from authors and news organisations over its use of copyrighted materials for training. The company argues that training advanced AI models without such content is "impossible," fuelling ongoing debate. Even if DeepSeek violated OpenAI’s terms through distillation, it still introduced significant technical innovations, including enhanced chain-of-thought reasoning, a novel reinforcement learning approach, and cost-effective training methods.

 

(SPANISH)

 

Las herramientas de inteligencia artificial de DeepSeek ha demostrado que se puede desarrollar una inteligencia artificial generativa de vanguardia sin los chips más modernos, lo que ha hecho que el mercado de valores de Estados Unidos se viera afectado en más de 500 mil millones de dólares. Nvidia fue la más afectada, con una caída del 18% antes de recuperarse un 9%. Los esfuerzos de Estados Unidos por restringir las exportaciones de chips a China fracasaron, ya que DeepSeek ha demostado que se puede crear inteligencia artificial a costos más bajos, lo que refuerza la idea de que la necesidad impulsa la innovación.

 

DeepSeek lanzó dos LLM de código abierto, DeepSeek-V3 y DeepSeek-R1, en diciembre de 2024, seguidos de una aplicación de chatbot gratuita en enero que rápidamente encabezó la tienda de aplicaciones de Apple. Sus modelos rivalizan con los mejores LLM cerrados de OpenAI y Anthropic. Los puntos de referencia muestran que R1 de DeepSeek iguala la calidad de OpenAI o1 con un costo 90% menor y es casi el doble de rápido, aunque o1 Pro de OpenAI aún ofrece mejores respuestas. A pesar de estar etiquetado como "abierto", DeepSeek no revela sus conjuntos de datos de entrenamiento ni su código, solo proporciona los pesos del modelo. HuggingFace tiene como objetivo crear una alternativa completamente de código abierto con Open-R1, anunciado el 28 de enero.

 

DeepSeek desarrolló su modelo a pesar de las restricciones de exportación de Estados Unidos a los chips H800 de Nvidia, que son una versión menos potente diseñada para eludir la prohibición. Para superar las limitaciones de hardware, DeepSeek utilizó un algoritmo de paralelismo “DualPipe” y una programación de bajo nivel para optimizar la eficiencia del entrenamiento. El modelo también emplea una arquitectura de combinación de expertos (MoE), que activa de forma independiente redes neuronales especializadas más pequeñas. Esto reduce los requisitos de memoria y disminuye los costos de computación durante la implementación.

 

DeepSeek-V3 es un modelo de lógica de cadena de 671 mil millones de parámetros que rivaliza o supera a GPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic en los puntos de referencia, a pesar de que los modelos de OpenAI posiblemente superen el billón de parámetros. DeepSeek-R1 es un modelo de razonamiento con capacidades de cadena de pensamiento como el modelo o1 de OpenAI. DeepSeek reconoció una desventaja computacional de 4x a pesar de sus ganancias de eficiencia.

 

DeepSeek inicialmente experimentó con el aprendizaje por refuerzo (RL) solo para entrenar DeepSeek-R1-Zero, pero enfrentó problemas como la mezcla de idiomas. Para solucionar esto, DeepSeek-R1 utilizó un enfoque de "inicio en frío", comenzando con un pequeño conjunto de datos de ajuste fino supervisado (SFT) antes de aplicar el RL. La comunidad de IA ha adoptado los modelos de DeepSeek, con más de 700 variantes disponibles en Hugging Face y más de 5 millones de descargas.

 

DeepSeek fue fundada en 2023 por Liang Wenfeng, cuyo fondo de cobertura, High-Flyer, utilizaba inteligencia artificial para el comercio. Creía que el desafío de China no era la falta de capital, sino la confianza y la gestión del talento para la innovación. Sin embargo, se enfrentó a limitaciones debido al acceso restringido de China a chips de inteligencia artificial avanzados.

 

Los económicos costos de entrenamiento de DeepSeek-V3 se lograron a través de algoritmos, marcos y hardware optimizados, utilizando 2048 GPU Nvidia H800 para 2,788 millones de horas de GPU. El costo de entrenamiento informado fue de $5,576 millones a $2 por hora de GPU, sin incluir los gastos de investigación y desarrollo anteriores. Algunos estiman que la inversión total, incluida la investigación y la infraestructura, es de $1 mil millones. Por el contrario, la innovación en IA de EE. UU. se ha centrado en construir una infraestructura más inmensa utilizando los chips GPU más nuevos y rápidos para lograr un escalamiento cada vez más amplio de manera de fuerza bruta en lugar de optimizar los algoritmos de entrenamiento e inferencia para conservar el uso de estos costosos recursos informáticos.

 

DeepSeek no oculta que envía datos a China. DeepSeek recopila y envía datos de los usuarios, incluidos datos personales, historial de chat y pulsaciones de teclas, a China. Wiz Research descubrió una base de datos expuesta que filtraba más de un millón de líneas de registros confidenciales. Tras ser informado, DeepSeek rápidamente aseguró la exposición. DeepSeek enfrenta preocupaciones sobre la censura, similar a TikTok, ya que evita temas políticos chinos sensibles. Esto es esperable ya que, como empresa china, debe cumplir con las regulaciones que imponen "valores socialistas fundamentales" y requieren revisiones de seguridad antes de lanzar productos de inteligencia artificial.

 

Los reguladores europeos están investigando a DeepSeek por posibles violaciones del RGPD. El regulador de privacidad de Italia inició una investigación que llevó a la eliminación de la aplicación de las tiendas Apple y Google en el país. La agencia de protección de datos de Irlanda también ha iniciado su propia investigación sobre las prácticas de procesamiento de datos de DeepSeek.

 

La destilación de conocimientos transfiere conocimientos de un modelo de "profesor" grande a un modelo de "estudiante" más pequeño, lo que permite un rendimiento similar con menos recursos. Si bien es común en IA, OpenAI prohíbe a los usuarios utilizar sus resultados para desarrollar modelos competitivos. OpenAI enfrenta demandas de autores y organizaciones de noticias por su uso de materiales con derechos de autor para capacitación. La empresa argumenta que entrenar modelos avanzados de IA sin ese contenido es "imposible", lo que alimenta el debate en curso. Incluso si DeepSeek violó los términos de OpenAI a través de la destilación, aún introdujo innovaciones técnicas significativas, incluido un razonamiento mejorado en cadena de pensamiento, un novedoso enfoque de aprendizaje por refuerzo y métodos de capacitación rentables.