DeepSeek ha lanzado un nuevo modelo de código abierto, R1-0528, entrenado completamente desde cero. Se trata de un modelo de código full-stack, que representa una importante mejora con respecto a sus versiones anteriores. La compañía afirma tener un excelente rendimiento en varios indicadores del sector.
Lo que dice DeepSeek
DeepSeek describe R1-0528 como una nueva versión de su modelo base, ya disponible públicamente en Hugging Face y GitHub. Se entrenó desde cero con tokens 6T utilizando una combinación de inglés, chino y código 87%.
"Lo entrenamos completamente desde cero, utilizando nuestros propios datos e infraestructura, para lograr un razonamiento y un rendimiento de codificación más sólidos".
- DeepSeek Labs, mayo de 2025
Informan mejoras en múltiples puntos de referencia en comparación con su modelo anterior R1, incluidos AIME, LiveCodeBench y GPQA.
🧠 Lo que eso significa (en palabras humanas)
Esta nueva actualización del modelo, R1-0528, muestra grandes mejoras en tareas clave de razonamiento y generación de código.
Superó a modelos como Grok 3 Mini y Qwen 3 de Alibaba en tareas de codificación y mostró habilidades multilingües y matemáticas más sólidas que su versión anterior.
Esto es lo que logró:
Generación de código: 73,3 % aprueba a 1 en LiveCodeBench (frente al 63,5 %)
Razonamiento matemático: 87,5% en problemas AIME
Codificación multilingüe: 71,6 % de precisión (frente al 53,3 %)
Razonamiento GPQA: 81% de precisión
El último examen de la humanidad: rendimiento duplicado (del 8,5% al 17,7%)
¿Pero qué significa todo esto?
Sí, es difícil. Todos dicen lo mismo: que su nuevo modelo es mejor que el anterior.
Y en el papel, todos lo son.
Porque lo mínimo que se puede esperar de un lanzamiento hoy en día es que tenga un mejor rendimiento en los puntos de referencia.
Intentemos darle sentido a lo que realmente estamos comparando.
Hasta el momento hemos visto principalmente dos tipos de puntos de referencia:
Práctica: herramientas como SWE-bench y LiveCodeBench. Estas simulan tareas de programación reales.
Académico: temas como AIME, GPQA, MATH. Se centran en la lógica, los acertijos y el razonamiento conceptual.
Uno vino a trabajar y el otro a jugar ajedrez.
DeepSeek R1-0528 es un gran avance respecto a su última versión.
Pero no se ha publicado ninguna puntuación de referencia de SWE. Y ese es el punto de referencia que utilizan GPT-4.1 y Claude Opus para demostrar su solidez en el mundo real.
Entonces, ¿podemos decir que DeepSeek supera a GPT o Claude?
No. Todavía no.
Simplemente no tenemos los mismos resultados de pruebas para comparar.
Hicimos una mesa pero no sirvió de nada :)
Punto de referencia | Búsqueda profunda R1-0528 | GPT-4.1 | Claude Opus | Géminis 1.5 Pro |
Banco de código en vivo | 48,2% | N / A | N / A | N / A |
Banco SWE (completo) | N / A | 82,6% | 64,7% | 74,4% |
AIME | 27.3 | 28.3 | 27.1 | 25.7 |
GPQA | 35.3 | 39.1 | 39.5 | 34.2 |
MATEMÁTICAS | 46.1 | 52.9 | 55.9 | 50.4 |
En resumen
Modelo: DeepSeek R1-0528
Acceso: Código abierto, disponible en Hugging Face y GitHub
Ideal para: codificación, experimentación con IA
Puntos de referencia: Fuerte en razonamiento académico y generación práctica de código.
¿Deberías probarlo? Sí, si tienes curiosidad por saber hacia dónde se dirigen los modelos de código abierto.
Costo: uso gratuito
Perspectiva del equipo Frozen Light
Este es un caso clásico de no encontrar la información que realmente necesita para resolver su dilema.
Si eres un programador que intenta comprender qué es mejor, tendrás que probarlo tú mismo.
A partir de la investigación que hemos realizado en las comunidades de GitHub, esto es lo que podemos decirle:
Cuando se trata de uso práctico y directo (mover cosas, conectar cosas, hacer cosas), ChatGPT y Claude obtienen sistemáticamente puntuaciones más altas en entornos de desarrollo reales.
Y para ser honesto, DeepSeek aún no aparece en muchas conversaciones de codificación del mundo real.
Eso no significa que sea malo.
¿El resto? Depende de ti probar y decidir qué te funciona mejor.
¿El resto? Eso lo decides tú.