#AI News #Mistral 26 May. 2025 (Click here to view the English version)

Mistral lanza Devstral: LLM de Agentic para Ingeniería de Software

By Frozen Light Team

Mistral acaba de lanzar Devstral, un nuevo modelo de IA de código abierto creado para resolver problemas reales de desarrollo de software, no solo autocompletar código.

Es un resultado de la combinación de Mistral y All Hands AI. Es lo suficientemente pequeño como para ejecutarse localmente, se entrenó con problemas reales de GitHub y obtuvo una puntuación sorprendentemente alta en uno de los benchmarks de IA más exigentes para desarrolladores: SWE-Bench Verified.

Y sí, puedes probarlo ahora, sin listas de espera ni ataduras a proveedores.

🔹 ¿Por qué suena como la misma historia?

Ya hemos escuchado este discurso antes: de OpenAI, Anthropic, Google, DeepMind, etc.:

“Comportamiento agente”
“Entiende repositorios completos”
“Corrige errores, envía solicitudes de extracción”
“Capacitado en GitHub”
Asistente de desarrollo de código abierto

Así que cuando Mistral aparece con las mismas palabras, es fácil ignorarla.
Pero esta vez algo es diferente.

🔹 SWE-Bench Verified es la respuesta

Si todos estos modelos te suenan iguales, no estás equivocado.
Las mismas palabras. Las mismas promesas.

SWE-Bench Verified es la manera de superarlo.
Si quieres saber qué es real, qué funciona y qué es sólo marketing, aquí es donde debes buscar.

🔹 ¿Qué es SWE-Bench Verified?

SWE-Bench es un punto de referencia creado por la Universidad de Princeton para probar si un modelo de lenguaje puede realmente actuar como un ingeniero de software.

No sólo:

"Finalizar esta función"
Pero:
"Lea el problema. Comprenda el repositorio. Escriba la solución. Apruebe el examen."

✅ “Verificado” significa que un humano revisó manualmente la solicitud de extracción del modelo y confirmó que el error se resolvió correctamente.

Entonces, cuando Mistral dice que Devstral obtuvo un 46,8%, están diciendo:

“Este modelo solucionó casi la mitad de los problemas reales de GitHub en el benchmark y superó las pruebas”.

Es una cifra significativa, sobre todo para un modelo que puedes ejecutar en tu propia máquina.

🔹 ¿Qué hay realmente nuevo aquí?

Funciona y es pequeño.
Devstral supera a modelos comerciales como GPT-4.1 Mini y Claude 3.5 Haiku en SWE-Bench Verified.
Es abierto y local.
Puedes descargarlo, ejecutarlo y bifurcarlo. No requiere API.
Se entrena de forma diferente.
No se trata de ejemplos de código, sino de problemas reales de GitHub. Esto nos acerca un poco más a cómo trabajan los desarrolladores.

🔹 Cómo se compara Devstral en SWE-Bench Verified

Modelo	Puntuación verificada de SWE-Bench	Código abierto	Uso local	Licencia
Devstral (Mistral)	46,8%	✅ Sí	✅ Sí (4090 / Mac 32 GB)	Apache 2.0
GPT-4.1 Mini (OpenAI)	~37%	❌ No	❌ Solo en la nube	Comercial
Haiku de Claude 3.5	~40%	❌ No	❌ Solo en la nube	Comercial
Código Llama 70B	~15–20% (aprox.)	✅ Sí	⚠️ Se necesita hardware pesado	OSS personalizado

En resumen

✅ Disponible ahora: descárgalo desde Hugging Face:
http://huggingface.co/mistralai/Devstral-Small-2505
💸 Sin costo de uso: código abierto bajo Apache 2.0, gratuito para uso personal o comercial:
http://www.apache.org/licenses/LICENCIA-2.0
💻 Se ejecuta localmente: funciona en una RTX 4090 o Mac con 32 GB de RAM
📊 Puntuación del 46,8 % en SWE-Bench verificado: comparado con problemas reales de GitHub
🔧 Creado para resolver problemas a nivel de repositorio, no solo fragmentos de código
🧠 Sin API, sin nube, sin dependencia de proveedores: simplemente descargue y listo

Si estás trabajando con código y quieres una IA que aparezca lista para ayudar, esta es la que debes probar.
Sencillo, local y totalmente abierto.

❄️ Perspectiva del equipo Frozen Light

La mayoría de los modelos en este espacio todavía suenan igual.
Devstral también lo hace, hasta que te das cuenta de dos cosas:

Se probó con problemas reales de GitHub, no con ejemplos inventados.
Y es abierto, gratuito y listo para funcionar sin permiso ni planes de precios.

Aún no lo hemos llevado a cabo nosotros mismos.
Pero el hecho de que se haya evaluado con datos reales y se haya puesto a disposición sin restricciones dice algo.

Éste no es otro modelo de demostración.
Es una señal.

Estos modelos pequeños y focalizados, respaldados por puntos de referencia sólidos y acceso a la comunidad, podrían ser el verdadero camino a seguir en IA para los desarrolladores.

Si te importa ese espacio, Devstral merece tu atención.
No por lo que hemos visto, sino por cómo se compartió y para quién fue creado.

Share Article