#AI News #Mistral 26 May. 2025 (Click here to view the English version)

Mistral abandonne Devstral : Agentic LLM pour l'ingénierie logicielle

By Frozen Light Team

Mistral vient de lancer Devstral, un nouveau modèle d'IA open source conçu pour résoudre de véritables problèmes de développement logiciel - pas seulement du code de saisie semi-automatique.

C'est un résultat des efforts conjoints de Mistral et d'All Hands AI. Assez compact pour fonctionner localement, il est entraîné sur des problèmes GitHub réels et a obtenu un score étonnamment élevé sur l'un des benchmarks d'IA les plus exigeants pour les développeurs : SWE-Bench Verified.

Et oui, vous pouvez l'essayer maintenant, pas de liste d'attente, pas de verrouillage de fournisseur.

🔹 Pourquoi cela ressemble à la même histoire

Nous avons déjà entendu ce discours - de la part d'OpenAI, d'Anthropic, de Google, de DeepMind, etc. :

« Comportement agentique »
« Comprendre les dépôts complets »
« Corrige les bugs, soumet des demandes d'extraction »
« Formé sur GitHub »
« Assistant de développement open source »

Alors, quand Mistral revient avec les mêmes mots, il est facile de ne plus y prêter attention.
Mais quelque chose est différent cette fois.

🔹 SWE-Bench Vérifié est la réponse

Si tous ces modèles vous semblent identiques, vous n’avez pas tort.
Mêmes mots. Mêmes promesses.

SWE-Bench Verified est la façon dont vous le coupez.
Si vous voulez savoir ce qui est réel, ce qui fonctionne et ce qui n'est que du marketing, c'est ici que vous devez chercher.

🔹 Qu'est-ce que SWE-Bench Verified ?

SWE-Bench est un benchmark créé par l'Université de Princeton pour tester si un modèle de langage peut réellement agir comme un ingénieur logiciel.

Pas seulement :

« Terminer cette fonction »
Mais:
« Lisez le problème. Comprenez le dépôt. Écrivez le correctif. Réussissez le test. »

✅ « Vérifié » signifie qu'un humain a examiné manuellement la demande d'extraction du modèle et confirmé que le bogue a été résolu correctement.

Donc, quand Mistral dit que Devstral a obtenu un score de 46,8 %, ils disent :

« Ce modèle a résolu près de la moitié des problèmes GitHub réels dans le benchmark - et a réussi les tests. »

C'est un chiffre significatif, surtout pour un modèle que vous pouvez exécuter sur votre propre machine.

🔹 Quoi de neuf ici ?

Il est performant et il est petit.
Devstral bat les modèles commerciaux comme GPT-4.1 Mini et Claude 3.5 Haiku sur SWE-Bench Verified.
C'est ouvert et local.
Vous pouvez le télécharger, l'exécuter ou le forker. Aucune API requise.
C'est entraîné différemment.
Pas sur des exemples de code, mais sur de véritables problèmes GitHub. C'est un pas de plus vers la façon dont les développeurs travaillent réellement.

🔹 Comparaison de Devstral sur SWE-Bench Vérifié

Modèle	Score vérifié SWE-Bench	Open Source	Utilisation locale	Licence
Devstral (Mistral)	46,8%	✅ Oui	✅ Oui (4090 / Mac 32 Go)	Apache 2.0
GPT-4.1 Mini (OpenAI)	~37%	❌ Non	❌ Cloud uniquement	Commercial
Claude 3.5 Haïku	~40%	❌ Non	❌ Cloud uniquement	Commercial
Code Llama 70B	~15–20 % (est.)	✅ Oui	⚠️ Matériel lourd nécessaire	OSS personnalisé

🔹 En résumé

✅ Disponible dès maintenant - téléchargez-le depuis Hugging Face :
http://huggingface.co/mistralai/Devstral-Small-2505
💸 Utilisation gratuite - open source sous Apache 2.0, gratuit pour un usage personnel ou commercial :
http://www.apache.org/licenses/LICENSE-2.0
💻 Fonctionne localement - fonctionne sur une RTX 4090 ou un Mac avec 32 Go de RAM
📊 Scores de 46,8 % sur SWE-Bench Vérifié - évalué sur de vrais problèmes GitHub
🔧 Conçu pour la résolution de problèmes au niveau du dépôt, pas seulement pour des extraits de code
🧠 Pas d'API, pas de cloud, pas de dépendance vis-à-vis d'un fournisseur - il suffit de télécharger et c'est parti

Si vous travaillez avec du code et que vous souhaitez une IA prête à vous aider, c'est celle-ci qu'il faut essayer.
Simple, local et totalement ouvert.

❄️ Point de vue de l'équipe Frozen Light

La plupart des modèles dans cet espace sonnent toujours de la même manière.
Devstral aussi, jusqu'à ce que vous réalisiez deux choses :

Il a été testé sur de vrais problèmes GitHub, pas sur des exemples inventés.
Et c'est ouvert, gratuit et prêt à fonctionner sans autorisation ni plan tarifaire.

Nous ne l'avons pas encore fait nous-mêmes.
Mais le fait que ce modèle ait été évalué sur la base de données réelles – et rendu disponible sans restrictions – en dit long.

Ce n’est pas un autre modèle de démonstration.
C'est un signal.

Ces petits modèles ciblés, soutenus par des repères solides et un accès communautaire, pourraient être la véritable voie à suivre en matière d'IA pour les développeurs.

Si cet espace vous tient à cœur, Devstral mérite votre attention.
Non pas à cause de ce que nous avons vu, mais à cause de la façon dont cela a été partagé et à cause de ceux pour qui cela a été créé.

Share Article