Mistral ha appena lanciato Devstral, un nuovo modello di intelligenza artificiale open source progettato per risolvere problemi reali di sviluppo software, non solo per completare automaticamente il codice.
È un risultato tra Mistral e All Hands AI. È sufficientemente piccolo da poter essere eseguito in locale, è stato addestrato su problemi reali di GitHub e ha ottenuto punteggi sorprendentemente alti in uno dei benchmark di intelligenza artificiale più impegnativi in circolazione: SWE-Bench Verified.
E sì, puoi provarlo subito, senza liste d'attesa né vincoli con i fornitori.
🔹 Perché questa storia sembra sempre la stessa
Abbiamo già sentito questa proposta in passato: da OpenAI, Anthropic, Google, DeepMind e altri ancora.
“Comportamento agente”
“Capisce i repository completi”
“Risolve bug, invia richieste di pull”
“Formato su GitHub”
“Assistente per sviluppatori open source”
Quindi quando Mistral si presenta con le stesse parole, è facile ignorarlo.
Ma questa volta c'è qualcosa di diverso.
🔹 SWE-Bench Verificato è la risposta
Se tutti questi modelli ti sembrano uguali, non ti sbagli.
Stesse parole. Stesse promesse.
SWE-Bench Verified è la soluzione per superare la situazione.
Se vuoi sapere cosa è reale, cosa funziona e cosa è solo marketing, questo è il posto che fa per te.
🔹 Che cosa è SWE-Bench Verified?
SWE-Bench è un benchmark creato dalla Princeton University per verificare se un modello linguistico può effettivamente comportarsi come un ingegnere del software.
Non solo:
"Termina questa funzione"
Ma:"Leggi il problema. Comprendi il repository. Scrivi la correzione. Supera il test."
✅ "Verificato" significa che un essere umano ha esaminato manualmente la richiesta pull del modello e ha confermato che il bug è stato risolto correttamente.
Quindi quando Mistral afferma che Devstral ha ottenuto il 46,8%, sta dicendo:
"Questo modello ha risolto quasi la metà dei problemi reali di GitHub nel benchmark e ha superato i test."
È un numero significativo. Soprattutto per un modello che puoi eseguire sul tuo computer.
🔹 Cosa c'è di nuovo qui?
Funziona bene ed è piccolo.
Devstral supera modelli commerciali come GPT-4.1 Mini e Claude 3.5 Haiku su SWE-Bench Verified.È aperto e locale.
Puoi scaricarlo. Eseguirlo. Forkarlo. Non è richiesta alcuna API.È addestrato in modo diverso.
Non su esempi di codice, ma su problemi reali su GitHub. Questo è un passo avanti verso il modo in cui lavorano realmente gli sviluppatori.
🔹 Come si confronta Devstral su SWE-Bench Verificato
Modello | Punteggio verificato SWE-Bench | Open Source | Uso locale | Licenza |
Devstral (Maestrale) | 46,8% | ✅ Sì | ✅ Sì (4090 / Mac 32 GB) | Apache 2.0 |
GPT-4.1 Mini (OpenAI) | ~37% | ❌ No | ❌ Solo cloud | Commerciale |
Claude 3.5 Haiku | ~40% | ❌ No | ❌ Solo cloud | Commerciale |
Codice Lama 70B | ~15–20% (stima) | ✅ Sì | ⚠️ Sono necessari hardware pesanti | OSS personalizzato |
🔹 Conclusione
✅ Disponibile ora: scaricalo da Hugging Face:
http://huggingface.co/mistralai/Devstral-Small-2505💸 Nessun costo di utilizzo: open source su Apache 2.0, gratuito per uso personale e commerciale:
http://www.apache.org/licenses/LICENSE-2.0
💻 Funziona in locale: funziona su una RTX 4090 o un Mac con 32 GB di RAM📊 Punteggio del 46,8% su SWE-Bench Verificato - confrontato con problemi reali su GitHub
🔧 Progettato per la risoluzione di problemi a livello di repository, non solo per frammenti di codice
🧠 Nessuna API, nessun cloud, nessun vincolo con il fornitore: basta scaricare e usare
Se lavori con il codice e desideri un'intelligenza artificiale pronta ad aiutarti, questa è la soluzione che fa per te.
Semplice, locale e completamente aperto.
❄️ Prospettiva del team di Frozen Light
La maggior parte dei modelli in questo spazio suonano ancora allo stesso modo.
Anche Devstral lo fa, finché non ti rendi conto di due cose:
È stato testato su problemi reali di GitHub, non su esempi inventati.
Ed è aperto, gratuito e pronto per essere utilizzato senza permessi o piani tariffari.
Non l'abbiamo ancora provato noi stessi.
Ma il fatto che sia stato basato su dati reali e reso disponibile senza restrizioni la dice lunga.
Questo non è un altro modello dimostrativo.
È un segnale.
Questi modelli piccoli e mirati, supportati da solidi parametri di riferimento e dall'accesso della community, potrebbero rappresentare la vera strada da percorrere per gli sviluppatori nell'ambito dell'intelligenza artificiale.
Se questo spazio ti interessa, Devstral merita la tua attenzione.
Non per quello che abbiamo visto, ma per come è stato condiviso e per chi è stato creato.