DeepSeek ha rilasciato un nuovo modello open source, R1-0528, addestrato interamente da zero. Si tratta di un modello di codice full-stack, che rappresenta un importante aggiornamento rispetto alle versioni precedenti. L'azienda vanta ottime prestazioni in diversi benchmark di settore.
Cosa dice DeepSeek
DeepSeek descrive R1-0528 come una nuova versione del suo modello base, ora disponibile pubblicamente su Hugging Face e GitHub. È stato addestrato da zero su token 6T utilizzando una combinazione di codice inglese, cinese e all'87%.
"L'abbiamo addestrato interamente da zero, utilizzando i nostri dati e la nostra infrastruttura, per ottenere ragionamenti più efficaci e prestazioni di codifica più elevate."
- DeepSeek Labs, maggio 2025
Segnalano miglioramenti in diversi benchmark rispetto al loro precedente modello R1, tra cui AIME, LiveCodeBench e GPQA.
🧠 Cosa significa (in parole umane)
Questo nuovo aggiornamento del modello - R1-0528 - mostra notevoli miglioramenti nelle attività chiave di ragionamento e generazione del codice.
Ha superato modelli come Grok 3 Mini e Qwen 3 di Alibaba nei compiti di codifica e ha mostrato competenze matematiche e multilingue più avanzate rispetto alla versione precedente.
Ecco cosa ha centrato:
Generazione di codice: 73,3% pass@1 su LiveCodeBench (in aumento rispetto al 63,5%)
Ragionamento matematico: 87,5% nei problemi AIME
Codifica multilingue: accuratezza del 71,6% (in aumento rispetto al 53,3%)
Ragionamento GPQA: accuratezza dell'81%
L'ultimo esame dell'umanità: performance raddoppiata (dall'8,5% al 17,7%)
Ma cosa significa tutto ciò?
Sì, è dura. Tutti dicono la stessa cosa: che il loro nuovo modello è migliore del precedente.
E sulla carta lo sono tutti.
Perché il minimo indispensabile per una release odierna è che abbia prestazioni migliori nei benchmark.
Cerchiamo di dare un senso a ciò che stiamo effettivamente confrontando.
Finora abbiamo visto principalmente due tipi di benchmark:
Pratico: strumenti come SWE-bench e LiveCodeBench. Simulano attività di programmazione reali.
Accademico - cose come AIME, GPQA, MATH. Riguardano logica, enigmi e ragionamento concettuale.
Uno è venuto a lavorare, l'altro è venuto a giocare a scacchi.
DeepSeek R1-0528 rappresenta un grande passo avanti rispetto alla sua ultima versione.
Ma non è stato pubblicato alcun punteggio SWE-bench. E questo è il benchmark utilizzato da GPT-4.1 e Claude Opus per dimostrare la loro forza nel mondo reale.
Quindi possiamo dire che DeepSeek è migliore di GPT o Claude?
No. Non ancora.
Semplicemente non abbiamo gli stessi risultati dei test da confrontare.
Abbiamo creato una tabella ma non è servito a nulla :)
Segno di riferimento | DeepSeek R1-0528 | GPT-4.1 | Claude Opus | Gemini 1.5 Pro |
LiveCodeBench | 48,2% | N / A | N / A | N / A |
Panchina SWE (completa) | N / A | 82,6% | 64,7% | 74,4% |
AIM | 27.3 | 28.3 | 27.1 | 25.7 |
GPQA | 35.3 | 39.1 | 39.5 | 34.2 |
MATEMATICA | 46.1 | 52.9 | 55,9 | 50.4 |
Conclusione
Modello: DeepSeek R1-0528
Accesso: Open source, disponibile su Hugging Face e GitHub
Ideale per: programmazione, sperimentazione di intelligenza artificiale
Punti di riferimento: Forte nel ragionamento accademico e nella generazione di codice pratico
Dovresti provarlo? Sì, se sei curioso di sapere dove si stanno dirigendo i modelli di programmazione open source.
Costo: gratuito
Prospettiva del team di Frozen Light
Questo è un classico caso in cui non trovi le informazioni di cui hai realmente bisogno per risolvere il tuo dilemma.
Se sei un programmatore che cerca di capire cosa è meglio, non ti resta che provarlo tu stesso.
Ecco cosa possiamo dirti dalle ricerche che abbiamo condotto nelle community di GitHub:
Quando si parla di utilizzo pratico e operativo (spostare oggetti, collegare oggetti, portare a termine cose), ChatGPT e Claude ottengono costantemente punteggi più alti negli ambienti di sviluppo reali.
E a dire il vero, DeepSeek non compare ancora in molte conversazioni di programmazione nel mondo reale.
Ciò non significa che sia un male.
Il resto? Sta a te provare e decidere cosa funziona meglio per te.
Il resto? Dipende da te.