DeepSeek ha rilasciato un nuovo modello open source, R1-0528, addestrato interamente da zero. Si tratta di un modello di codice full-stack, che rappresenta un importante aggiornamento rispetto alle versioni precedenti. L'azienda vanta ottime prestazioni in diversi benchmark di settore.

Cosa dice DeepSeek

DeepSeek descrive R1-0528 come una nuova versione del suo modello base, ora disponibile pubblicamente su Hugging Face e GitHub. È stato addestrato da zero su token 6T utilizzando una combinazione di codice inglese, cinese e all'87%.

"L'abbiamo addestrato interamente da zero, utilizzando i nostri dati e la nostra infrastruttura, per ottenere ragionamenti più efficaci e prestazioni di codifica più elevate."
- DeepSeek Labs, maggio 2025

Segnalano miglioramenti in diversi benchmark rispetto al loro precedente modello R1, tra cui AIME, LiveCodeBench e GPQA.

🧠 Cosa significa (in parole umane)

Questo nuovo aggiornamento del modello - R1-0528 - mostra notevoli miglioramenti nelle attività chiave di ragionamento e generazione del codice.
Ha superato modelli come Grok 3 Mini e Qwen 3 di Alibaba nei compiti di codifica e ha mostrato competenze matematiche e multilingue più avanzate rispetto alla versione precedente.

Ecco cosa ha centrato:

  • Generazione di codice: 73,3% pass@1 su LiveCodeBench (in aumento rispetto al 63,5%)

  • Ragionamento matematico: 87,5% nei problemi AIME

  • Codifica multilingue: accuratezza del 71,6% (in aumento rispetto al 53,3%)

  • Ragionamento GPQA: accuratezza dell'81%

  • L'ultimo esame dell'umanità: performance raddoppiata (dall'8,5% al 17,7%)

Ma cosa significa tutto ciò?

Sì, è dura. Tutti dicono la stessa cosa: che il loro nuovo modello è migliore del precedente.

E sulla carta lo sono tutti.

Perché il minimo indispensabile per una release odierna è che abbia prestazioni migliori nei benchmark.

Cerchiamo di dare un senso a ciò che stiamo effettivamente confrontando.

Finora abbiamo visto principalmente due tipi di benchmark:

  1. Pratico: strumenti come SWE-bench e LiveCodeBench. Simulano attività di programmazione reali.

  2. Accademico - cose come AIME, GPQA, MATH. Riguardano logica, enigmi e ragionamento concettuale.

Uno è venuto a lavorare, l'altro è venuto a giocare a scacchi.

DeepSeek R1-0528 rappresenta un grande passo avanti rispetto alla sua ultima versione.

Ma non è stato pubblicato alcun punteggio SWE-bench. E questo è il benchmark utilizzato da GPT-4.1 e Claude Opus per dimostrare la loro forza nel mondo reale.

Quindi possiamo dire che DeepSeek è migliore di GPT o Claude?

No. Non ancora.

Semplicemente non abbiamo gli stessi risultati dei test da confrontare.

Abbiamo creato una tabella ma non è servito a nulla :)

Segno di riferimento

DeepSeek R1-0528

GPT-4.1

Claude Opus

Gemini 1.5 Pro

LiveCodeBench

48,2%

N / A

N / A

N / A

Panchina SWE (completa)

N / A

82,6%

64,7%

74,4%

AIM

27.3

28.3

27.1

25.7

GPQA

35.3

39.1

39.5

34.2

MATEMATICA

46.1

52.9

55,9

50.4

Conclusione

  • Modello: DeepSeek R1-0528

  • Accesso: Open source, disponibile su Hugging Face e GitHub

  • Ideale per: programmazione, sperimentazione di intelligenza artificiale

  • Punti di riferimento: Forte nel ragionamento accademico e nella generazione di codice pratico

  • Dovresti provarlo? Sì, se sei curioso di sapere dove si stanno dirigendo i modelli di programmazione open source.

  • Costo: gratuito

Prospettiva del team di Frozen Light

Questo è un classico caso in cui non trovi le informazioni di cui hai realmente bisogno per risolvere il tuo dilemma.

Se sei un programmatore che cerca di capire cosa è meglio, non ti resta che provarlo tu stesso.

Ecco cosa possiamo dirti dalle ricerche che abbiamo condotto nelle community di GitHub:

Quando si parla di utilizzo pratico e operativo (spostare oggetti, collegare oggetti, portare a termine cose), ChatGPT e Claude ottengono costantemente punteggi più alti negli ambienti di sviluppo reali.

E a dire il vero, DeepSeek non compare ancora in molte conversazioni di programmazione nel mondo reale.

Ciò non significa che sia un male.

Il resto? Sta a te provare e decidere cosa funziona meglio per te.

Il resto? Dipende da te.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.