#AI News #Deepseek 31 May. 2025 (Click here to view the English version)

DeepSeek R1-0528 vient de sortir. Son nom même semble incompréhensible.

By Frozen Light Team

DeepSeek a publié un nouveau modèle open source, R1-0528, entièrement formé de A à Z. Il s'agit d'un modèle de code full-stack, qui constitue une amélioration majeure par rapport aux versions précédentes. L'entreprise affiche d'excellentes performances sur plusieurs benchmarks du secteur.

Ce que dit DeepSeek

DeepSeek décrit R1-0528 comme une nouvelle version de son modèle de base, désormais disponible publiquement sur Hugging Face et GitHub. Il a été entièrement formé sur des jetons 6T, en utilisant un mélange d'anglais, de chinois et de code à 87 %.

« Nous l'avons entièrement formé à partir de zéro, en utilisant nos propres données et notre propre infrastructure, pour produire des performances de raisonnement et de codage plus solides. »
- DeepSeek Labs, mai 2025

Ils signalent des améliorations sur plusieurs benchmarks par rapport à leur modèle précédent R1, notamment AIME, LiveCodeBench et GPQA.

🧠 Ce que cela signifie (en termes humains)

Cette nouvelle mise à jour du modèle - R1-0528 - montre de grandes améliorations dans les tâches clés de raisonnement et de génération de code.
Il a surpassé des modèles comme Grok 3 Mini et Qwen 3 d'Alibaba dans les tâches de codage et a montré des compétences multilingues et mathématiques plus fortes que sa version précédente.

Voici ce qu'il a réussi à faire :

Génération de code : 73,3 % de réussite à la première tentative sur LiveCodeBench (contre 63,5 %)
Raisonnement mathématique : 87,5 % sur les problèmes AIME
Codage multilingue : précision de 71,6 % (contre 53,3 %)
Raisonnement GPQA : 81 % de précision
Le dernier examen de l'humanité : des performances doublées (de 8,5 % à 17,7 %)

Mais qu'est-ce que tout cela signifie ?

Oui, c'est difficile. Tout le monde dit la même chose : leur nouveau modèle est meilleur que le précédent.

Et sur le papier, ils le sont tous.

Parce que le strict minimum pour une version aujourd’hui est qu’elle soit plus performante sur les benchmarks.

Essayons de comprendre ce que nous comparons réellement.

À l’heure actuelle, nous avons principalement vu deux types de benchmarks :

Pratique : des outils comme SWE-bench et LiveCodeBench simulent des tâches de programmation réelles.
Académique – des matières comme AIME, GPQA, MATH. Ces matières portent sur la logique, les énigmes et le raisonnement conceptuel.

L'un est venu travailler, l'autre est venu jouer aux échecs.

DeepSeek R1-0528 est une grande avancée par rapport à sa dernière version.

Mais aucun score SWE n'a été publié. Or, c'est ce score qui est utilisé par GPT-4.1 et Claude Opus pour démontrer leur efficacité en conditions réelles.

Alors peut-on dire que DeepSeek bat GPT ou Claude ?

Non, pas encore.

Nous n’avons tout simplement pas les mêmes résultats de tests à comparer.

Nous avons fait une table mais cela n'a pas aidé :)

Référence	DeepSeek R1-0528	GPT-4.1	Claude Opus	Gemini 1.5 Pro
LiveCodeBench	48,2%	N / A	N / A	N / A
Banc SWE (complet)	N / A	82,6%	64,7%	74,4%
AIME	27.3	28.3	27.1	25,7
GPQA	35,3	39.1	39,5	34,2
MATHÉMATIQUES	46.1	52,9	55,9	50,4

En résumé

Modèle : DeepSeek R1-0528
Accès : Open source, disponible sur Hugging Face et GitHub
Idéal pour : le codage, le bricolage de l'IA, l'expérimentation
Points de repère : Fort en raisonnement académique et en génération de code pratique
Devriez-vous l'essayer ? Oui, si vous êtes curieux de connaître l'avenir des modèles de codage open source.
Coût : Utilisation gratuite

Point de vue de l'équipe Frozen Light

Il s’agit d’un cas classique où vous ne trouvez pas les informations dont vous avez réellement besoin pour résoudre votre dilemme.

Si vous êtes un programmeur essayant de comprendre ce qui est le mieux, vous devrez simplement l'essayer vous-même.

D'après les recherches que nous avons effectuées dans les communautés GitHub, voici ce que nous pouvons vous dire :

En ce qui concerne l'utilisation pratique et concrète (déplacer des objets, brancher des éléments, faire avancer les choses), ChatGPT et Claude obtiennent systématiquement des scores plus élevés dans les environnements de développement réels.

Et pour être honnête, DeepSeek n'apparaît pas encore dans de nombreuses conversations de codage dans le monde réel.

Cela ne veut pas dire que c'est mauvais.

Le reste ? À vous de voir ce qui vous convient le mieux.

Le reste ? À vous de voir.

Share Article