أصدرت شركة DeepSeek نموذجًا جديدًا مفتوح المصدر، R1-0528، مُدرَّبًا بالكامل من الصفر. وهو نموذج برمجي متكامل، يُعد ترقيةً رئيسيةً لإصداراته السابقة. وتؤكد الشركة تحقيق أداء قوي في العديد من معايير الصناعة.
ماذا يقول DeepSeek
يصف DeepSeek R1-0528 بأنه إصدار جديد من نموذجه الأساسي، وهو متاح الآن للعامة على Hugging Face وGitHub. تم تدريبه من الصفر على 6T من الرموز باستخدام مزيج من اللغتين الإنجليزية والصينية، بالإضافة إلى 87% من الكود.
"لقد قمنا بتدريبه بالكامل من الصفر، باستخدام بياناتنا والبنية الأساسية الخاصة بنا، لإنتاج أداء أقوى في التفكير والترميز."
- مختبرات DeepSeek، مايو 2025
لقد أبلغوا عن تحسينات عبر معايير متعددة مقارنة بنموذجهم السابق R1، بما في ذلك AIME، وLiveCodeBench، وGPQA.
🧠 ماذا يعني ذلك (بالكلمات البشرية)
يُظهر تحديث النموذج الجديد هذا - R1-0528 - تحسينات كبيرة في مهام التفكير الأساسي وتوليد التعليمات البرمجية.
وقد تفوقت على نماذج مثل Grok 3 Mini و Qwen 3 من Alibaba في مهام البرمجة وأظهر مهارات متعددة اللغات والرياضيات أقوى من نسخته السابقة.
وهذا ما نجح فيه:
توليد الكود: نسبة النجاح 73.3% @1 على LiveCodeBench (ارتفاعًا من 63.5%)
التفكير الرياضي: 87.5% في مسائل AIME
الترميز متعدد اللغات: دقة 71.6% (ارتفاعًا من 53.3%)
منطق GPQA: دقة 81%
الامتحان الأخير للبشرية: مضاعفة الأداء (من 8.5% إلى 17.7%)
ولكن ماذا يعني كل ذلك؟
نعم، هذا صعب. الجميع يقولون الشيء نفسه: إن طرازهم الجديد أفضل من سابقه.
وعلى الورق، كلهم كذلك.
لأن الحد الأدنى لإصدار اليوم هو أن يكون أداؤه أفضل في المعايير المرجعية.
دعونا نحاول أن نفهم ما نقوم بمقارنته فعليًا.
في الوقت الحالي، رأينا في الغالب نوعين من المعايير:
تطبيقات عملية - برامج مثل SWE-bench وLiveCodeBench. تُحاكي هذه البرامج مهام البرمجة الواقعية.
أكاديمي - مواد مثل AIME وGPQA وMATH. تتعلق هذه المواد بالمنطق والألغاز والتفكير المفاهيمي.
واحد جاء للعمل، والآخر جاء للعب الشطرنج.
يعد DeepSeek R1-0528 خطوة كبيرة للأمام مقارنة بإصداره الأخير.
لكن لم تُنشر أي نتيجة لاختبار SWE. وهذا هو المعيار الذي يستخدمه GPT-4.1 وClaude Opus لإظهار قوتهما العملية.
فهل يمكننا القول أن DeepSeek يتفوق على GPT أو Claude؟
لا ليس بعد.
ليس لدينا نفس نتائج الاختبار للمقارنة.
لقد صنعنا جدولًا لكنه لم يساعد :)
معيار | ديب سيك R1-0528 | GPT-4.1 | كلود أوبس | جيميني 1.5 برو |
لايف كود بينش | 48.2% | غير متوفر | غير متوفر | غير متوفر |
مقعد SWE (كامل) | غير متوفر | 82.6% | 64.7% | 74.4% |
ايمي | 27.3 | 28.3 | 27.1 | 25.7 |
هيئة ضمان جودة التعليم العام | 35.3 | 39.1 | 39.5 | 34.2 |
الرياضيات | 46.1 | 52.9 | 55.9 | 50.4 |
خلاصة القول
النموذج: DeepSeek R1-0528
الوصول: مفتوح المصدر، متوفر على Hugging Face وGitHub
الأفضل لـ: البرمجة، وتعديل الذكاء الاصطناعي، والتجريب
المعايير: قوي في التفكير الأكاديمي وتوليد التعليمات البرمجية العملية
هل يجب عليك تجربته؟ نعم، إذا كنت مهتمًا بمعرفة مستقبل نماذج البرمجة مفتوحة المصدر
التكلفة: مجاني للاستخدام
منظور فريق الضوء المتجمد
هذه حالة كلاسيكية لعدم العثور على المعلومات التي تحتاجها فعليًا لحل معضلتك.
إذا كنت مبرمجًا وتحاول فهم ما هو الأفضل، فسوف يتعين عليك تجربته بنفسك.
من خلال الأبحاث التي أجريناها في مجتمعات GitHub، إليك ما يمكننا إخبارك به:
عندما يتعلق الأمر بالاستخدام العملي المباشر - تحريك الأشياء، وتوصيل الأشياء، وإنجاز المهام - يحصل ChatGPT وClaude باستمرار على درجات أعلى في بيئات التطوير الفعلية.
ولكي نكون صادقين، فإن DeepSeek لم يظهر بعد في العديد من محادثات البرمجة في العالم الحقيقي.
هذا لا يعني أنه سيء.
الباقي؟ الأمر متروك لك لتقرر ما هو الأنسب لك.
الباقي؟ هذا متروك لك.