أطلقت Mistral للتو Devstral، وهو نموذج ذكاء اصطناعي جديد مفتوح المصدر تم تصميمه لحل مشكلات تطوير البرامج الحقيقية - وليس فقط كود الإكمال التلقائي.

إنها نتيجة تعاون بين Mistral وAll Hands AI. إنها صغيرة بما يكفي لتشغيلها محليًا، وقد تم تدريبها على مشاكل GitHub الفعلية، وحصلت على نتيجة عالية بشكل مفاجئ في أحد أصعب معايير الذكاء الاصطناعي المخصصة للمطورين: SWE-Bench Verified.

ونعم - يمكنك تجربته الآن، بدون قائمة انتظار، ولا حبس البائعين.

🔹 لماذا يبدو هذا وكأنه نفس القصة

لقد سمعنا هذا العرض من قبل - من OpenAI، وAnthropic، وGoogle، وDeepMind، وما إلى ذلك:

  • "السلوك الوكيل"

  • "يفهم المستودعات الكاملة"

  • "إصلاح الأخطاء وإرسال طلبات السحب"

  • "تم التدريب على GitHub"

  • "مساعد مطور مفتوح المصدر"

لذا عندما يظهر ميسترال بنفس الكلمات، فمن السهل تجاهلها.
لكن هناك شيئا مختلفا هذه المرة.

🔹 تم التحقق من SWE-Bench هو الحل

إذا كانت كل هذه النماذج تبدو متشابهة بالنسبة لك - فأنت لست مخطئًا.
نفس الكلمات. نفس الوعود.

SWE-Bench Verified هي الطريقة التي يمكنك من خلالها قطع الطريق.
إذا كنت تريد أن تعرف ما هو حقيقي، وما هو فعال، وما هو مجرد تسويق - فهذا هو المكان الذي يجب أن تبحث فيه.

🔹 ما هو SWE-Bench Verified؟

SWE-Bench هو معيار تم إنشاؤه بواسطة جامعة برينستون لاختبار ما إذا كان نموذج اللغة قادرًا بالفعل على العمل مثل مهندس البرمجيات.

ليس فقط:

  • "إنهاء هذه الوظيفة"
    لكن:

  • اقرأ المشكلة. افهم المستودع. اكتب الحل. اجتاز الاختبار.

✅ تعني عبارة "تم التحقق" أن شخصًا ما قام يدويًا بمراجعة طلب سحب النموذج وأكد أن الخطأ تم حله بشكل صحيح.

لذا عندما تقول Mistral أن Devstral حصل على 46.8%، فهم يقولون:

"لقد نجح هذا النموذج في إصلاح ما يقرب من نصف مشكلات GitHub الحقيقية في الاختبار المرجعي - واجتاز الاختبار."

هذا رقمٌ مهمٌّ، خاصةً لنموذجٍ يُمكنك تشغيله على جهازك.

🔹 ما الجديد هنا فعليًا

  1. إنه يؤدي - وهو صغير.
    يتفوق Devstral على النماذج التجارية مثل GPT-4.1 Mini و Claude 3.5 Haiku على SWE-Bench Verified.

  2. إنه مفتوح ومحلي.
    يمكنك تنزيله، تشغيله، نسخه. لا يتطلب واجهة برمجة تطبيقات.

  3. لقد تم تدريبه بشكل مختلف.
    ليس على أمثلة برمجية، بل على مشاكل GitHub الحقيقية. هذا يُقرّبنا خطوةً إلى كيفية عمل المطورين فعليًا.

🔹 كيفية مقارنة Devstral على SWE-Bench Verified

نموذج

نتيجة تم التحقق منها من قبل SWE-Bench

مفتوح المصدر

الاستخدام المحلي

رخصة

ديفسترال (ميسترال)

46.8%

✅ نعم

✅ نعم (4090 / ماك 32 جيجابايت)

أباتشي 2.0

GPT-4.1 Mini (OpenAI)

~37%

❌ لا

❌سحابي فقط

تجاري

كلود 3.5 هايكو

~40%

❌ لا

❌سحابي فقط

تجاري

كود لاما 70B

~15-20% (تقديرية)

✅ نعم

⚠️ هناك حاجة إلى معدات ثقيلة

OSS مخصص

🔹 خلاصة القول

  • ✅ متوفر الآن - قم بتنزيله من Hugging Face:
    http://huggingface.co/mistralai/Devstral-Small-2505

  • 💸 لا توجد تكلفة للاستخدام - مفتوح المصدر على Apache 2.0، مجاني للاستخدام الشخصي أو التجاري:
    http://www.apache.org/licenses/LICENSE-2.0
    💻 يعمل محليًا - يعمل على RTX 4090 أو Mac مع ذاكرة وصول عشوائي (RAM) بسعة 32 جيجابايت

  • 📊 حصل على 46.8% على SWE-Bench Verified - تم قياسه على أساس مشكلات GitHub الحقيقية

  • 🔧 مصمم لحل المشكلات على مستوى المستودع، وليس فقط مقتطفات التعليمات البرمجية

  • 🧠 لا يوجد واجهة برمجة تطبيقات، ولا سحابة، ولا احتكار للبائع - فقط قم بالتنزيل والبدء

إذا كنت تعمل مع الكود وتريد الذكاء الاصطناعي الذي يظهر جاهزًا للمساعدة - فهذا هو الذي يجب أن تجربه.
بسيطة، محلية، ومفتوحة بالكامل.

❄️ منظور فريق Frozen Light

لا تزال معظم النماذج في هذا المجال تبدو متشابهة.
يفعل Devstral ذلك أيضًا - حتى تدرك شيئين:

لقد تم اختباره ضد مشكلات GitHub الحقيقية، وليس أمثلة وهمية.
وهو مفتوح ومجاني وجاهز للتشغيل دون إذن أو خطط تسعير.

لم نقم بتشغيله بأنفسنا بعد.
لكن حقيقة أن هذه البيانات تم قياسها على أساس بيانات حقيقية - وإتاحتها دون قيود - تقول شيئًا ما.

هذا ليس نموذج تجريبي آخر.
إنها إشارة.

قد تكون النماذج الصغيرة والمحددة - المدعومة بمعايير قوية وإمكانية الوصول المجتمعي - هي المسار الحقيقي للمضي قدمًا في مجال الذكاء الاصطناعي للمطورين.

إذا كنت مهتمًا بهذه المساحة، فإن Devstral يستحق اهتمامك.
ليس بسبب ما رأيناه - ولكن بسبب كيفية مشاركته ومن تم بناؤه من أجله.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.