#AI News #Mistral 26 May. 2025 (Click here to view the English version)

מיסטרל נוטש את דבסטרל: תואר שני במשפטים של סוכן בהנדסת תוכנה

By Frozen Light Team

Mistral זה עתה השיקה את Devstral, מודל בינה מלאכותית חדש בקוד פתוח שנבנה כדי לפתור בעיות אמיתיות בפיתוח תוכנה - לא רק השלמה אוטומטית של קוד.

זוהי תוצאה של שילוב בין Mistral ל-All Hands AI. היא קטנה מספיק כדי לפעול באופן מקומי, מאומנת על בעיות אמיתיות ב-GitHub, וקיבלה ציון גבוה באופן מפתיע באחד ממדדי ה-AI הקשוחים ביותר המתמקדים בפיתוח: SWE-Bench Verified.

וכן - אתם יכולים לנסות את זה עכשיו, בלי רשימת המתנה, בלי הגבלת ספקים.

🔹 למה זה נשמע כמו אותו סיפור

כבר שמענו את ההצעה הזו בעבר - מ-OpenAI, Anthropic, Google, DeepMind, מה שרק תרצי:

"התנהגות סוכנתית"
"מבין מאגרים מלאים"
"מתקן באגים, שולח בקשות משיכה"
"אומן על GitHub"
"עוזר מפתח בקוד פתוח"

אז כשמיסטרל מופיע עם אותן מילים, קל להתעלם מזה.
אבל משהו שונה הפעם.

🔹 SWE-Bench מאומת הוא התשובה

אם כל הדגמים האלה נשמעים לכם אותו דבר - אתם לא טועים.
אותן מילים. אותן הבטחות.

SWE-Bench Verified היא הדרך שבה אתה חוצה את זה.
אם אתם רוצים לדעת מה אמיתי, מה עובד, ומה זה רק שיווק - זה המקום שבו אתם מחפשים.

🔹 מה זה SWE-Bench Verified?

SWE-Bench הוא מדד שנוצר על ידי אוניברסיטת פרינסטון כדי לבחון האם מודל שפה יכול למעשה לפעול כמו מהנדס תוכנה.

לא רק:

"סיים את הפונקציה הזו"
אֲבָל:
"קרא את הבעיה. הבן את המאגר. כתוב את התיקון. עברו את המבחן."

✅ "מאומת" פירושו שאדם בדק ידנית את בקשת ה-pull של המודל ואישר שהבאג תוקן כהלכה.

אז כשמיסטרל אומר שדבסטראל קיבלה 46.8%, הם אומרים:

"מודל זה תיקן כמעט מחצית מבעיות GitHub בעולם האמיתי במבחן - ועבר את הבדיקות."

זה מספר משמעותי. במיוחד עבור מודל שאתה יכול להריץ על המחשב שלך.

🔹 מה בעצם חדש כאן

זה מתפקד - וזה קטן.
Devstral מנצח דגמים מסחריים כמו GPT-4.1 Mini ו- Claude 3.5 Haiku ב- SWE-Bench Verified.
זה פתוח ומקומי.
אתה יכול להוריד את זה. להפעיל את זה. להשתמש בפורק. אין צורך ב-API.
זה מאומן אחרת.
לא על דוגמאות קוד - אלא על בעיות אמיתיות ב-GitHub. זה צעד קרוב יותר לאופן שבו מפתחים עובדים בפועל.

🔹 כיצד Devstral משתווה ב-SWE-Bench Verified

דֶגֶם	ציון מאומת של SWE-Bench	קוד פתוח	שימוש מקומי	רִשָׁיוֹן
דבסטרל (מיסטרל)	46.8%	✅ כן	✅ כן (4090 / מק 32GB)	אפאצ'י 2.0
GPT-4.1 מיני (OpenAI)	~37%	❌ לא	❌ ענן בלבד	מִסְחָרִי
קלוד 3.5 הייקו	~40%	❌ לא	❌ ענן בלבד	מִסְחָרִי
קוד לאמה 70B	~15–20% (הערכה)	✅ כן	⚠️ נדרשת חומרה כבדה	מערכת הפעלה אוטומטית (OSS) מותאמת אישית

🔹 שורה תחתונה

✅ זמין עכשיו - הורידו אותו מ-Hugging Face:
http://huggingface.co/mistralai/Devstral-Small-2505
💸 ללא עלות לשימוש - קוד פתוח תחת Apache 2.0, חינמי לשימוש אישי או מסחרי:
http://www.apache.org/licenses/LICENSE-2.0
💻 פועל באופן מקומי - עובד על RTX 4090 או Mac עם 32GB RAM
📊 ציון של 46.8% ב-SWE-Bench Verified - נבדק על פי בעיות אמיתיות ב-GitHub
🔧 בנוי לפתרון בעיות ברמת המאגר, לא רק קטעי קוד
🧠 אין API, אין ענן, אין התחייבות לספק - פשוט הורידו והתחילו

אם אתם עובדים עם קוד ורוצים בינה מלאכותית שתגיע ומוכנה לעזור - זה הפתרון לנסות.
פשוט, מקומי ופתוח לחלוטין.

❄️ פרספקטיבה של צוות האור הקפוא

רוב הדגמים בתחום הזה עדיין נשמעים אותו דבר.
גם דבסטראל עושה זאת - עד שתבינו שני דברים:

זה נבדק מול בעיות אמיתיות ב-GitHub, לא מול דוגמאות מומצאות.
וזה פתוח, חינמי ומוכן להפעלה ללא אישור או תוכניות תמחור.

עוד לא הפעלנו את זה בעצמנו.
אבל העובדה שהוא הושווה לנתונים אמיתיים - והועמד לרשותך ללא הגבלות - אומרת משהו.

זה לא עוד דגם הדגמה.
זה אות.

שמודלים קטנים וממוקדים - המגובים על ידי מדדים חזקים וגישה לקהילה - עשויים להיות הדרך האמיתית קדימה בתחום הבינה המלאכותית עבור מפתחים.

אם אכפת לך מהמרחב הזה, דבסטרל שווה את תשומת לבך.
לא בגלל מה שראינו - אלא בגלל איך זה שותף ולמי זה נבנה.

Share Article

Latest articles

#AI News, #AI Tools, #Automation 27 September

Google Stitch Review: From Sketch to Screen in Seconds

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.