DeepSeek הוציאה מודל קוד פתוח חדש, R1-0528, שאומן כולו מאפס. זהו מודל קוד full-stack, הממוקם כשדרוג משמעותי לעומת גרסאותיו הקודמות. החברה טוענת לביצועים חזקים במספר מדדי ביצועים בתעשייה.

מה אומר DeepSeek

DeepSeek מתארת את R1-0528 כגרסה חדשה של המודל הבסיסי שלה, שכעת זמינה לציבור ב-Hugging Face וב-GitHub. היא אומנה מאפס על טוקנים של 6T באמצעות שילוב של אנגלית, סינית וקוד ברמת 87%.

"אימנו אותו לגמרי מאפס, תוך שימוש בנתונים ובתשתית שלנו, כדי לייצר ביצועי חשיבה וקידוד חזקים יותר."
- מעבדות DeepSeek, מאי 2025

הם מדווחים על שיפורים במספר מדדי ביצועים בהשוואה לדגם הקודם שלהם, R1, כולל AIME, LiveCodeBench ו-GPQA.

🧠 מה זה אומר (במילים אנושיות)

עדכון המודל החדש הזה - R1-0528 - מציג שיפורים גדולים במשימות מפתח של חשיבה ויצירת קוד.
הוא עלה על דגמים כמו Grok 3 Mini ו- Qwen 3 של עליבאבא במשימות קידוד והפגין כישורי שפה רב-לשונית ומתמטיקה חזקים יותר בהשוואה לגרסה הקודמת שלו.

הנה מה שזה הצליח:

  • יצירת קוד: 73.3% עוברים ב-1 ב-LiveCodeBench (עלייה מ-63.5%)

  • חשיבה מתמטית: 87.5% בבעיות AIME

  • קידוד רב לשוני: דיוק של 71.6% (עלייה מ-53.3%)

  • נימוק GPQA: דיוק של 81%

  • המבחן האחרון של האנושות: הכפלת ביצועים (מ-8.5% ל-17.7%)

אבל מה כל זה אומר?

כן, זה קשה. כולם אומרים את אותו הדבר - שהדגם החדש שלהם טוב יותר מהקודם.

ועל הנייר, כולם כאלה.

כי המינימום ההכרחי עבור גרסה חדשה היום הוא שהיא תתפקד טוב יותר במבחני ביצועים.

בואו ננסה להבין למה אנחנו באמת משווים.

כרגע, ראינו בעיקר שני סוגים של מדדים:

  1. מעשי - דברים כמו SWE-bench ו-LiveCodeBench. אלה מדמים משימות תכנות מהעולם האמיתי.

  2. אקדמי - דברים כמו AIME, GPQA, MATH. אלה עוסקים בלוגיקה, חידות והיגיון מושגי.

אחד בא לעבודה, השני בא לשחק שחמט.

DeepSeek R1-0528 הוא צעד גדול קדימה לעומת הגרסה הקודמת שלו.

אבל לא פורסם ציון SWE-bench. וזהו נקודת המידה בה משתמשים GPT-4.1 וקלוד אופוס כדי להראות את כוחם בעולם האמיתי.

אז האם נוכל לומר ש-DeepSeek מנצחת את GPT או את קלוד?

לא. עדיין לא.

פשוט אין לנו את אותן תוצאות בדיקה להשוואה.

הכנו שולחן אבל זה לא עזר :)

מדד

דיפסיק R1-0528

GPT-4.1

קלוד אופוס

ג'מיני 1.5 פרו

לייבקודבנץ'

48.2%

לא רלוונטי

לא רלוונטי

לא רלוונטי

ספסל SWE (מלא)

לא רלוונטי

82.6%

64.7%

74.4%

איימי

27.3

28.3

27.1

25.7

GPQA

35.3

39.1

39.5

34.2

מתמטיקה

46.1

52.9

55.9

50.4

שורה תחתונה

  • דגם: DeepSeek R1-0528

  • גישה: קוד פתוח, זמין ב-Hugging Face וב-GitHub

  • הכי טוב בשביל: קידוד, שיפורים בבינה מלאכותית, ניסויים

  • מדדי ביצועים: חזקים בהיגיון אקדמי וביצירת קוד מעשית

  • האם כדאי לך לנסות את זה? כן, אם אתה סקרן לגבי לאן מודלים של קידוד בקוד פתוח הולכים בהמשך

  • עלות: שימוש חינם

פרספקטיבה של צוות האור הקפוא

זהו מקרה קלאסי של חוסר מציאת המידע שאתה באמת צריך כדי לפתור את הדילמה שלך.

אם אתה מתכנת שמנסה להבין מה עדיף - תצטרך פשוט לנסות את זה בעצמך.

ממחקר שערכנו בקהילות GitHub, הנה מה שאנחנו יכולים לומר לכם:

כשמדובר בשימוש מעשי ומעשי - הזזת דברים, חיבור דברים, ביצוע דברים - ChatGPT ו-Claude מקבלים באופן עקבי ציונים גבוהים יותר בסביבות פיתוח אמיתיות.

ולמען האמת, DeepSeek עדיין לא מופיע בהרבה שיחות קידוד בעולם האמיתי.

זה לא אומר שזה רע.

השאר? זה תלוי בך, תנסה ותחליט מה עובד הכי טוב בשבילך.

השאר? זה תלוי בך.

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.