גוגל פרסמה זה עתה גרסאות חדשות של דגמי Gemma 3 שלה באמצעות Quantization-Aware Training (QAT). מודלים אלה מתוכננים לפעול ביעילות על GPUs בדרגת צרכן - כלומר אינך זקוק לתשתית ברמת הארגון כדי לנצל AI מתקדם.

עם QAT, מודל הפרמטרים 27B של גוגל יכול כעת לפעול על GPU עם ~14GB של VRAM. זהו שינוי משמעותי בנגישות, שמכניס כוח AI רציני בידי מפתחי סולו, חוקרים וצוותים קטנים.

מה גוגל אומרת

גוגל טוענת לדגמי Gemma 3 המותאמים ל-QAT:

  • שמור על ביצועים תוך הפחתת טביעת הרגל של הזיכרון

  • הפעל על GPUs לצרכנים כמו RTX 3090

  • משולבים בפלטפורמות פופולריות כמו Ollama, LM Studio ו-llama.cpp

הם משחררים גרסאות QAT של Gemma 3 בגדלים 1B, 4B, 12B ו-27B - כולן נועדו להשתלב בזרימות עבודה מקומיות ובמעבדי GPU יומיומיים.

מה המשמעות של QAT (במילים אנושיות)?

קוונטיזציה היא דרך לכווץ גודל של דגם על ידי שימוש בפחות ביטים כדי לייצג את הערכים שלו - בערך כמו מעבר מ-HD ל-MP3 דחוס, אבל בצורה חכמה.

אבל QAT הוא לא רק דחיסה לאחר מעשה - הוא מאמן את המודל עם האילוצים האלה מההתחלה. זה אומר שאתה מקבל את יתרונות הגודל מבלי לאבד כל כך הרבה ביצועים.

לְמַעֲשֶׂה? אתה יכול עכשיו:

  • הפעל את דגם 27B על מכונה עם ~14GB VRAM

  • דלג על עלויות הענן והפעל דגמי AI רבי עוצמה באופן מקומי

  • הימנע מרוב כאבי הראש של פריצות לכימות לאחר אימון

והנה העסקה הגדולה יותר: כאשר קוונטיזציה מתרחשת במהלך האימון, זה אומר שניתן לאמן דוגמניות בבית - לא רק לכוונן עדין.

אתה לא סתם טוען את המוח של מישהו אחר. אתה בונה אחד.

AGI, מישהו??? כן - החדשות הגדולות יותר כאן שלא נאמרו בקול הן שזה גדול עבור AGI. כי לא מדובר במודלים חכמים יותר - אלא בגישה חכמה יותר. וכאשר גישה חכמה מופיעה באימונים, לא רק מסקנות, כך נבנה העתיד.

🔍 האם זה מהפכני? או סתם להתעדכן?

שאלה טובה - והנה האמת:

Gemma 3 QAT מרשים, אבל גוגל היא לא היחידה שמשחקת בארגז החול הזה.

שחקנים אחרים שעושים דברים דומים:

  • לעליבאבא יש דגמי Qwen המותאמים לפריסה מקומית על GPUs

  • DeepSeek הראה את R1 70B פועל על 8× RTX 3080s

  • AWS מציעה קונטיינרים עם תמיכה בכימות GPTQ + AWQ

אז למרות ש-QAT הוא לא רעיון חדש לגמרי, הביצוע של גוגל בקנה מידה כזה ועם תמיכה רחבה בכלים גורם לו לבלוט.

⚠️ מה עלול להישבר אם תחליף?

אם השתמשת בדגמי Gemma 3 קודמים וברצונך לשדרג לגרסאות QAT - היזהר.

  • דגמים מכוונים לא יועברו בצורה נקייה - מערך האימון שונה

  • ייתכן שצינור ההסקות שלך לא תומך בכימות int4 - במיוחד אם אתה עדיין משתמש בהנחות של float32

  • הכלים צריכים להיות תואמים - כלים כמו llama.cpp ו-Ollama חייבים לתמוך בפורמט הקוונטיזציה הנכון (gguf וכו')

  • עלולה להתרחש סחף דיוק קטן - זרימות עבודה מסוימות המסתמכות על פלט דטרמיניסטי עשויות לקבל תוצאות מעט שונות

  • לחלק מדגמי QAT היו הגדרות שגויות סמליות - שהקהילה עדיין מתקנת (מקור: Reddit)

שורה תחתונה

❓ תכונה

✅ סטטוס

מְשׁוּחרָר?

כֵּן

מְחִיר?

חינם וקוד פתוח

תמיכה בפלטפורמה

Ollama, LM Studio, llama.cpp וכו'.

צריך VRAM?

0.5GB–14GB בהתאם לגודל הדגם

קוונטיזציה?

int4 QAT - מובנה במהלך האימון

מקרי שימוש?

הסקה מקומית, צ'טבוט, מחקר

אתה יכול לקרוא עוד על זה כאן:

http://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

http://ai.google.dev/gemma/docs/core http://www.reddit.com/r/LocalLLaMA/comments/1jvi860/psa_gemma_3_qat_gguf_models_have_some_wrongly/

🧊 פרספקטיבה של צוות קפוא

בואו נהיה כנים: האנשים היחידים שבאמת מתלהבים מ-QAT הם האנשים שניסו להריץ דגם 70B באופן מקומי וראו את המחשב שלהם עולה באש.

לכל השאר? החדשות האלה מרגישות כמו עדכון טכני - עד שאתה מבין מה זה אומר בעצם.

כך הופך AI לאמיתי. זה כבר לא מוגבל לענן של OpenAI או ל-Nvidia. אתה יכול להפעיל AI רציני מהשולחן שלך.

אז זה מהפכני? לא בדיוק. אבל האם זה חלק ממגמה הרבה יותר גדולה? בְּהֶחלֵט.

החבר'ה הגדולים - OpenAI, Google, Meta, Alibaba - כולם עושים את אותו הדבר: ← כווץ את הדגמים ← לכימות הכל ← תגרום לזה לרוץ איפה שהאנשים נמצאים

אתה יודע, האנשים האמיתיים. אלה שאין להם 8 H100 שוכבים.

אבל הנה החלק הפראי: מכיוון ש-QAT נעשה במהלך האימון, אנחנו לא רק מכווצים מודלים - אנחנו יוצרים מוחות קטנים וחזקים מההתחלה.

זֹאת אוֹמֶרֶת:

  • ייתכן שההדרכה לא תדרוש יותר אשכולות ענק

  • אוניברסיטאות, סטארט-אפים וכן - אנשים חכמים עם GPUs טובים - יכולים כעת לאמן, לא רק לכוונן

זה לא רק ניצחון ביעילות. זה שינוי יסודי.

אם AGI יקרה אי פעם, זה לא יהיה בגלל שמעבדה אחת עשתה את זה גדול. זה יהיה בגלל שאלף מוחות קטנים מצאו מקום לצמוח.

וגוגל? יכול להיות שהם פשוט מסרו למודיעין מפתח בית. זה לא צריך שהענן ייכנס פנימה. 😉

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.