أصدرت جوجل مؤخرًا إصدارات جديدة من نماذج Gemma 3 باستخدام التدريب الواعي للتكميم (QAT). صُممت هذه النماذج للعمل بكفاءة على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين، ما يعني أنك لست بحاجة إلى بنية تحتية على مستوى المؤسسات للاستفادة من الذكاء الاصطناعي المتقدم.

مع QAT، يُمكن الآن تشغيل نموذج جوجل ذي 27 مليار معلمة على وحدة معالجة رسومية (GPU) بسعة ذاكرة VRAM تبلغ حوالي 14 جيجابايت. يُمثل هذا نقلة نوعية في إمكانية الوصول، إذ يضع قدرات الذكاء الاصطناعي الهائلة في أيدي المطورين والباحثين والفرق الصغيرة.

ما يقوله جوجل

تزعم Google أن طرازات Gemma 3 المحسّنة لـ QAT:

  • الحفاظ على الأداء مع تقليل حجم الذاكرة

  • تشغيل على وحدات معالجة الرسوميات الاستهلاكية مثل RTX 3090

  • يتم دمجها عبر منصات شائعة مثل Ollama وLM Studio وllama.cpp

إنهم يقومون بإصدار إصدارات QAT من Gemma 3 بأحجام 1B، و4B، و12B، و27B - وكلها مصممة لتناسب سير العمل المحلي ووحدات معالجة الرسومات اليومية.

ماذا يعني QAT (باللغة البشرية)؟

التكميم هو طريقة لتقليص حجم النموذج من خلال استخدام عدد أقل من البتات لتمثيل قيمه - مثل التبديل من HD إلى MP3 المضغوط، ولكن بطريقة ذكية.

لكن QAT لا يقتصر على الضغط بعد العملية فحسب، بل يُدرّب النموذج على هذه القيود منذ البداية. هذا يعني أنك تحصل على فوائد الحجم دون خسارة كبيرة في الأداء.

عمليًا؟ يمكنك الآن:

  • قم بتشغيل الطراز 27B على جهاز يحتوي على ذاكرة VRAM بسعة 14 جيجابايت تقريبًا

  • تخطي تكاليف السحابة وتشغيل نماذج الذكاء الاصطناعي القوية محليًا

  • تجنب معظم الصداع الناتج عن عمليات التكميم بعد التدريب

وهنا تكمن المشكلة الأكبر: عندما تحدث عملية التكميم أثناء التدريب، فهذا يعني أنه يمكن تدريب النماذج فعليًا في المنزل - وليس مجرد ضبطها بدقة.

أنت لا تُحمّل عقل شخص آخر فحسب، بل تبنيه.

هل من أحدٍ مهتم بالذكاء الاصطناعي العام؟ نعم، الخبر الأهم هنا، والذي لم يُعلن صراحةً، هو أن هذا يُحدث فرقًا كبيرًا في الذكاء الاصطناعي العام. فالأمر لا يتعلق بنماذج أذكى، بل بوصول أذكى. وعندما يظهر الوصول الذكي في التدريب، وليس مجرد الاستدلال، هكذا يُبنى المستقبل.

🔍 هل هذا ثوري؟ أم مجرد محاولة للتعويض؟

سؤال جيد - وهذه هي الحقيقة:

تعتبر لعبة Gemma 3 QAT مثيرة للإعجاب، ولكن Google ليست الشركة الوحيدة التي تلعب في هذا المجال.

لاعبون آخرون يقومون بأشياء مماثلة:

  • قامت شركة Alibaba بتحسين نماذج Qwen للنشر المحلي على وحدات معالجة الرسومات

  • أظهر DeepSeek أن R1 70B يعمل على 8 × RTX 3080s

  • تقدم AWS حاويات مع دعم التكميم GPTQ + AWQ

وعلى الرغم من أن QAT ليست فكرة جديدة تمامًا، فإن تنفيذ Google لها على هذا النطاق ومع دعم واسع النطاق للأدوات يجعلها مميزة.

⚠️ ما الذي يمكن أن ينكسر إذا قمت بالتبديل؟

إذا كنت تستخدم نماذج Gemma 3 السابقة وترغب في الترقية إلى إصدارات QAT - فكن حذرًا.

  • لن يتم نقل النماذج المضبوطة بدقة بشكل نظيف - إعداد التدريب مختلف

  • قد لا يدعم خط أنابيب الاستدلال الخاص بك التكميم int4 — خاصةً إذا كنت لا تزال تستخدم افتراضات float32

  • يجب أن تكون الأدوات متوافقة - يجب أن تدعم أدوات مثل llama.cpp وOllama تنسيق التكميم الصحيح (gguf، وما إلى ذلك)

  • قد يحدث انحراف طفيف في الدقة - قد تحصل بعض سير العمل التي تعتمد على مخرجات محددة على نتائج مختلفة قليلاً

  • بعض نماذج QAT بها أخطاء في تكوين الرموز - والتي لا يزال المجتمع يعمل على إصلاحها (المصدر: Reddit)

خلاصة القول

❓ ميزة

✅ الحالة

مطلق سراحه؟

نعم

سعر؟

مجاني ومفتوح المصدر

دعم المنصة

Ollama، LM Studio، llama.cpp، إلخ.

هل هناك حاجة إلى VRAM؟

0.5 جيجابايت - 14 جيجابايت حسب حجم الطراز

التكميم؟

int4 QAT — مُدمج أثناء التدريب

حالات الاستخدام؟

الاستدلال المحلي، روبوت المحادثة، البحث

يمكنك قراءة المزيد عنه هنا:

http://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/

http://ai.google.dev/gemma/docs/core http://www.reddit.com/r/LocalLLaMA/comments/1jvi860/psa_gemma_3_qat_gguf_models_have_some_wrongly/

🧊 منظور فريق Frozen Light

دعونا نكون صادقين: الأشخاص الوحيدون المتحمسون حقًا بشأن QAT هم الأشخاص الذين حاولوا تشغيل نموذج 70B محليًا وشاهدوا أجهزة الكمبيوتر الخاصة بهم تحترق.

هل هذا الخبر مُجرّد تحديث تقنيّ، حتى تُدرك معناه الحقيقيّ.

هكذا يصبح الذكاء الاصطناعي واقعًا ملموسًا. لم يعد يقتصر على سحابة OpenAI أو مجموعات Nvidia العملاقة. يمكنك تشغيل ذكاء اصطناعي قوي من مكتبك.

فهل هذا ثوري؟ ليس تمامًا. ولكن هل هو جزء من اتجاه أوسع؟ بالتأكيد.

الشركات الكبرى - OpenAI وGoogle وMeta وAlibaba - جميعها تفعل الشيء نفسه: → تقليص النماذج → تحديد كمية كل شيء → جعلها تعمل حيث يوجد الناس

هل تعلمون، الأشخاص الحقيقيون. أولئك الذين لا يملكون 8 طائرات H100؟

ولكن هنا الجزء المثير: لأن QAT يتم أثناء التدريب، فإننا لا نقوم فقط بتقليص حجم النماذج - نحن نقوم بإنشاء أدمغة صغيرة وقوية منذ البداية.

وهذا يعني:

  • قد لا يتطلب التدريب مجموعات عملاقة بعد الآن

  • يمكن للجامعات والشركات الناشئة، ونعم - الأشخاص الأذكياء الذين لديهم وحدات معالجة رسومية جيدة - الآن التدريب، وليس فقط الضبط الدقيق

هذا ليس مجرد نجاح في الكفاءة، بل هو نقلة نوعية.

إذا تحقق الذكاء الاصطناعي العام، فلن يكون ذلك بفضل مختبر واحد حقق نجاحًا كبيرًا، بل بفضل آلاف العقول الصغيرة التي وجدت مساحة للنمو.

وجوجل؟ ربما سلّموا الذكاء الاصطناعي مفتاحًا للمنزل. فهو لا يحتاج إلى السحابة للدخول. 😉

Share Article

Get stories direct to your inbox

We’ll never share your details. View our Privacy Policy for more info.