كانت ذاكرة VRAM دائمًا العائق الأكبر أمام خدمة نماذج اللغة الكبيرة محليًا. تشغيل نموذج بحجم 12B كان يتطلب عادةً بطاقة GPU مخصصة لمراكز البيانات باهظة الثمن. لكن معيارًا مرجعيًا مجتمعيًا حديثًا يروي قصة مختلفة، إذ يُشغّل Gemma 4 12B باستخدام QAT (التدريب الواعي بالتكميم) وتكميم TurboQuant على بطاقة RTX 4060 بذاكرة 8GB، ويدّعي تحقيق إنتاجية prefill قوية مع الحفاظ على دعم السياق الطويل في الوقت نفسه.

في ThakiCloud نعمل على خدمة النماذج ضمن منصة SaaS للذكاء الاصطناعي وتعلم الآلة مبنية على K8s. نستعرض هنا لماذا قد تمثّل هذه الحالة نقطة تحول محتملة لاقتصاد الاستدلال على بطاقات GPU الاستهلاكية، وما الذي ينبغي التحقق منه مقابل ما ينبغي التحفظ بشأنه.

الفصل بين ما هو رسمي وما هو مُبلّغ عنه ذاتيًا

الخطوة الأولى هي الفصل بين الادعاءات بحسب مدى موثوقيتها الفعلية.

  • إصدار Gemma 4 وQAT مؤكّد رسميًا: أطلقت Google رسميًا عائلة نماذج Gemma 4 إلى جانب نسخة QAT.
  • TurboQuant مبني على ورقة بحثية أكاديمية منشورة: TurboQuant تقنية تكميم قُدّمت في مؤتمر ICLR 2026.
  • رقم إنتاجية prefill الذي يتجاوز 1000 رمز/ثانية معيار شخصي: هذا الرقم مأخوذ من إعداد أحد الكتّاب في المجتمع بمفرده، وليس معيارًا رسميًا. من الأدق التعامل معه بوصفه [تقديري]، إذ سيختلف بشكل كبير تبعًا للعتاد وبرامج التشغيل وإعدادات الدفعات.

الوضوح بشأن موثوقية كل مصدر على هذا النحو ممارسة أساسية في نظافة علم البيانات. كلما بدا الرقم مبهرًا أكثر، زادت أهمية فصله عن مصدره.

ما الذي يغيّره QAT

الفكرة الجوهرية في QAT هي تطبيق التكميم أثناء التدريب نفسه. التكميم التقليدي بعد التدريب (PTQ) يضغط نموذجًا مدرّبًا بالفعل إلى عدد أقل من البتات، وهذه العملية تُسبب فقدانًا في الدقة. أما QAT فيتيح للنموذج تعلّم استيعاب ضجيج التكميم أثناء التدريب ذاته، ما يحافظ على الدقة حتى عند استخدام عرض بتات أقل.

وإذا أُضيفت تقنية تكميم إضافية مثل TurboQuant فوق ذلك، يمكن تقليص البصمة الذاكرية أكثر مع كبح تدهور الجودة. النتيجة النهائية أن وضع نموذج بحجم 12B مع نافذة سياق طويلة معًا داخل ذاكرة من الفئة الاستهلاكية، أي 8GB من VRAM، يصبح أمرًا ممكنًا.

منظور ThakiCloud: ماذا تعني الخدمة على GPU استهلاكية

السبب الحقيقي لأهمية هذه الحالة هو تكلفة الخدمة لكل وحدة. بثمن بطاقة GPU واحدة مخصصة لمراكز البيانات، يمكن شراء عدة بطاقات GPU استهلاكية. فإذا أتاح التدريب الواعي بالتكميم لنموذج متوسط الحجم العمل بجودة قابلة للاستخدام على بطاقات GPU استهلاكية، فإن بنية تكلفة الاستدلال المحلي تتغير بشكل جوهري.

هذا بالضبط المجال الذي نعمل فيه: توحيد خدمة النماذج المُكمَّمة فوق K8s، وضبط طوابير أحمال عمل GPU باستخدام Kueue، ووضع مجموعة متغايرة من بطاقات GPU (مراكز بيانات واستهلاكية معًا) تحت جدولة موحدة. تشغيل نموذج واحد على جهاز واحد مسألة مختلفة عن تمكين عدة مستأجرين من مشاركة النماذج المُكمَّمة بشكل موثوق. عزل الذاكرة، وضمان الإنتاجية، ومراقبة تراجع الجودة تصبح التحديات التشغيلية الجوهرية.

خاتمة

تشغيل Gemma 4 12B على GPU بذاكرة 8GB إشارة إلى أن التكميم يغيّر اقتصاد الاستدلال. مع ذلك، ينبغي التعامل مع رقم الإنتاجية المبهر بوصفه [تقديري] مع فصله عن مصدره، والتمييز بين الإصدارات الرسمية والمعايير الشخصية. بالنسبة للمهندسين المهتمين بخدمة النماذج المُكمَّمة على نطاق مؤسسي، هذا النوع من مسائل الخدمة والجدولة هو عملنا اليومي بالضبط.


المصدر: معيار مرجعي مجتمعي لتشغيل Gemma 4 12B QAT مع TurboQuant على GPU استهلاكية. Gemma: https://ai.google.dev/gemma . TurboQuant (ICLR 2026). أرقام الإنتاجية معيار شخصي من الكاتب [تقديري].