GLM-5.2: دليل خدمة النشر المحلي لنموذج MoE بحجم 753B وسياق مليون رمز ورخصة MIT
⏱️ وقت القراءة المقدر: 7 دقائق

ما الذي يميز GLM-5.2؟
GLM-5.2 هو نموذج MoE بحجم إجمالي 753B معامل، أصدرته Z.ai (المعروفة سابقًا بـ Zhipu AI). يمكن الوصول إليه عبر مستودع HuggingFace zai-org/GLM-5.2، وترخيصه MIT.
أبرز ما يميز هذا النموذج هو قدرته على معالجة سياق بطول مليون رمز بتكلفة FLOPs عملية. ثمة نماذج كثيرة تدّعي دعم سياق مليون رمز، إلا أن تكلفة الاستدلال الفعلية تصبح عائقًا حقيقيًا. يعالج GLM-5.2 هذه المعضلة مباشرة عبر آلية انتباه تُعرف بـ DSA (Dynamic Sparse Attention).
البنية المعمارية: DSA وIndexShare
جوهر GLM-5.2 هو بنية glm_moe_dsa. تعتمد DSA أسلوب IndexShare، إذ تتشارك أربع طبقات sparse attention متجاورة نفس المُفهرس (indexer).
يبلغ تعقيد الانتباه الكثيف التقليدي (dense self-attention) على طول تسلسل $L$ درجةَ $O(L^2)$. تتضاعف هذه التكلفة تضاعفًا حادًا حين يتجاوز الطول 128K رمز. يُخفف الانتباه المتفرق من ذلك بجعل كل رمز ينتبه فقط إلى مواقع مختارة لا إلى المجموع الكلي. تُشير بطاقة النموذج على HF إلى أن DSA في GLM-5.2 توفر 2.9x في FLOPs لكل رمز عند سياق مليون رمز.
يتضمن النموذج كذلك تحسينات في الترميز التخميني (speculative decoding). تُقدَّم أرقام تشير إلى أن معدل القبول (acceptance rate) يرتفع بنسبة تصل إلى 20% بفضل MTP (Multi-Token Prediction)، وهو تحسين ينعكس مباشرة على معدل الإنتاجية أثناء الخدمة.
أنواع البيانات المدعومة هي BF16 وF32، أما عدد المعاملات النشطة فلم يُذكر في بطاقة النموذج المتاحة للعموم.
المعايير
فيما يلي الأرقام المستخرجة من بطاقة النموذج على HF:
| المعيار | GLM-5.2 |
|---|---|
| HLE | 40.5 |
| HLE w/Tools | 54.7 |
| AIME 2026 | 99.2 |
| SWE-bench Pro | 62.1 |
| Terminal Bench 2.1 | 82.7 |
| MCP-Atlas (Public) | 76.8 |
نتيجة 99.2 على AIME 2026 مرتفعة جدًا في مجال الاستدلال الرياضي. أما SWE-bench Pro 62.1 فتعكس الأداء على مهام هندسة البرمجيات الفعلية، وMCP-Atlas 76.8 يعكس سيناريوهات استخدام الأدوات.
HLE (Humanity’s Last Exam) بدون أدوات 40.5 يقفز إلى 54.7 مع الأدوات. يدل ذلك على فاعلية ربط النموذج بعوامل الكود أو خطوط أنابيب استخدام الأدوات.
الخدمة والنشر
أطر العمل المدعومة
الأطر المدعومة رسميًا هي:
- vLLM الإصدار 0.23.0 أو أحدث
- SGLang الإصدار 0.5.13.post1 أو أحدث
- Transformers الإصدار 0.5.12 أو أحدث (HF)
- KTransformers (خدمة مُكممة على وحدات GPU للمستهلكين)
- Unsloth (تشمل الضبط الدقيق)
- Ascend NPU (دعم وحدات NPU من Huawei)
أشكال التكميم
رُفعت على HF Hub 29 نسخة مكممة تشمل GGUF. توفر خيارات بتات متعددة منها Q4_K_M وQ8_0، مما يتيح الاختيار وفق ذاكرة GPU المتاحة. يمكن مع KTransformers تشغيل الاستدلال على وحدات GPU للمستهلكين كـ RTX 4090، غير أن تحميل 753B كامل بصيغة BF16 على عقدة واحدة مسألة مختلفة تمامًا.
الحد الأدنى من المتطلبات
يحتاج الحجم الكامل 753B BF16 إلى نحو 1.5TB من VRAM. يستلزم النشر المحلي العملي التكميم بصورة قاطعة: نحو 375GB عند Q4، ونحو 750GB عند Q8. يستلزم ذلك تشغيل توازٍ موزع متعدد العقد (TP)، والنقطة الاعتيادية للانطلاق هي 8 بطاقات H100/A100 أو أكثر.
يتوفر أيضًا خيار الاستخدام عبر واجهة Z.ai API المُستضافة.
من منظور ThakiCloud
ثلاثة محاور تستأثر باهتمامنا في GLM-5.2:
ترخيص MIT. نادرًا ما يُطرح نموذج بحجم 753B تحت رخصة MIT. غياب عبء مراجعة الترخيص عند البناء التجاري المحلي يُخفّض حاجز الاعتماد المؤسسي. يتناقض هذا مع نماذج سلسلتَي Llama وQwen اللتين تحملان “Llama Community License” أو شروطًا خاصة.
انعكاسات DSA على تقدير تكلفة GPU في Kueue. إذا كان توفير FLOPs لكل رمز عند سياق مليون رمز يبلغ 2.9x، فهذا يعني إمكانية معالجة عدد أكبر من التسلسلات بنفس ميزانية GPU. في بيئة تُدار فيها حصص GPU عبر Kueue، تتغير طريقة تقدير تكلفة مهام الدُفعات ذات السياق الطويل. تبرز الحاجة إلى إعادة احتساب ميزانية GPU المبنية على نماذج الانتباه الكثيف وفق مقاييس GLM-5.2.
مسار 29 نسخة GGUF مع KTransformers. إذا كانت وحدات GPU المحلية من فئة RTX لا H100، فإن الجمع بين KTransformers والتكميم بصيغة GGUF يمثل مسارًا خدميًا واقعيًا. وجود 29 نسخة مكممة مرفوعة مسبقًا على HF يُغني عن إجراء تحويلات إضافية. يُخفّض ذلك الحاجز أمام الفرق الصغيرة التي تعمل على أجهزة محدودة وتريد اختبار قدرة السياق مليون رمز.
تستحق GLM-5.2 دراسة جادة من المؤسسات الراغبة في نشر نماذج محلية لمهام طويلة الأفق (تحليل عقود كاملة، وفهم قواعد كود ضخمة، وإنشاء تقارير مطولة). مع ذلك، تظل خدمة النموذج كاملًا بصيغة BF16 753B رهينةً بتوافر مجموعة GPU كبيرة، لذا يبقى اختيار استراتيجية التكميم الملائمة لحجم الاستخدام الفعلي أمرًا بالغ الأهمية.