GLM-5.2: دليل خدمة النشر المحلي لنموذج MoE بحجم 753B وسياق مليون رمز ورخصة MIT

⏱️ وقت القراءة المقدر: 7 دقائق

مخطط مفاهيمي لـ GLM-5.2

ما الذي يميز GLM-5.2؟

GLM-5.2 هو نموذج MoE بحجم إجمالي 753B معامل، أصدرته Z.ai (المعروفة سابقًا بـ Zhipu AI). يمكن الوصول إليه عبر مستودع HuggingFace zai-org/GLM-5.2، وترخيصه MIT.

أبرز ما يميز هذا النموذج هو قدرته على معالجة سياق بطول مليون رمز بتكلفة FLOPs عملية. ثمة نماذج كثيرة تدّعي دعم سياق مليون رمز، إلا أن تكلفة الاستدلال الفعلية تصبح عائقًا حقيقيًا. يعالج GLM-5.2 هذه المعضلة مباشرة عبر آلية انتباه تُعرف بـ DSA (Dynamic Sparse Attention).

البنية المعمارية: DSA وIndexShare

جوهر GLM-5.2 هو بنية glm_moe_dsa. تعتمد DSA أسلوب IndexShare، إذ تتشارك أربع طبقات sparse attention متجاورة نفس المُفهرس (indexer).

يبلغ تعقيد الانتباه الكثيف التقليدي (dense self-attention) على طول تسلسل $L$ درجةَ $O(L^2)$. تتضاعف هذه التكلفة تضاعفًا حادًا حين يتجاوز الطول 128K رمز. يُخفف الانتباه المتفرق من ذلك بجعل كل رمز ينتبه فقط إلى مواقع مختارة لا إلى المجموع الكلي. تُشير بطاقة النموذج على HF إلى أن DSA في GLM-5.2 توفر 2.9x في FLOPs لكل رمز عند سياق مليون رمز.

يتضمن النموذج كذلك تحسينات في الترميز التخميني (speculative decoding). تُقدَّم أرقام تشير إلى أن معدل القبول (acceptance rate) يرتفع بنسبة تصل إلى 20% بفضل MTP (Multi-Token Prediction)، وهو تحسين ينعكس مباشرة على معدل الإنتاجية أثناء الخدمة.

أنواع البيانات المدعومة هي BF16 وF32، أما عدد المعاملات النشطة فلم يُذكر في بطاقة النموذج المتاحة للعموم.

المعايير

فيما يلي الأرقام المستخرجة من بطاقة النموذج على HF:

المعيار	GLM-5.2
HLE	40.5
HLE w/Tools	54.7
AIME 2026	99.2
SWE-bench Pro	62.1
Terminal Bench 2.1	82.7
MCP-Atlas (Public)	76.8

نتيجة 99.2 على AIME 2026 مرتفعة جدًا في مجال الاستدلال الرياضي. أما SWE-bench Pro 62.1 فتعكس الأداء على مهام هندسة البرمجيات الفعلية، وMCP-Atlas 76.8 يعكس سيناريوهات استخدام الأدوات.

HLE (Humanity’s Last Exam) بدون أدوات 40.5 يقفز إلى 54.7 مع الأدوات. يدل ذلك على فاعلية ربط النموذج بعوامل الكود أو خطوط أنابيب استخدام الأدوات.

الخدمة والنشر

أطر العمل المدعومة

الأطر المدعومة رسميًا هي:

vLLM الإصدار 0.23.0 أو أحدث
SGLang الإصدار 0.5.13.post1 أو أحدث
Transformers الإصدار 0.5.12 أو أحدث (HF)
KTransformers (خدمة مُكممة على وحدات GPU للمستهلكين)
Unsloth (تشمل الضبط الدقيق)
Ascend NPU (دعم وحدات NPU من Huawei)

أشكال التكميم

رُفعت على HF Hub 29 نسخة مكممة تشمل GGUF. توفر خيارات بتات متعددة منها Q4_K_M وQ8_0، مما يتيح الاختيار وفق ذاكرة GPU المتاحة. يمكن مع KTransformers تشغيل الاستدلال على وحدات GPU للمستهلكين كـ RTX 4090، غير أن تحميل 753B كامل بصيغة BF16 على عقدة واحدة مسألة مختلفة تمامًا.

الحد الأدنى من المتطلبات

يحتاج الحجم الكامل 753B BF16 إلى نحو 1.5TB من VRAM. يستلزم النشر المحلي العملي التكميم بصورة قاطعة: نحو 375GB عند Q4، ونحو 750GB عند Q8. يستلزم ذلك تشغيل توازٍ موزع متعدد العقد (TP)، والنقطة الاعتيادية للانطلاق هي 8 بطاقات H100/A100 أو أكثر.

يتوفر أيضًا خيار الاستخدام عبر واجهة Z.ai API المُستضافة.

من منظور ThakiCloud

ثلاثة محاور تستأثر باهتمامنا في GLM-5.2:

ترخيص MIT. نادرًا ما يُطرح نموذج بحجم 753B تحت رخصة MIT. غياب عبء مراجعة الترخيص عند البناء التجاري المحلي يُخفّض حاجز الاعتماد المؤسسي. يتناقض هذا مع نماذج سلسلتَي Llama وQwen اللتين تحملان “Llama Community License” أو شروطًا خاصة.

انعكاسات DSA على تقدير تكلفة GPU في Kueue. إذا كان توفير FLOPs لكل رمز عند سياق مليون رمز يبلغ 2.9x، فهذا يعني إمكانية معالجة عدد أكبر من التسلسلات بنفس ميزانية GPU. في بيئة تُدار فيها حصص GPU عبر Kueue، تتغير طريقة تقدير تكلفة مهام الدُفعات ذات السياق الطويل. تبرز الحاجة إلى إعادة احتساب ميزانية GPU المبنية على نماذج الانتباه الكثيف وفق مقاييس GLM-5.2.

مسار 29 نسخة GGUF مع KTransformers. إذا كانت وحدات GPU المحلية من فئة RTX لا H100، فإن الجمع بين KTransformers والتكميم بصيغة GGUF يمثل مسارًا خدميًا واقعيًا. وجود 29 نسخة مكممة مرفوعة مسبقًا على HF يُغني عن إجراء تحويلات إضافية. يُخفّض ذلك الحاجز أمام الفرق الصغيرة التي تعمل على أجهزة محدودة وتريد اختبار قدرة السياق مليون رمز.

تستحق GLM-5.2 دراسة جادة من المؤسسات الراغبة في نشر نماذج محلية لمهام طويلة الأفق (تحليل عقود كاملة، وفهم قواعد كود ضخمة، وإنشاء تقارير مطولة). مع ذلك، تظل خدمة النموذج كاملًا بصيغة BF16 753B رهينةً بتوافر مجموعة GPU كبيرة، لذا يبقى اختيار استراتيجية التكميم الملائمة لحجم الاستخدام الفعلي أمرًا بالغ الأهمية.

GLM-5.2: دليل خدمة النشر المحلي لنموذج MoE بحجم 753B وسياق مليون رمز ورخصة MIT

ما الذي يميز GLM-5.2؟

البنية المعمارية: DSA وIndexShare

المعايير

الخدمة والنشر

أطر العمل المدعومة

أشكال التكميم

الحد الأدنى من المتطلبات

من منظور ThakiCloud

참고

SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)

코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)

Autogenesis: 에이전트가 스스로를 고치는 자기진화 프로토콜 (arXiv:2604.15034)