753 مليار وزن مفتوح على GPU استهلاكي: GLM-5.2 واقتصاديات خدمة LLM داخل المؤسسة

كان تشغيل نموذج بحجم 753 مليار معامل على بطاقة GPU استهلاكية واحدة أمرًا يصعب تخيله قبل بضع سنوات. تُبلّغ حالة شاركها أحدهم مؤخرًا عن تشغيل النموذج مفتوح الأوزان GLM-5.2 (753 مليار، FP8) على GPU استهلاكي من نوع RTX 4090 لأول مرة. يبلغ معدله نحو 10 رموز/ثانية، لكن الجوهر ليس الإنتاجية، بل حقيقة أنه “يعمل”.

نحن في ThakiCloud نتعامل مع خدمة النماذج على منصة SaaS للذكاء الاصطناعي مبنية على K8s. لننظر فيما تعنيه هذه الحالة لاقتصاديات خدمة LLM الكبيرة داخل المؤسسة.

ما الذي جعل ذلك ممكنًا: نقل نواة الانتباه المتناثر

يجمع حشر نموذج كبير في GPU صغير بين تقنيتين.

تكميم FP8: تمثيل الأوزان بفاصلة عائمة 8 بت يقلّص البصمة الذاكرية.
نقل نواة الانتباه المتناثر DSA إلى معمارية Ada (sm_89): جرى نقل نواة DSA (الانتباه المتناثر) في GLM-5.2 إلى معمارية Ada Lovelace في RTX 4090 (قدرة حوسبة sm_89). يحسب الانتباه المتناثر الأزواج المهمة من الرموز فقط بدلًا من كل زوج، موفّرًا الحوسبة والذاكرة في السياقات الطويلة.

إنتاجية نحو 10 رموز/ثانية بطيئة لخدمة الإنتاج، وبما أن هذا الرقم يأتي من قياس بيئة واحدة لدى الكاتب، فاعتباره [تقديرًا] أدق. المهم هو أن مسارًا لتشغيل نموذج 753 مليار دون بطاقات GPU مخصصة لمراكز البيانات قد انفتح.

ماذا يعني ذلك من منظور عالم/مهندس البيانات

نقل النواة يساوي إتاحة الوصول: حين يستخدم نموذج آلية انتباه جديدة، يحدد عمل نقل تلك النواة إلى معماريات GPU المتنوعة مدى إتاحة الوصول. حتى نموذج SOTA يضيّق النظام البيئي إن ظلت نواته مقيدة بعتاد معيّن.
التناثر يفك السياق الطويل: الانتباه المتناثر مثل DSA تقنية أساسية لخفض تكلفة الحوسبة والذاكرة في خدمة السياق الطويل. كلما طال السياق، ارتفعت تكلفة الانتباه الكثيف تربيعيًا، بينما يخفف الانتباه المتناثر ذلك.
الإنتاجية مفاضلة: 10 رموز/ثانية هو ثمن وضع نموذج كبير على عتاد صغير. تتطلب الخدمة الفعلية اختيار المفاضلة بين حجم النموذج والعتاد والإنتاجية وفق طبيعة عبء العمل.

منظور ThakiCloud: خدمة LLM الكبيرة داخل المؤسسة

السبب الحقيقي لأهمية هذه الحالة هو سيادة البيانات وتوسّع خيارات الخدمة. في المجالات الحساسة، ثمة طلب واضح على تشغيل نماذج SOTA بحجم 753 مليار داخليًا بدلًا من إرسال البيانات إلى واجهة برمجية خارجية. 10 رموز/ثانية على GPU استهلاكي واحد هي مستوى عرض توضيحي، لكن توسيعها عبر عدة بطاقات GPU مع التوازي الدُفعي والموتر يمكن أن يبلغ إنتاجية عملية.

هذا هو المجال الذي نعمل فيه: خدمة النماذج الكبيرة مفتوحة الأوزان مجزّأة عبر عدة بطاقات GPU على K8s، وتوزيع موارد GPU عبر Kueue، ودمج التحسينات الخاصة بكل نموذج مثل نوى الانتباه المتناثر في منظومة خدمة موحّدة. تحويل عرض آلة واحدة إلى خدمة إنتاجية متعددة المستأجرين هو التحدي الجوهري.

خاتمة

تشغيل GLM-5.2 على RTX 4090 إشارة إلى انفتاح مسار خدمة النماذج الكبيرة SOTA داخل المؤسسة. نقل النواة والانتباه المتناثر يصنعان إتاحة الوصول، بينما يفك التكميم قيد الذاكرة. للمهندسين المهتمين بتوسيع هذا إلى بنية خدمة بحجم مؤسسي، فإن هذا النوع من المشكلات هو العمل اليومي.

المصادر

بطاقة نموذج GLM-5 (Zhipu AI / Z.ai، zai-org): https://huggingface.co/zai-org/GLM-5
بطاقة نموذج GLM-4.6 (مرجع الجيل السابق): https://huggingface.co/zai-org/GLM-4.6
وثائق معمارية GLM-4.5 / 4.6 / MoE (Hugging Face Transformers): https://huggingface.co/docs/transformers/model_doc/glm4_moe

حالة RTX 4090 المنفردة وإنتاجية نحو 10 رموز/ثانية أعلاه هي [تقدير] مبني على تقارير المجتمع، لا معيار رسمي مُتحقَّق منه باستقلال. يؤكد المنشور العام أن DSA (الانتباه المتناثر) مدمج في عائلة GLM-5؛ وتفاصيل الإصدار الفرعي المحدد (5.2) تتبع بطاقات النموذج الرسمية.

753 مليار وزن مفتوح على GPU استهلاكي: GLM-5.2 واقتصاديات خدمة LLM داخل المؤسسة

ما الذي جعل ذلك ممكنًا: نقل نواة الانتباه المتناثر

ماذا يعني ذلك من منظور عالم/مهندس البيانات

منظور ThakiCloud: خدمة LLM الكبيرة داخل المؤسسة

خاتمة

المصادر

참고

에이전트 AI를 처음부터 시스템까지 한 권으로: ‘The Hitchhiker’s Guide to Agentic AI’를 읽었습니다

OpenRouter 점유율 역전이 말하는 것: 토큰은 매출이 아니다, 그리고 모델 중립의 값어치

빅테크 GPU 과투자의 진짜 논리: 비대칭 보험과 다음 세대 톨게이트

GLM-5.2 469B를 NVFP4로 한 노드에 올리기: vLLM 서빙 레시피를 뜯어봤습니다