كان تشغيل نموذج بحجم 753 مليار معامل على بطاقة GPU استهلاكية واحدة أمرًا يصعب تخيله قبل بضع سنوات. تُبلّغ حالة شاركها أحدهم مؤخرًا عن تشغيل النموذج مفتوح الأوزان GLM-5.2 (753 مليار، FP8) على GPU استهلاكي من نوع RTX 4090 لأول مرة. يبلغ معدله نحو 10 رموز/ثانية، لكن الجوهر ليس الإنتاجية، بل حقيقة أنه “يعمل”.

نحن في ThakiCloud نتعامل مع خدمة النماذج على منصة SaaS للذكاء الاصطناعي مبنية على K8s. لننظر فيما تعنيه هذه الحالة لاقتصاديات خدمة LLM الكبيرة داخل المؤسسة.

ما الذي جعل ذلك ممكنًا: نقل نواة الانتباه المتناثر

يجمع حشر نموذج كبير في GPU صغير بين تقنيتين.

  • تكميم FP8: تمثيل الأوزان بفاصلة عائمة 8 بت يقلّص البصمة الذاكرية.
  • نقل نواة الانتباه المتناثر DSA إلى معمارية Ada (sm_89): جرى نقل نواة DSA (الانتباه المتناثر) في GLM-5.2 إلى معمارية Ada Lovelace في RTX 4090 (قدرة حوسبة sm_89). يحسب الانتباه المتناثر الأزواج المهمة من الرموز فقط بدلًا من كل زوج، موفّرًا الحوسبة والذاكرة في السياقات الطويلة.

إنتاجية نحو 10 رموز/ثانية بطيئة لخدمة الإنتاج، وبما أن هذا الرقم يأتي من قياس بيئة واحدة لدى الكاتب، فاعتباره [تقديرًا] أدق. المهم هو أن مسارًا لتشغيل نموذج 753 مليار دون بطاقات GPU مخصصة لمراكز البيانات قد انفتح.

ماذا يعني ذلك من منظور عالم/مهندس البيانات

  • نقل النواة يساوي إتاحة الوصول: حين يستخدم نموذج آلية انتباه جديدة، يحدد عمل نقل تلك النواة إلى معماريات GPU المتنوعة مدى إتاحة الوصول. حتى نموذج SOTA يضيّق النظام البيئي إن ظلت نواته مقيدة بعتاد معيّن.
  • التناثر يفك السياق الطويل: الانتباه المتناثر مثل DSA تقنية أساسية لخفض تكلفة الحوسبة والذاكرة في خدمة السياق الطويل. كلما طال السياق، ارتفعت تكلفة الانتباه الكثيف تربيعيًا، بينما يخفف الانتباه المتناثر ذلك.
  • الإنتاجية مفاضلة: 10 رموز/ثانية هو ثمن وضع نموذج كبير على عتاد صغير. تتطلب الخدمة الفعلية اختيار المفاضلة بين حجم النموذج والعتاد والإنتاجية وفق طبيعة عبء العمل.

منظور ThakiCloud: خدمة LLM الكبيرة داخل المؤسسة

السبب الحقيقي لأهمية هذه الحالة هو سيادة البيانات وتوسّع خيارات الخدمة. في المجالات الحساسة، ثمة طلب واضح على تشغيل نماذج SOTA بحجم 753 مليار داخليًا بدلًا من إرسال البيانات إلى واجهة برمجية خارجية. 10 رموز/ثانية على GPU استهلاكي واحد هي مستوى عرض توضيحي، لكن توسيعها عبر عدة بطاقات GPU مع التوازي الدُفعي والموتر يمكن أن يبلغ إنتاجية عملية.

هذا هو المجال الذي نعمل فيه: خدمة النماذج الكبيرة مفتوحة الأوزان مجزّأة عبر عدة بطاقات GPU على K8s، وتوزيع موارد GPU عبر Kueue، ودمج التحسينات الخاصة بكل نموذج مثل نوى الانتباه المتناثر في منظومة خدمة موحّدة. تحويل عرض آلة واحدة إلى خدمة إنتاجية متعددة المستأجرين هو التحدي الجوهري.

خاتمة

تشغيل GLM-5.2 على RTX 4090 إشارة إلى انفتاح مسار خدمة النماذج الكبيرة SOTA داخل المؤسسة. نقل النواة والانتباه المتناثر يصنعان إتاحة الوصول، بينما يفك التكميم قيد الذاكرة. للمهندسين المهتمين بتوسيع هذا إلى بنية خدمة بحجم مؤسسي، فإن هذا النوع من المشكلات هو العمل اليومي.

المصادر

حالة RTX 4090 المنفردة وإنتاجية نحو 10 رموز/ثانية أعلاه هي [تقدير] مبني على تقارير المجتمع، لا معيار رسمي مُتحقَّق منه باستقلال. يؤكد المنشور العام أن DSA (الانتباه المتناثر) مدمج في عائلة GLM-5؛ وتفاصيل الإصدار الفرعي المحدد (5.2) تتبع بطاقات النموذج الرسمية.