التدريب اللاحق OPD: كيف دمج GLM-5.2 أكثر من عشرة نماذج خبيرة في يومين

لم يعد إصدار مختبر من الطراز الرائد للأوزان فقط أمراً غير معتاد. لكن Z.ai (THUDM) خطت خطوة إضافية مع GLM-5.2: إلى جانب الأوزان، فتحت مصدر البنية التحتية الكاملة للتدريب اللاحق بالتعلّم المعزّز (RL) التي بُني بها النموذج. وأبرز ما في الأمر هو طريقة التدريب اللاحق نفسها. تذكر Z.ai أنها دمجت أكثر من عشرة نماذج خبيرة في نموذج GLM-5.2 النهائي خلال نحو يومين. وتسمّي عملية الدمج المتوازي هذه OPD.

في ThakiCloud نشغّل أحمال التدريب وتنسيق وحدات معالجة الرسومات على منصة SaaS للذكاء الاصطناعي وتعلّم الآلة قائمة على K8s. إن نشر “كيف دُرّب النموذج الرائد” بالكامل مرجع نادر لمن يصمم بنية تدريب داخل المؤسسة. يفحص هذا المقال ما هو التدريب اللاحق OPD، وما الذي يتغيّر حين يصبح مكدّس RL بأكمله مفتوحاً.

تناولنا نظرة عامة على إطار التدريب اللاحق slime نفسه في مقال منفصل، التدريب اللاحق بوصفه بنية تحتية: إطار slime مفتوح المصدر وتوسيع التعلّم المعزّز. يركّز هذا المقال على التدريب اللاحق OPD ودمج النماذج الخبيرة الذي يعمل فوقه.

تجريدي: التدريب اللاحق الموزّع بالتعلم المعزز ودمج النماذج

ما نوع نموذج GLM-5.2

أولاً، النموذج المستهدف. GLM-5.2 نموذج مفتوح الأوزان بحجم 753B. يستهدف المهام طويلة الأفق ويدعم سياقاً بطول مليون رمز (1M). تذكر Z.ai أن تقنية تُسمى IndexShare تخفض عدد عمليات FLOPs لكل رمز بمقدار 2.9 مرة عند طول سياق يبلغ مليون رمز. أي أن التصميم يهدف إلى التعامل مع السياقات الطويلة مع كبح كلفة الاستدلال.

تُظهر أرقام القياس موضعه. في Terminal-Bench 2.1 الذي يقيّم مهام البرمجة، سجّل 81.0 ملاحقاً 85.0 لـ Claude Opus 4.8. وفي SWE-bench Pro بلغ 62.1 مرتفعاً عن 58.4 في الإصدار السابق GLM-5.1. وفي FrontierSWE الذي يقيس العمل طويل الأفق، تقلّصت الفجوة مع Opus 4.8 إلى نحو 1%. النقطة الأساسية هي نموذج مفتوح الأوزان قلّص الفجوة مع النماذج الرائدة المغلقة إلى خانة الآحاد. الترخيص MIT، وهو متاح على HuggingFace و ModelScope.

ثقل هذه الحالة أن “كيف دُرّب نموذج بهذا المستوى” أصبح متاحاً للعموم.

ما هو التدريب اللاحق OPD

OPD هو طريقة التدريب والدمج المتوازي المستخدمة في مرحلة التدريب اللاحق لـ GLM-5.2. الفكرة بسيطة لكنها متطلّبة على مستوى البنية التحتية. فبدلاً من تدريب نموذج عملاق واحد على كل القدرات دفعة واحدة بالتعلّم المعزّز، تدرّب عدة نماذج خبيرة لكل قدرة على حدة بالتعلّم المعزّز ثم تدمجها في نموذج نهائي واحد.

وفق تقرير Z.ai، استخدم التدريب اللاحق لـ GLM-5.2 إطار slime لتشغيل تدريب OPD متوازٍ، ودمج أكثر من عشرة نماذج خبيرة في النموذج النهائي، واستغرقت عملية OPD كاملةً نحو يومين. هنا يبرز رقمان. أكثر من عشرة نماذج خبيرة يعني أن قدرات مثل البرمجة والسلوك الوكيلي والاستدلال فُصلت ورُفع مستوى كلٍّ منها بالتعلّم المعزّز. ونحو يومين يعني أن تدريب هذا العدد من الخبراء ودمجهم جرى في زمن عملي وليس طويلاً على نحو غير واقعي. (لم يُؤكَّد التفسير الدقيق لاختصار OPD صراحةً في المادة الرسمية، لذا لا نجزم به هنا. الحقائق المتحقَّقة هي سلوك “تدريب الخبراء بالتوازي ثم الدمج” والأرقام أعلاه.)

المزايا العملية لهذا النهج واضحة.

التوازي: تدريب الخبراء لكل قدرة باستقلالية يوزّع العمل. يمكنك استخدام مجمّع وحدات المعالجة على نطاق أوسع مقارنةً بتدريب نموذج عملاق واحد على كل المجالات تسلسلياً.
تصميم مكافأة معزول: للبرمجة والاستدلال إشارات مكافأة مختلفة. يتيح الفصل منح كل مجال مكافأته ومدقّقه الخاص، ويحصر أثر اختراق المكافأة داخل خبير واحد.
سرعة التكرار: حين تصلح بيانات أو مكافأة مجال واحد، لا تحتاج إلى إعادة تشغيل كل شيء. تعيد تدريب ذلك الخبير فقط وتحدّث خطوة الدمج.

وتأتي الصعوبات معها. فعند دمج عدة خبراء في واحد قد تتداخل القدرات أو يلغي بعضها بعضاً. وإذا لم يكن الدمج متوسطاً بسيطاً للأوزان بل تضمّن عملية تدريب منفصلة، فإن الدمج نفسه يصبح مرحلة تدريب لاحق أخرى. ولعلّ سبب وصف Z.ai له بـ “تدريب OPD المتوازي” هو أن الدمج يتجاوز المتوسط الحسابي البسيط.

slime: البنية التحتية مفتوحة المصدر للتعلّم المعزّز خلف OPD

الأساس الذي جعل OPD ممكناً هو slime. وهو إطار تدريب لاحق لنماذج اللغة من أجل توسيع التعلّم المعزّز، صادر برخصة Apache-2.0. ينقسم هيكله إلى ثلاثة أجزاء.

التدريب (Megatron): يتولّى حلقة تدريب السياسة، ويقرأ من مخزن البيانات (Data Buffer).
التوليد (SGLang + موجّه): يولّد بيانات جديدة ويخزّنها مجدداً في المخزن.
مخزن البيانات (Data Buffer): يدير تهيئة المطالبات وتدفقات توليد البيانات المخصّصة.

المبدأ التصميمي الذي يؤكّد عليه slime هو كونه غير متزامن ومفكوك الارتباط. تتدفّق عمليات تدريب Megatron وتوليد SGLang وتوليد البيانات المخصّص وحساب المكافأة وتغذية المدقّق والتفاعل مع البيئة كلها عبر المسار نفسه للتدريب والتوليد. يصعب التدريب اللاحق بالتعلّم المعزّز على مستوى البنية التحتية تحديداً لأن الاستدلال (التوليد) والتدريب (التحديث) يتناوبان في حلقة واحدة. يفصل slime بينهما ليُجدوَل كلٌّ بما يلائم ملف موارده.

ونطاق النماذج المدعومة واسع. يدعم سلسلة Qwen (Qwen3.6، Qwen3.5، Qwen3Next، Qwen3MoE، Qwen3، Qwen2.5)، وسلسلة DeepSeek V3 (V3، V3.1، R1)، و Llama 3. واستخدامه في تدريب نماذج رائدة فعلية من GLM 4.5 حتى 5.2 يمنح ثقة بأنه شيفرة مجرّبة ميدانياً.

يتبع التثبيت أسلوب حزم بايثون القياسي. يتضمّن المستودع requirements.txt وsetup.py وpyproject.toml، ويوفّر بيئة حاويات عبر مجلد /docker. غير أن تشغيل تدريب لاحق حقيقي بالتعلّم المعزّز يتطلّب وحدات معالجة رسومات كثيرة، لذا لا يعيد هذا المقال إنتاج التدريب مباشرةً بل يركّز على تحليل الحقائق المنشورة والهيكل. إن تلفيق أرقام على محطة عمل واحدة سيكون تشويهاً، لذا لم نفعل.

ماذا يعني أن يكون مكدّس RL بأكمله مفتوحاً

إصدار الأوزان وإصدار البنية التحتية للتدريب لهما ثقل مختلف. فبالأوزان وحدها يمكنك تشغيل الاستدلال، لكن طريق إعادة التدريب اللاحق بالتعلّم المعزّز لمجالك يبقى مغلقاً. وعلى العكس، حين تُفتح البنية التحتية للتدريب أيضاً، يصبح ما يلي ممكناً.

قابلية إعادة الإنتاج: يمكنك تتبّع إجراء التدريب اللاحق المُبلَّغ عنه على مستوى الشيفرة. ما تحصل عليه خط أنابيب قابل للتنفيذ، لا شكل في ورقة بحثية.
التكيّف مع المجال: فوق مكدّس RL المفتوح، يمكنك تدريب الخبراء ودمجهم ببياناتك ومكافآتك الخاصة. يصبح الفصل بحسب القدرة على نمط OPD قابلاً للتطبيق على مجالك.
التحكّم بالكلفة: يمكنك تشغيل التدريب اللاحق داخل المؤسسة بدلاً من تسليم التدريب لواجهة برمجة خارجية. ولأن البيانات لا تخرج، فهذا يساعد أيضاً في الامتثال التنظيمي.

النقطة الجوهرية أن “كيف تُصنع النماذج الرائدة” لم يعد معرفة مغلقة بل هندسة منشورة. وهذا يخفض بشدة حاجز الدخول للمؤسسات التي تريد صقل النماذج ببنيتها الخاصة.

التطبيق على منصة ThakiCloud SaaS على K8s

الصورة التي يرسمها OPD و slime تتطابق تماماً مع مشكلات بنية التدريب التي نتعامل معها على K8s.

الأول هو تنسيق وحدات المعالجة. لتدريب أكثر من عشرة خبراء بالتوازي مثل OPD، عليك جدولة مهام تدريب كثيرة في آن واحد، وداخل كل مهمة وضع أحمال مختلفة الطابع، التوليد (استدلال) وتحديث السياسة (تدريب)، على مجمّع الوحدات نفسه. تدير ThakiCloud طوابير مهام وحدات المعالجة وحصصها عبر Kueue، لذا فإن بنية إطلاق تدريب كل خبير كمهمة مستقلة بأولوية وسقوف موارد محدّدة تتلاءم بطبيعتها. ويتطابق تصميم slime غير المتزامن مفكوك الارتباط جيداً مع نمط K8s لتوسيع حاضنات (pods) التوليد وحاضنات التدريب كلٍّ على حدة.

الثاني هو التدريب اللاحق متعدد المستأجرين. تشغّل منصّتنا أحمالاً عبر بيئات عملاء كثيرة. يشبه تدريب OPD المنفصل للخبراء سير عمل يدرّب خبراء لكل مستأجر ولكل مجال ثم يدمجهم. يمكننا دراسة تصاميم تعزل تدريب الخبراء كي لا تختلط بيانات العملاء، وتنفّذ خطوة الدمج فقط في بيئة محكومة.

الثالث هو الاقتصاد داخل المؤسسة. إذا كان مكدّس التدريب اللاحق مفتوح المصدر والنموذج المستهدف مرخّصاً بـ MIT، فيُفتح طريق لصقل نماذج متخصّصة بالمجال داخل المؤسسة دون خدمة تدريب خارجية. وبالنسبة للعملاء الذين لا يستطيعون تصدير البيانات، ومن يجب أن يتحكّموا بالكلفة، ومن لديهم متطلبات أمنية داخلية قوية، يصبح ذلك ميزة منتج. وهو على الخط نفسه لاتجاه الاستضافة الذاتية وكفاءة الكلفة الذي أكّدنا عليه.

إن إعادة إنتاج OPD كاملاً فوراً مهمة ثقيلة تحتاج وحدات معالجة كثيرة. ومع ذلك، فإن إطلاق تدريب لاحق صغير قائم على slime كمهمة Kueue للتحقق من خط الأنابيب، ثم التوسّع التدريجي في أنماط التشغيل المكتسبة منه، خارطة طريق واقعية.

القيود والاعتراضات

من باب التوازن، نذكر نقاط الضعف أيضاً.

أكبر قيد هو حدود التحقق. فرقما “أكثر من عشرة خبراء” و”نحو يومين” تقرير Z.ai الذاتي، وليسا نتائج أعاد إنتاجها طرف خارجي مستقل. والتعريف الدقيق لاختصار OPD وتفاصيل خوارزمية الدمج لا تتكشّف بالكامل بالمادة العامة وحدها. لذا فهذا التحليل تفسير مبني على السلوك والأرقام المنشورة، وقد تجنّبنا الجزم بالآلية الداخلية.

وجدار الحجم واضح أيضاً. كون البنية مفتوحة لا يعني أن أي أحد يمكنه التدريب اللاحق لنموذج بحجم 753B. فتدريب الخبراء بالتوازي ودمجهم يتطلّب وحدات معالجة وبيانات وخبرة في تصميم المكافأة بقدر كبير. تخفض المصادر المفتوحة حاجز الدخول لكنها لا تزيل حاجز الموارد.

والدمج نفسه يحمل مخاطرة. فعند دمج خبراء كل بحسب قدرته قد تتآكل قدرة لصالح أخرى، وقد تنحرف درجات القياس عن قابلية الاستخدام الفعلية. وقد يُظهر نموذج مدموج من عدة خبراء سلوكاً يصعب التنبؤ به في تركيبات معيّنة.

ومع ذلك، الاتجاه واضح. إن اتجاه نشر إجراءات تدريب النماذج الرائدة بصيغة قابلة للتنفيذ يوسّع فعلياً خيارات المؤسسات التي تريد تشغيل النماذج ببنيتها الخاصة. وهذا أصدق بالنسبة لمنصة مثل منصتنا تتعامل مع التدريب والخدمة معاً على K8s.

التدريب اللاحق OPD: كيف دمج GLM-5.2 أكثر من عشرة نماذج خبيرة في يومين

ما نوع نموذج GLM-5.2

ما هو التدريب اللاحق OPD

slime: البنية التحتية مفتوحة المصدر للتعلّم المعزّز خلف OPD

ماذا يعني أن يكون مكدّس RL بأكمله مفتوحاً

التطبيق على منصة ThakiCloud SaaS على K8s

القيود والاعتراضات

المصادر

참고

Fable 5가 구독에서 빠지는 날, 우리가 다시 생각해야 할 것

로컬 LLM 추론의 ‘바이블’: 하드웨어를 먼저 정하면 엔진은 따라옵니다

GLM-5.2: GPT-5.5를 넘은 MIT 오픈웨이트, 그리고 소버린 서빙의 기회

OPD 사후학습: GLM-5.2는 어떻게 10개 넘는 전문가 모델을 이틀 만에 합쳤나