ثورة التدريب اللاحق: أبرز 10 أوراق بحثية في RL لتطوير الوكلاء
⏱️ وقت القراءة المقدر: 18 دقيقة
مقدمة
يتطور التدريب اللاحق القائم على التعلم المعزز (RL) بسرعة بوصفه التقنية الجوهرية لتحويل النماذج اللغوية الكبيرة إلى وكلاء حقيقيين. في عام 2025، اقترح عدد كبير من المنهجيات المبتكرة في هذا المجال، وتحقّق المجتمع من قيمة كل منها عبر تجارب عملية.
في هذا المقال، نحلل بشكل شامل الأوراق البحثية العشر الأعلى نجومًا على GitHub في التدريب اللاحق القائم على RL لتطوير الوكلاء. من الأساليب التأسيسية لـ GRPO وGMPO إلى الأفكار المبتكرة في تعلم استخدام الأدوات وتحسين السياسة المزدوجة، سنتناول الوضع الراهن ومستقبل تقنية تدريب الوكلاء.
معايير الترتيب والمنهجية
الأوراق المختارة هي الأكثر استقطابًا للاهتمام في مجتمع بحث الذكاء الاصطناعي قياسًا بنجوم GitHub. النجوم ليست مجرد مؤشر شعبية، بل تعكس درجة الاهتمام العملي من الباحثين والمهندسين.
| الترتيب | الورقة البحثية | نجوم GitHub |
|---|---|---|
| 1 | ToolRL | 311 |
| 2 | GMPO | 66 |
| 3 | Pre-DPO | 7 |
| 4 | DRPO | 3 |
| 5 | Multi-Layer GRPO | 0 |
| 6 | mmGRPO (DSPy) | 0 |
| 7 | GTPO/GRPO-S | 0 |
| 8 | ExPO | 0 |
| 9 | Rewarding the Unlikely | 0 |
| 10 | KDRL | 0 |
رغم حصول بعض الأوراق في المراتب الأدنى على صفر نجوم بسبب حداثة نشرها، تقدم جميعها إسهامات جديدة للمجال.
المرتبة الأولى: ToolRL (311 نجمًا)
نظرة عامة
ToolRL إطار لتدريب النماذج اللغوية على الاختيار الاستراتيجي للأدوات الخارجية واستخدامها. حقق أعلى اهتمام مجتمعي بـ 311 نجمًا على GitHub، مُحققًا نتائج مذهلة بشكل خاص في الاستدلال الرياضي.
الابتكار الجوهري
يكمن الابتكار الجوهري لـ ToolRL في تدريب توقيت استخدام الأدوات وطريقته عبر RL. بدلًا من تدريب النموذج على متى يستدعي مفسّر الكود بقواعد ثابتة، يتعلم ذاتيًا من المكافآت على النتائج المثلى.
الإسهامات التقنية الرئيسية:
توليد المسارات المرنة: يمكن للنموذج كتابة الكود وتنفيذه في أي نقطة خلال عملية الاستدلال.
تعلم التعافي من الأخطاء: حتى عند إنتاج أخطاء في تنفيذ الكود، يتعلم النموذج تحليل رسالة الخطأ وإعادة كتابة كود معدّل. تظهر قدرة الإصلاح الذاتي هذه تلقائيًا لا بتعليم صريح.
الاختيار التكيفي للأدوات: يتعلم النموذج اختيار النهج الأمثل وفق خصائص المشكلة.
نتائج الأداء
- AIME2024: دقة 72.5% (تتجاوز OpenAI o1-preview بنسبة 27.9%)
- كفاءة التدريب: دقة 67% في 400 خطوة (مقابل دقة 40% في 1,080 خطوة مع RL النصي فقط)
الأهمية والدلالات
يثبت نجاح ToolRL أن استخدام الأدوات ليس شيئًا يمكن تعلمه عبر الاتباع البسيط للتعليمات، بل يجب اكتسابه من خلال التعلم الحقيقي القائم على النتائج.
المرتبة الثانية: GMPO (66 نجمًا)
نظرة عامة
GMPO (تحسين سياسة متوسط المجموعة) إصدار محسَّن من GRPO يُحسّن استقرار التدريب والأداء من خلال تطبيع مكافأة جماعي أكثر تطورًا.
التفاصيل التقنية
يعاني GRPO الأصلي من عدة مشكلات: تحيّز المكافأة عند عدم توازن توزيعات المكافأة داخل المجموعة، وعدم استقرار التدرج عند كبر التباين داخل المجموعة، وكفاءة عيّنات متدنية في أخذ العيّنات العشوائي.
يحل GMPO هذه المشكلات عبر:
التركيب التكيفي للمجموعات: بدلًا من التركيب العشوائي، تُشكَّل المجموعات بأخذ عينات قائمة على الصعوبة والتنوع.
التطبيع الهرمي للمكافأة: يُطبَّق تطبيع منفصل ليس داخل المجموعات فحسب، بل بين المجموعات أيضًا.
التحديثات القائمة على الزخم: دمج المتوسطات المتحركة من إحصائيات المجموعة السابقة لمنع التقلبات السريعة.
الصياغة الرياضية
هدف التحسين لـ GMPO:
\[J_{GMPO}(\theta) = \mathbb{E}_{g \sim G}[\hat{V}_{DR}(s_g, a_g)]\]حيث $G$ مجموعة المجموعات، و$\hat{V}_{DR}$ مقدّر القيمة المزدوج القوة:
\[\hat{V}_{DR} = \hat{V}_{direct} + \frac{\pi_\theta(a|s)}{\pi_{old}(a|s)}(R - \hat{V}_{direct})\]تحسينات الأداء
مقارنةً بـ GRPO القياسي: تحسين استقرار التدريب بتقليص تباين الخسارة 23%، وتحسين متوسط الأداء عبر المعايير المتنوعة بـ 4.2 نقطة، وتسريع التقارب 15%.
المرتبة الثالثة: Pre-DPO (7 نجوم)
نظرة عامة
Pre-DPO (DPO المعزز بالتدريب المسبق) أسلوب يحسّن أداء DPO بشكل ملحوظ من خلال دمج بيانات التدريب المسبق في عملية تدريب DPO.
صياغة المشكلة
قد يعاني تدريب DPO القياسي من تراجع الأداء في القدرات المكتسبة خلال التدريب المسبق. يعالج Pre-DPO هذه المشكلة بـ:
الهدف المختلط: التحسين المتزامن لكل من هدف DPO وهدف نمذجة اللغة:
\[\mathcal{L}_{Pre-DPO} = \mathcal{L}_{DPO} + \lambda \mathcal{L}_{LM}\]مناهج البيانات: خلط بيانات التدريب المسبق بنسبة محددة في المراحل الأولى من تدريب DPO.
الاستنتاجات الرئيسية
كشفت تجارب Pre-DPO أن DPO القياسي يُخفض الأداء في مهام الاستدلال الشائعة بنسبة 3-7%، وأن Pre-DPO يُلغي هذا التراجع كليًا مع تحسين أداء التوافق في آنٍ واحد.
المرتبة الرابعة: DRPO (3 نجوم)
نظرة عامة
DRPO (تحسين السياسة المزدوج القوة) أسلوب يعزز المتانة بتطبيق تقنية التقدير المزدوج القوة، المعروفة في الاستدلال السببي، على تحسين سياسة النماذج اللغوية.
المقدّر المزدوج القوة
يتمتع المقدّر المزدوج القوة بخاصية تقديم تقديرات متسقة حتى عند خطأ أحد النموذجين:
\[\hat{V}_{DR} = \hat{V}_{direct} + \frac{\pi_\theta(a|s)}{\pi_{old}(a|s)}(R - \hat{V}_{direct})\]متانة نموذج المكافأة: حتى عند وجود أخطاء في نموذج المكافأة، يمكن تعويضها بتصحيح أخذ عينات الأهمية.
التعامل مع انزياح التوزيع: عند وجود انزياح توزيعي كبير بين السياسة الحالية وسياسة المرجع، يمنع تصحيح أخذ عينات الأهمية التقديرات المتحيزة.
النتائج التجريبية
أظهر DRPO تحسينًا متوسطًا بمقدار 3.8 نقطة مقارنةً بـ PPO القياسي عبر معايير متنوعة.
المرتبة الخامسة: Multi-Layer GRPO
نظرة عامة
يُوسّع Multi-Layer GRPO الـ GRPO القياسي بتطبيق إشارات المكافأة على طبقات متعددة في آنٍ واحد.
بنية المكافأة متعددة الطبقات
يوفر GRPO القياسي مكافأةً على مستوى التسلسل فحسب. يوفر Multi-Layer GRPO مكافآت على المستويات التالية أيضًا:
مكافأة مستوى الرمز: مكافأة لكل رمز مولَّد.
مكافأة مستوى الجملة: مكافأة لكل جملة مولَّدة.
مكافأة مستوى الفقرة: مكافأة على مستوى الوحدة المنطقية.
مكافأة مستوى الوثيقة: مكافأة الاستجابة الكاملة النهائية.
الصياغة الرياضية
إجمالي المكافأة في Multi-Layer GRPO:
\[J_{GRPO}(\theta) = \sum_{l \in L} w_l \mathbb{E}_{x,y^l}[r_l(x, y^l)]\]تحليل الأداء
أبدى Multi-Layer GRPO فاعليةً خاصة في مهام توليد النصوص الطويلة:
- الاستجابة في دور واحد: +2.1 نقطة
- الحوار متعدد الأدوار: +4.7 نقطة
- توليد الوثائق الطويلة: +8.3 نقطة
المرتبة السادسة: mmGRPO (DSPy)
نظرة عامة
mmGRPO تنفيذ لـ GRPO مدمج مع إطار DSPy، مصمم بشكل خاص للبيئات متعددة الوسائط.
دمج DSPy
DSPy إطار لتحسين برامج النماذج اللغوية عبر البرمجة التعريفية للنماذج اللغوية. يطبّق mmGRPO تحسين RL بدمج GRPO في حلقة تحسين DSPy.
الميزات الرئيسية: تحسين التعليمات تلقائيًا، والتحسين على مستوى الوحدات، ودعم متعدد الوسائط.
المرتبة السابعة: GTPO وGRPO-S
GTPO (تحسين سياسة المسار الجماعي)
يحسّن GTPO كفاءة GRPO باستخدام معلومات المسار الكاملة بدلًا من التحسين على مستوى الرمز الفردي.
الفوائد: الإسناد طويل المدى، وتنوع المسارات، والتعامل مع المكافآت المتفرقة.
GRPO-S (GRPO مع أخذ عينات انتقائية)
يحسّن GRPO-S كفاءة عينات GRPO عبر أخذ عينات انتقائية. بدلًا من أخذ عينات جماعية عشوائية، يختار العينات الأكثر فائدة للتدريب.
معايير الاختيار: توازن الصعوبة، وتنوع الاستجابات، والاختيار القائم على عدم اليقين.
مقارنة الأداء
| الأسلوب | متوسط الدقة | كفاءة التدريب |
|---|---|---|
| GRPO القياسي | 68.2% | الأساس |
| GTPO | 71.4% | 1.2x |
| GRPO-S | 70.8% | 1.4x |
| GTPO + GRPO-S | 73.1% | 1.5x |
المرتبة الثامنة: ExPO (تحسين سياسة الاستقراء)
نظرة عامة
يُدخل ExPO نهج الاستقراء في التدريب اللاحق للنماذج اللغوية. بدلًا من التحسين المباشر للسياسة الحالية، يدرّب سياسةً تؤدي أداءً يتجاوز نقطة الأداء الأقصى للسياسة الحالية.
آلية الاستقراء
\[\theta_{ExPO} = \theta_{SFT} + \alpha \cdot (\theta_{RL} - \theta_{SFT})\]حيث $\alpha > 1$ هو معامل الاستقراء.
النتائج التجريبية
كان ExPO فعالًا بشكل خاص في مهام الإبداع:
- الكتابة الإبداعية: +9.2 نقطة
- حل المشكلات الجديدة: +7.8 نقطة
- الاستكشاف الرياضي: +5.4 نقطة
المرتبة التاسعة: مكافأة غير المألوف (Rewarding the Unlikely)
نظرة عامة
تقدم هذه الورقة البحثية رؤيةً جديدة في تدريب النماذج اللغوية القائم على RL: الحصول على إشارات مكافأة عالية للاستجابات غير المألوفة أو ذات الاحتمال المنخفض.
الإشكالية الجوهرية
في تدريب RL القياسي، تكون إشارات المكافأة أقوى للاستجابات عالية الاحتمال. تميل هذه الاستجابات إلى تعزيز ما يجيده النموذج أصلًا، مما قد يجعله يتقارب نحو مثاليات محلية.
تقترح “مكافأة غير المألوف” توفير إشارات تعلم مباشرة للاستجابات النادرة ذات القيمة العالية.
استراتيجية التنفيذ
الترجيح بالاحتمال العكسي:
\[w(y) = \frac{1}{\pi_\theta(y|x)} \cdot R(x, y)\]مكافأة التنوع: توفير مكافآت إضافية للاستجابات المختلفة عن غيرها في المجموعة.
النتائج العملية
مقارنةً بـ GRPO القياسي:
- مقاييس التنوع: تحسين تنوع الاستجابة 34%
- حل المشكلات الجديدة: +6.7 نقطة في أنواع مشكلات لم تُرَ من قبل
- التعميم: +4.2 نقطة على المعايير خارج التوزيع
المرتبة العاشرة: KDRL (RL بتقطير المعرفة)
نظرة عامة
KDRL (التعلم المعزز بتقطير المعرفة) أسلوب يجمع بين تقطير المعرفة وRL. ينقل المعرفة من نموذج معلم كبير إلى نموذج طالب صغير مع تطبيق تحسين RL في آنٍ واحد.
الهدف التحسيني المزدوج
\[\mathcal{L}_{KDRL} = \mathcal{L}_{RL} + \beta \cdot \mathcal{L}_{KD}\]حيث $\mathcal{L}_{KD}$ هو خسارة تقطير المعرفة:
\[\mathcal{L}_{KD} = KL(\pi_{student} || \pi_{teacher})\]النتائج
حقق KDRL أداءً مماثلًا للنماذج الأكبر بـ 3 أضعاف مع الحفاظ على حجم نموذج مدمج. يكتسب هذا قيمةً اقتصادية من منظور النشر.
التوليف والاتجاهات
الاتجاهات التقنية المشتركة
يكشف تحليل الأوراق العشر عن عدة اتجاهات تقنية مشتركة:
ابتكار تصميم المكافأة: التحول من مكافآت النتائج النهائية البسيطة نحو مكافآت وسيطة وعملياتية أكثر تفصيلًا.
تحسين كفاءة الاستكشاف: تجاوز الاستكشاف العشوائي نحو استكشاف أكثر هيكلةً وكفاءة.
الاستقرار والمتانة: تُركّز DRPO وPre-DPO وGMPO جميعها على استقرار التدريب ومتانته.
التعلم متعدد الأبعاد: توفير إشارات تعلم عبر أبعاد متعددة من مستوى الرمز إلى مستوى المسار.
تحديات البحث الحالية
اختراق المكافأة: لا يزال مشكلةً غير محلولة حيث تتعلم النماذج استراتيجيات تسجّل درجات مرتفعة على مقاييس المكافأة دون تحسين حقيقي.
قابلية التوسع: لم يُتحقق من فاعلية معظم الأساليب عند التوسع إلى نماذج كبيرة جدًا.
كفاءة العينات: يتطلب تدريب RL لا يزال كميات هائلة من البيانات والحوسبة.
موثوقية التقييم: يمكن التشكيك في مدى دقة المعايير الحالية في عكس القدرات المطلوبة لاستخدام الوكلاء الفعلي.
الاتجاهات المستقبلية
بناءً على الاتجاهات البحثية الحالية، يُتوقع تطور الاتجاهات التالية: RL متعدد الوكلاء، ودمج نماذج العالم، وحلقات التحسين الذاتي، ودمج الذكاء الاصطناعي الدستوري.
دليل التطبيق العملي
الاختيار بحسب حالة الاستخدام
| حالة الاستخدام | الأسلوب الموصى به | السبب |
|---|---|---|
| الاستدلال الرياضي | ToolRL, GMPO | تنفيذ الكود والتحسين الجماعي المستقر |
| المهام متعددة الوسائط | mmGRPO | دعم متعدد الوسائط أصيل |
| توليد النصوص الطويلة | Multi-Layer GRPO | مكافأة متعددة الطبقات للحفاظ على التماسك |
| بيئات الموارد المحدودة | KDRL | نقل معرفة كفء من النماذج الكبيرة |
| المهام الإبداعية | ExPO, Rewarding the Unlikely | التركيز على الاستكشاف المتنوع |
| الأغراض العامة | DRPO, Pre-DPO | الاستقرار ومنع التراجع |
اعتبارات التنفيذ
تصميم المكافأة أولًا: يمكن أن يفشل تدريب RL لأسباب كثيرة، لكن تصميم المكافأة غير الكافي هو الأكثر شيوعًا.
البدء بتجارب صغيرة: إجراء تجارب صغيرة أولًا للتحقق من فاعلية الأسلوب قبل التوسع للتدريب على نطاق واسع.
مراقبة استقرار التدريب: يمكن أن يصبح تدريب RL غير مستقر في أي وقت.
إدارة المقارنة مع الأسس بعناية: ضمان تطابق شروط التقييم ومجموعات البيانات بدقة عند المقارنة مع الأسس.
الخلاصة
يتطور التدريب اللاحق القائم على RL لتطوير الوكلاء بسرعة، مع تقديم كل ورقة بحثية ابتكارات جديدة. تُسهم الأوراق العشر التي حللناها في هذا المقال كل منها بقطع مختلفة في الصورة الكاملة.
أثبت ToolRL أهمية تعلم استخدام الأدوات، وحسّن GMPO استقرار التدريب، وأدخل DRPO المتانة الإحصائية، فيما أسهمت الأساليب الأخرى المتنوعة من زوايا مختلفة.
ما تشترك فيه هذه الأوراق هو الإدراك بأن القدرة الحقيقية للوكلاء لا يمكن تعلمها عبر الاتباع البسيط للتعليمات، بل يجب اكتسابها من خلال التعلم الحقيقي القائم على الخبرة.
تطور تقنية تدريب الوكلاء في عام 2025 لم يبدأ سوى تواً. ستوفر المنهجيات التي أرستها هذه الأوراق أسسًا مهمة لمزيد من الابتكار في المستقبل.