أهم 10 اتجاهات بحثية في التدريب اللاحق للتعلم المعزز 2025: من GLM-4.5 إلى RLUF
⏱️ وقت القراءة المقدر: 15 دقيقة
مقدمة: آفاق جديدة في التدريب اللاحق للتعلم المعزز 2025
شهد النصف الأول من عام 2025 موجة ابتكار غير مسبوقة في التدريب اللاحق القائم على التعلم المعزز (RL Post-Training). تجاوزاً للتعلم المعزز البسيط القائم على التغذية الراجعة البشرية (RLHF)، ظهرت تقنيات متنوعة تسعى لتعزيز القدرات الوكيلة والتعلم ذاتي التغذية الراجعة والاستقرار والكفاءة في آن واحد.
تقدم هذه المقالة تحليلاً معمقاً لـ 10 أوراق بحثية رئيسية في التدريب اللاحق للتعلم المعزز نُشرت منذ أبريل 2025، مختارة بناءً على الشعبية والتأثير. الهدف هو تقديم رؤى يمكن الاستفادة منها مباشرة في الممارسة العملية، من الأفكار الأساسية لكل بحث إلى قابلية التطبيق العملي.
جدير بالذكر بشكل خاص هو الجمع بين هندسة MoE واسعة النطاق لـ GLM-4.5 مع التعلم اللاحق للتعلم المعزز، وتقنيات الاستقرار على مستوى التسلسل GSPO المقترحة من فريق Qwen، والتعلم ذاتي التغذية الراجعة الممكن دون وسم خارجي، والتي تمثل مناهج مبتكرة يمكن أن تغير نماذج الصناعة.
المراكز 1-5: الهندسات المبتكرة وتقنيات الاستقرار
المركز الأول: GLM-4.5 - معيار جديد للذكاء الاصطناعي الوكيل (2025-08-08)
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models هو واحد من أبرز الأوراق البحثية في النصف الثاني من عام 2025. هذا النموذج، القائم على هندسة خليط الخبراء (MoE) بـ 355 مليار معامل، حقق أداءً متفوقاً في المعايير المرجعية للقدرات الوكيلة والاستدلال والبرمجة من خلال التدريب اللاحق للتعلم المعزز واسع النطاق.
نقاط الابتكار الأساسية
أهم ابتكار في GLM-4.5 هو تحسين الأداء في القدرات الوكيلة من خلال التعلم اللاحق للتعلم المعزز واسع النطاق من البداية إلى النهاية. تجاوزاً لتحسين توليد النص البسيط، بنى إطار تعلم معزز متخصص للمهام الوكيلة التي تتطلب استدلالاً متعدد الخطوات معقداً واستخدام الأدوات.
منهجية التقييم في المعايير المرجعية الوكيلة مثل TAU-Bench تقدم أفكاراً جديدة لتصميم مؤشرات الأداء الرئيسية للممارسين. تجاوزاً للدقة البسيطة أو درجات BLEU، بنى نظاماً يقيم بشكل شامل كفاءة استخدام أدوات الوكيل الفعلية، والاتساق المنطقي للاستدلال متعدد الخطوات، ودقة فهم نوايا المستخدم.
نقاط التطبيق العملي
نتائج بحث GLM-4.5 تقدم الآثار التالية عند بناء أنظمة الذكاء الاصطناعي الوكيلة في البيئات المؤسسية: تصميم المعايير المرجعية بتطبيق أنظمة التقييم متعددة الأبعاد على غرار TAU-Bench كمؤشرات أداء رئيسية داخلية، وخطوط أنابيب التدريب التي تضمن استقرار التعلم المعزز في هندسات MoE، ومراقبة الأداء بتطوير مقاييس تقييم نوعية لسلوك الوكيل.
المركز الثاني: GSPO - اختراق في الاستقرار على مستوى التسلسل (2025-07-24)
تحسين سياسة التسلسل الجماعي (GSPO) هو تقنية استقرار مبتكرة اقترحها فريق Qwen تحل القيود الأساسية لـ GRPO الموجود (تحسين السياسة النسبية الجماعية).
جوهر الابتكار التقني
جوهر GSPO هو قطع نسبة الأهمية على مستوى التسلسل وليس على مستوى الرمز المميز. رياضياً، خسارة GSPO تساوي التوقع على المسارات المأخوذة من السياسة للحد الأدنى بين نسبة الأهمية مضروبة في الميزة ونسبة الأهمية المقطوعة مضروبة في الميزة.
هنا، نسبة الأهمية للتسلسل tau ودالة الميزة A(tau) تمكن الاستقرار مع مراعاة سياق التسلسل بأكمله، على عكس القطع التقليدي على مستوى الرمز المميز.
الحل الأساسي لمشاكل الاستقرار
GSPO منع بفعالية تباعد التدريب وانهيار الأداء، وهما مشكلتان رئيسيتان في GRPO، من خلال القطع على مستوى التسلسل. مكّن بشكل خاص من التحكم المستقر في ظواهر انفجار التدرج التي تحدث بكثرة في نماذج MoE الكبيرة.
دليل التنفيذ العملي
تم تطبيق GSPO فعلياً على خط Qwen3 مع فعالية مؤكدة. يمكن للممارسين النظر في التنفيذ من خلال الخطوات التالية: تشخيص خطوط أنابيب GRPO الموجودة لمشاكل استقرار التدريب، وبناء مقاييس تقييم على مستوى التسلسل تتجاوز مستوى الرمز المميز، والتنفيذ التدريجي بدءاً من النماذج الصغيرة قبل التوسع إلى النماذج الكبيرة.
المركز الثالث: GTPO & GRPO-S - علم تخصيص الائتمان الدقيق (2025-08-18)
GTPO (تحسين سياسة الرمز المميز الجماعي) و GRPO-S يتعاملان مباشرة مع واحدة من أصعب المشاكل في التعلم المعزز: مشكلة تخصيص الائتمان.
طبيعة مشكلة تخصيص الائتمان
القيد الأساسي لخوارزميات سلسلة GRPO الموجودة كان تخصيص الائتمان الخشن. كان من الصعب تحديد الرموز المميزة التي ساهمت فعلياً في المكافآت النهائية في التسلسلات الطويلة بدقة. GTPO يحل هذا بمكافآت على مستوى الرمز المميز مرجحة بالإنتروبيا.
مكافأة GTPO في الوقت t تساوي مكافأة المسار مضروبة في نسبة إنتروبيا السياسة في تلك الخطوة الزمنية إلى مجموع إنتروبيات السياسة عبر جميع الخطوات الزمنية. هنا، إنتروبيا السياسة في الوقت t تمثل عدم اليقين في تلك نقطة القرار. الفكرة هي تخصيص المزيد من الائتمان للنقاط الزمنية ذات الإنتروبيا الأعلى (نقاط القرار ذات عدم اليقين الأكبر).
الابتكار في الاستدلال طويل الشكل
فعالية GTPO ممتازة بشكل خاص في استدلال سلسلة الفكر (CoT). قدمت إجابات رياضية وتجريبية للسؤال الأساسي “أين يجب إعطاء المكافآت لتحسين قدرة الاستدلال.”
GRPO-S هو نسخة خفيفة الوزن من GTPO تحافظ على دقة تخصيص الائتمان مع تقليل التعقيد الحاسوبي من خلال التقريب على مستوى التسلسل.
المركز الرابع: RLSF - ثورة في التغذية الراجعة الذاتية (2025-07-29)
التعلم المعزز من التغذية الراجعة الذاتية (RLSF) هو نهج مبتكر يمكّن التعلم المعزز دون وسم خارجي أو نماذج مكافأة.
نظام المكافأة القائم على الثقة الذاتية
الفكرة الأساسية لـ RLSF هي استخدام ثقة النموذج الذاتية كمكافأة جوهرية. عندما تظهر النماذج ثقة عالية في مخرجاتها، تُعطى مكافآت إيجابية؛ عندما تظهر ثقة منخفضة، تُعطى مكافآت سلبية.
تُحسب الثقة كمتوسط قيم الاحتمال الأقصى في كل نقطة توليد رمز مميز، مما يمثل مدى ثقة النموذج في اختياراته.
تحقيق التعلم منخفض التكلفة عالي الكفاءة
أكبر ميزة لـ RLSF هي كفاءة التكلفة. يوفر خطوط أنابيب تعلم معزز قابلة للتطبيق فوراً دون موسمين بشريين أو تدريب نموذج مكافأة منفصل. فعال بشكل خاص في البيئات مثل الشركات الناشئة الأولية دون ميزانيات وسم كافية، والمهام الخاصة بالمجال حيث جمع تغذية راجعة الخبراء صعب، والنماذج الأولية التي تتطلب تجريباً وتحققاً سريعاً.
المركز الخامس: ReLIFT - التعاون المتناغم بين RL و SFT (2025-06-09)
تعلم ما لا يستطيع التعلم المعزز تعلمه: تداخل RL ↔ Online FT حلل بشكل منهجي العلاقة التكميلية بين التعلم المعزز والتعلم الخاضع للإشراف.
تقسيم الأدوار بين RL و SFT
الرؤية الأساسية لـ ReLIFT هي كما يلي: التعلم المعزز (RL) يتخصص في محاذاة التوزيع وتحسين الأداء ضمن نطاقات المعرفة الموجودة، بينما التعلم الخاضع للإشراف (SFT) يتفوق في اكتساب معرفة وأنماط جديدة.
بناءً على هذا، اقترح خط أنابيب يتناوب بين RL و SFT عبر الإنترنت: المرحلة 1 تتضمن SFT حقن معرفة وأنماط جديدة، المرحلة 2 تستخدم RL لتحسين الأداء ضمن التوزيعات الموجودة، والمرحلة 3 تعود إلى SFT عند اكتشاف هضبة الأداء.
وصفة التشغيل العملي
ReLIFT يقدم حلولاً ملموسة لـ “هضبة الأداء مع RL وحده” المختبرة بشكل شائع في الممارسة. يقترح المؤشرات التالية لتصميم نقطة الانتقال التلقائي: اكتشاف هضبة التعلم عندما يكون تحسين الأداء أقل من العتبة لـ N عصر متتالية، وتحديد فجوة المعرفة باكتشاف تدهور الأداء في أنماط المهام الجديدة، ومراقبة تحول التوزيع بتوسيع الفجوات بين توزيعات التدريب والتقييم.
المراكز 6-10: أحدث التقنيات الساعية للكفاءة والمتانة
المركز السادس: MGRPO - حلقة ثنائية المرحلة للتصحيح الذاتي (2025-06-05)
GRPO متعدد الطبقات (MGRPO) هو نهج مبتكر يقدم حلقة تصحيح ذاتي ثنائية المرحلة للتغلب على قيود GRPO أحادي المرحلة.
آلية التصحيح الذاتي ثنائية المرحلة
هيكل MGRPO يتكون من المرحلة 1 GRPO التي تؤدي تحسين السياسة الأساسي والمرحلة 2 GRPO التي تأخذ مخرجات المرحلة 1 كمدخل لأداء التصحيح الذاتي.
رياضياً، يُعبر عن هذا كالسياسة theta_2 التي تعظم التوقع على المسارات من السياسة theta_1 لمكافآت التصحيح الذاتي لتلك المسارات، حيث SelfCorrect هي دالة التصحيح الذاتي التي تحسن مخرجات المرحلة 1.
اختراق في الاستدلال الرياضي
MGRPO يظهر أداءً ممتازاً خاصة في مهام الاستدلال الرياضي. يتعلم القدرة على اكتشاف وتصحيح الأخطاء المنطقية من خلال التصحيح الذاتي خطوة بخطوة دون إشراف على مستوى العملية.
هذا مفيد بشكل خاص في سيناريوهات مثل الاستدلال المعقد متعدد الخطوات للكشف التلقائي عن أخطاء الخطوات الوسطية، والبراهين الرياضية لتصحيح القفزات المنطقية أو أخطاء الحساب، وتوليد الكود للتصحيح التلقائي لأخطاء بناء الجملة أو المنطق.
المركز السابع: 1-shot RLVR - إمكانية التعلم بالبيانات الدنيا (2025-04-29)
1-shot RLVR: التعلم المعزز للاستدلال بمثال تدريبي واحد أظهر أن التعلم المعزز الفعال ممكن حتى في البيئات الشحيحة بالبيانات.
قوة المكافآت القابلة للتحقق
جوهر 1-shot RLVR هو المكافأة القابلة للتحقق. في المهام حيث يمكن التحقق من الإجابات بوضوح (مسائل الرياضيات، مسائل البرمجة، إلخ)، أظهر أن تحسين قدرة الاستدلال من خلال التعلم المعزز ممكن بمثال واحد فقط.
المكافأة القابلة للتحقق تُعرف كـ 1 إذا كان التحقق صحيحاً، 0 خلاف ذلك. هذا النهج مفيد بشكل خاص في بيئات الشركات الناشئة لاستخراج أقصى تأثير بميزانيات وسم محدودة، والمجالات الخاصة بالمجال حيث تغذية راجعة الخبراء مكلفة أو صعبة الحصول عليها، والنماذج الأولية التي تتطلب تحقق مفهوم سريع في المراحل الأولية.
المركز الثامن: UFT - التحسين الموحد لـ SFT و RFT (2025-05-22)
توحيد الضبط الدقيق الخاضع للإشراف والمعزز (UFT) صاغ التعلم الخاضع للإشراف والتعلم المعزز كعملية تحسين موحدة واحدة بدلاً من مراحل منفصلة.
الأساس الرياضي للتحسين الموحد
UFT يوحد SFT و RFT في دالة هدف واحدة تجمع خسارة التعلم الخاضع للإشراف وخسارة التعلم المعزز ومصطلحات التنظيم مع معاملات فائقة alpha و beta.
مساهمة UFT النظرية هي حل عنق الزجاجة لتعقيد العينة الأسي في مهام الاستدلال طويل المدى. تغلب على عدم الكفاءة التي تحدث في خطوط أنابيب SFT إلى RFT التسلسلية التقليدية من خلال التحسين الموحد.
المركز التاسع: RLUF - استخدام التغذية الراجعة الفعلية للمستخدم (2025-05-20)
التعلم المعزز من تغذية راجعة المستخدم (RLUF) هو إطار تعلم معزز يستخدم إشارات المستخدم الضمنية المجمعة في بيئات الخدمة الفعلية.
منهجة التغذية الراجعة الضمنية
RLUF يحول سلوكيات المستخدم الفعلية التالية إلى إشارات مكافأة: الإعجابات وعدم الإعجاب كإشارات تفضيل مباشرة، ووقت البقاء كمؤشرات غير مباشرة لجودة المحتوى، ومعدلات إعادة الاستخدام لقياس الرضا طويل المدى، وسلوك المشاركة كإشارات للموافقة الاجتماعية.
التحقق في بيئة الإنتاج
RLUF حقق نتائج ملموسة بزيادة ثمانية وعشرين بالمائة في التغذية الراجعة الإيجابية في اختبارات A/B عبر الإنترنت الفعلية. تم تنفيذ هذا من خلال حلقة الإنتاج التالية: جمع السجلات لجمع بيانات سلوك المستخدم في الوقت الفعلي، ونمذجة المكافأة بتحويل الإشارات الضمنية إلى درجات مكافأة، وتحديثات السياسة بتحسين السياسات من خلال التحسين متعدد الأهداف، واختبار A/B لمراقبة تغييرات الأداء في الوقت الفعلي.
المركز العاشر: Robust RLHF - المتانة في البيئات الصاخبة (2025-04-03)
RLHF المتين للضبط الدقيق لـ LLM يقترح طرق تعلم متينة تستجيب للتغذية الراجعة الصاخبة والمتحيزة التي تحدث في بيئات العمل الفعلية.
التغلب على قيود نموذج Bradley-Terry
نموذج Bradley-Terry (BT) الذي يقوم عليه RLHF الموجود يفترض أن احتمال التفضيل يتبع علاقة أسية. ومع ذلك، هذا الافتراض يُنتهك بكثرة في البيئات الفعلية. Robust RLHF يقترح مقدرات متينة تأخذ في الاعتبار سوء تحديد النموذج.
المقدر المتين للمكافأة يقلل مجموع أزواج التفضيل للدوال المتينة المطبقة على الخسائر، حيث rho هي دالة متانة مثل خسارة Huber.
ضمان الاستقرار في بيئات العمل
Robust RLHF مفيد بشكل خاص في حالات العمل مثل التسميات المجمعة بجودة غير متسقة للتغذية الراجعة الجماعية، والبيئات متعددة الثقافات مع بيانات تفضيل متحيزة ثقافياً، والتغييرات الزمنية حيث تتغير تفضيلات المستخدم مع الوقت.
خريطة الرؤى للتطبيق العملي
استراتيجية ضمان استقرار التدريب
التقنيات الرئيسية لتشغيل التدريب اللاحق للتعلم المعزز المستقر في الممارسة تشمل GSPO (قطع التسلسل) لمنع تباعد التدريب في نماذج MoE الكبيرة، و MGRPO (التصحيح الذاتي ثنائي المرحلة) للتحقق من جودة المخرجات الوسطية وتحسينها، و Robust RLHF (التقدير المتين) للاستقرار في بيئات التغذية الراجعة الصاخبة، و GTPO/GRPO-S (تخصيص الائتمان الدقيق) لتحسين كفاءة التعلم في التوليد طويل الشكل.
طرق تحسين التكلفة
الاستراتيجيات لأقصى تأثير بموارد محدودة تشمل RLSF (التغذية الراجعة الذاتية) لإلغاء تكاليف الوسم الخارجي، و 1-shot RLVR (البيانات الدنيا) للتعلم الفعال في المهام القابلة للتحقق، و ReLIFT (جمع البيانات المستهدف فقط في أقسام عنق الزجاجة)، و RLUF (استخدام سلوك المستخدم) لتحويل سجلات الخدمة الموجودة إلى إشارات مكافأة.
تصميم خط أنابيب SFT-RL المتكامل
الإرشادات لبناء خطوط أنابيب واحدة أو متناوبة تشمل ReLIFT بالتناوب بين تنفيذ RL و SFT لاستخدام نقاط قوة كل طريقة، و UFT بالتكامل في عملية تحسين واحدة لتقليل التعقيد، ونقاط الانتقال التلقائي بتنفيذ خوارزميات كشف هضبة الأداء، والموازنة متعددة الأهداف للجودة والسلامة والكفاءة.
نظام تقييم الأداء الوكيل
بناء مؤشرات الأداء الرئيسية بالإشارة إلى تصميم معيار GLM-4.5 يشمل كفاءة استخدام الأدوات بقياس معدلات إكمال المهام مقابل تكاليف استدعاء API، وجودة الاستدلال بتقييم اتساق ودقة المنطق متعدد الخطوات، ورضا المستخدم بقياس جودة تغذية راجعة الخدمة الفعلية، ومؤشرات السلامة بقياس تكرار السلوكيات الضارة أو غير الصحيحة.
الخلاصة: آفاق مستقبل التدريب اللاحق للتعلم المعزز 2025
تحليل اتجاهات البحث في التدريب اللاحق للتعلم المعزز للنصف الأول من عام 2025 يكشف عدة أنماط واضحة واتجاهات مستقبلية.
ملخص الاتجاهات الرئيسية
إعطاء الأولوية للاستقرار واضح حيث تركز دراسات متعددة بما في ذلك GSPO و MGRPO و Robust RLHF على استقرار التدريب. هذا يشير إلى أن التدريب اللاحق للتعلم المعزز انتقل من مراحل البحث إلى بيئات الإنتاج الفعلية حيث أصبحت الموثوقية متطلباً أساسياً.
السعي لكفاءة التكلفة يظهر من خلال RLSF و 1-shot RLVR و RLUF، وجميعها طرق تقلل بشكل كبير تكاليف الوسم الموجودة. مع تسارع تسويق نماذج اللغة الكبيرة، أصبحت الاستدامة الاقتصادية اعتباراً مهماً.
التأكيد على القدرات الوكيلة يتضح من أحدث البحوث بما في ذلك GLM-4.5 التي تركز على تنفيذ ذكاء اصطناعي وكيل قادر على الاستدلال المعقد واستخدام الأدوات تجاوزاً لتوليد النص البسيط.
إرشادات العمل للممارسين
التطبيق قصير المدى (3-6 أشهر) يجب أن يشمل ترقية خطوط أنابيب GRPO الموجودة إلى GSPO، وبدء مشاريع تجريبية RLSF قائمة على التغذية الراجعة الذاتية، وبناء أطر RLUF تستخدم سجلات سلوك المستخدم.
التخطيط متوسط المدى (6-12 شهراً) يجب أن يتضمن تصميم خطوط أنابيب متكاملة RL-SFT على غرار ReLIFT، وتطوير معايير مرجعية داخلية لتقييم الأداء الوكيل، وتنفيذ أطر تحسين متعددة الأهداف.
الرؤية طويلة المدى (1-2 سنة) يجب أن تشمل بناء خطوط أنابيب تعلم متكاملة كاملة قائمة على UFT، وتطوير أطر تعلم معزز خاصة بالمجال، وإكمال أنظمة تعلم عبر الإنترنت قائمة على التغذية الراجعة الفورية للمستخدم.
التحديات التقنية والفرص
التحديات التقنية الرئيسية التي يجب حلها في المستقبل تشمل قوانين التحجيم لتحسين كفاءة التعلم المعزز في النماذج الأكبر، والتوسع متعدد الوسائط لتطبيق التعلم المعزز تجاوزاً لوسائط النص، والتكيف في الوقت الفعلي للتعلم عبر الإنترنت الذي يستجيب فوراً لتغذية راجعة المستخدم، وضمان السلامة لمنع الضرر أثناء عمليات التعلم المعزز.
في النصف الثاني من عام 2025 و 2026، من المتوقع أن تُطبق هذه الإنجازات البحثية بالكامل على الخدمات التجارية الفعلية، مما يؤسس التدريب اللاحق للتعلم المعزز كعملية معيارية في تطوير الذكاء الاصطناعي. خاصة في مجالات الذكاء الاصطناعي الوكيل والخدمات الشخصية، يُعترف به بالفعل كتقنية أساسية.
المطورون والباحثون الحاليون يجب أن يطبقوا بشكل انتقائي التقنيات الرئيسية العشر المقدمة في هذه المقالة وفقاً لبيئاتهم ومتطلباتهم مع استكشاف إمكانيات جديدة في التدريب اللاحق للتعلم المعزز. قبل كل شيء، تأمين الاستقرار وكفاءة التكلفة في آن واحد سيكون مفتاح التنفيذ الناجح.
المراجع
- GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models. arXiv:2508.06471
- Group Sequence Policy Optimization. arXiv:2507.18071
- GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy. arXiv:2508.04349
- Reinforcement Learning from Self-Feedback. arXiv:2505.23927
- Learning What Reinforcement Learning Can’t: Interleaved Online Fine-Tuning. arXiv:2506.07527
- Multi-Layer GRPO: Enhancing Reasoning and Self-Correction. arXiv:2506.04746
- Reinforcement Learning for Reasoning with One Training Example. arXiv:2504.20571
- UFT: Unifying Supervised and Reinforcement Fine-Tuning. arXiv:2505.16984
- Reinforcement Learning from User Feedback. arXiv:2505.14946
- Robust Reinforcement Learning from Human Feedback. arXiv:2504.03784