أبحاث التدريب اللاحق بالتعلم المعزز في 2025: تحليل شامل لأبرز 10 أوراق بحثية

⏱️ وقت القراءة المقدر: 25 دقيقة

مقدمة: التدريب اللاحق بالتعلم المعزز وآفاق الذكاء الاصطناعي الجديدة

شهد عام 2025 تطوراً متسارعاً في أبحاث التدريب اللاحق بالتعلم المعزز (Reinforcement Learning Post-Training)، إذ أسهمت هذه الأبحاث في تحسين قدرات الاستدلال لدى نماذج اللغة الكبيرة (LLM) بصورة ملحوظة. لم تعد قدرات الاستدلال المتقدمة التي أظهرها نموذج o1 من OpenAI حكراً على النماذج المغلقة المصدر.

يتناول هذا المقال بالتحليل المعمّق أبرز 10 أوراق بحثية في مجال التدريب اللاحق بالتعلم المعزز، صدرت منذ أبريل 2025 حتى الآن. تقدم هذه الأبحاث ابتكارات متنوعة، تمتد من منهجيات عملية ترفع قدرات النماذج المفتوحة ذات الحجم 7B-13B إلى مستوى GPT-4، وصولاً إلى تطبيقات متخصصة في مجالات كالطب والقانون.

1. Kimi k1.5: معايير جديدة لقدرات الاستدلال عبر التعلم المعزز الموسّع

الإسهامات الرئيسية والابتكارات

حقق نموذج Kimi k1.5 أداءً مماثلاً لنموذج o1 من OpenAI، مستخدماً إطار عمل بسيطاً نسبياً للتعلم المعزز، دون الحاجة إلى تقنيات معقدة كـ MCTS (Monte Carlo Tree Search) أو شبكات القيمة.

يجمع هذا النموذج بين تدريب نموذج لغوي متعدد الوسائط بالتعلم المعزز على نطاق واسع، ومعالجة السياق الطويل، وتحسين السياسة المُطوَّر، ليُظهر نتائج استدلال متقدمة على معايير الرياضيات والبرمجة. ويعدّ رفع أداء النماذج ذات 7B-13B معامل إلى مستوى مهام الاستدلال الخاصة بـ GPT-4 نموذجاً صارخاً على الإمكانات الكامنة في النماذج المفتوحة.

ابتكار الانتقال من Long-to-Short CoT

يُعدّ الانتقال من Long-to-Short Chain-of-Thought (CoT) أسلوباً يتعلم فيه النموذج سلاسل التفكير الطويلة أولاً، ثم ينقلها إلى صيغة مضغوطة، مما يُحسّن دقة الاستدلال بصورة ملموسة:

\[P(\text{short CoT} | \text{input}) = \sum_{\text{long CoT}} P(\text{short CoT} | \text{long CoT}, \text{input}) \cdot P(\text{long CoT} | \text{input})\]

الدلالات العملية

يُثبت نجاح Kimi k1.5 إمكانية توسيع التدريب اللاحق القائم على التعلم المعزز البحت. وتوفر الرؤى العملية المتعلقة بحيل تحسين السياسة وبناء البنية التحتية معرفةً قابلةً للتطبيق الفوري في البيئات المؤسسية.

2. Microsoft RPT: ابتكار جوهري في نموذج التدريب المسبق

آفاق جديدة للتدريب المسبق بالتعلم المعزز

يُقدّم بحث Reinforcement Pre-Training (RPT) من Microsoft نهجاً يُعيد تعريف نموذج التدريب المسبق لنماذج LLM. إذ يتخطى أسلوب التنبؤ بالرمز التالي التقليدي، ويُعامل التنبؤ بالرمز مع وجود مكافأة قابلة للتحقق باعتباره مهمة “استدلال”، ثم يدربها بالتعلم المعزز.

إمكانية التعلم المعزز العام

يكمن جوهر RPT في استثمار النصوص الضخمة غير المصنّفة في التعلم المعزز العام:

\[\mathcal{L}_{RPT} = \mathbb{E}_{s,a \sim \pi}[R(s,a) - \beta \log \pi(a|s)]\]

حيث تمثل R(s,a) المكافأة القابلة للتحقق من التنبؤ بالرمز، وβ معامل التنظيم بالإنتروبيا.

إمكانية التحسين المستمر

يكتسب RPT أهمية خاصة من كونه يُظهر تحسناً ثابتاً في الأداء كلما زادت موارد الحوسبة المخصصة له.

3. تأمل نقدي في حدود قدرات الاستدلال

هل يُفضي التعلم المعزز فعلاً إلى استدلال جديد؟

تطرح دراسة Yue وآخرين اكتشافاً جوهرياً مفاده أن أساليب التعلم المعزز الحالية لا تُولّد مهارات استدلال جديدة جوهرياً تتجاوز ما يعرفه النموذج الأساسي المُدرَّب مسبقاً.

إعادة الترجيح للقدرات القائمة في مقابل ظهور قدرات جديدة

تتفوق النماذج المُضبَّطة بالتعلم المعزز في الدقة عند المحاولة الأولى، غير أن النموذج الأساسي الأصلي يُظهر أداءً مماثلاً أو أفضل عند منحه محاولات متعددة:

\[P_{RL}(\text{correct} | \text{single attempt}) > P_{base}(\text{correct} | \text{single attempt})\] \[P_{RL}(\text{correct} | \text{multiple attempts}) \approx P_{base}(\text{correct} | \text{multiple attempts})\]

الفجوة بين الأداء والحد النظري

أبدت جميع خوارزميات التعلم المعزز الشائعة أداءً متشابهاً، وجاءت جميعها أدنى بكثير من الحد النظري للنموذج الأساسي. يُشير هذا إلى أن RLHF وRLVR الحاليين يعملان على تضخيم قدرات الاستدلال للنموذج الأساسي أكثر من كونهما يوسّعانها.

4. دمج التعلم المعزز الغير متصل والمتصل بفاعلية

الدراسة المقارنة المنهجية من Meta

تُقدّم دراسة Meta مقارنة تجريبية معمّقة لاستراتيجيات الضبط الدقيق (غير متصل، شبه متصل، متصل كلياً) ودوال الهدف (DPO، وGRPO المستند إلى PPO). يكشف الاكتشاف الرئيسي أن DPO غير المتصل البحت يتخلف كثيراً، إلا أن تطبيق DPO ضمن حلقة متصلة أو تكرارية يمكّنه من مجاراة أداء GRPO المتصل (PPO).

تفوق التعلم المتصل

\[\text{Performance}: \text{Online Methods} >> \text{Offline Methods}\]

مزج المكافآت القابلة للتحقق ومكافآت التفضيل

أسفر مزج المكافآت القابلة للتحقق (كالرياضيات) مع المكافآت غير القابلة للتحقق (التفضيل) عن أفضل النتائج.

5. واقع التحويل بين المجالات وحدوده

بحث UIUC في التعميم عبر المجالات

يُعالج بحث UIUC المعنون “Breaking Barriers” السؤال التالي: هل يُفيد النموذج المُضبَّط بالتعلم المعزز في مجال معين عند تطبيقه على مجال آخر؟

عدم تماثل التحويل بين المجالات

تبقى تحسينات التعلم المعزز محدودة النطاق؛ تتفوق النماذج في المهام المماثلة لبيانات تدريب التعلم المعزز، لكن كثيراً ما تتلاشى المكاسب في المهام ذات أنماط الاستدلال المختلفة:

الضبط بالتعلم المعزز في الرياضيات والبرمجة: يُعمّم بشكل جيد بين المهام البنيوية
الضبط بالتعلم المعزز في المجالات غير البنيوية: لا يُعمّم على مجالات غير بنيوية أخرى
التعلم المعزز في المجالات غير البنيوية ينقل أحياناً إلى المهام البنيوية، لكن العكس لا يصح

ضرورة التخصص المجالي

لبناء عوامل ذكاء اصطناعي في المجالات المالية والقانونية والطبية، يُعدّ الضبط الدقيق بالتعلم المعزز باستخدام بيانات ومكافآت ممثّلة لكل مجال أمراً لا غنى عنه.

6. Agent Lightning: إطار عمل شامل للتدريب المعزز للعوامل الذكية

التوافق التام مع العوامل الذكية القائمة

يُتيح Agent Lightning من Microsoft تطبيق التعلم المعزز على أي عامل ذكي دون الحاجة إلى تغيير الكود القائم. يمكن ربط أي عامل مبني على LangChain أو OpenAI Functions أو كود مخصص وضبطه الدقيق بالتعلم المعزز.

التعلم المعزز الهرمي وتعيين الائتمان

يُصيغ تنفيذ العامل متعدد الخطوات كـ MDP (Markov Decision Process)، ويوفر واجهة موحدة للمسارات:

\[G_t = \sum_{k=0}^{T-t} \gamma^k R_{t+k+1}\]

حيث يمثل G_t المكافأة التراكمية المُخفَّضة عند اللحظة t.

القيمة العملية

يُظهر Agent Lightning تحسيناً ثابتاً في مهام كـ text-to-SQL وQA المعززة بالاسترجاع والمسائل الرياضية باستخدام الأدوات، إذ يوفر “طبقة ضبط دقيق بالتعلم المعزز” تُحوّل LLM الأساسية إلى أنظمة عاملة موثوقة ومتخصصة في مجالات بعينها.

7. ASearcher: آفاق جديدة لاستخدام الأدوات على المدى البعيد

ابتكار العوامل الذكية المتخصصة في البحث على الويب

يُقدّم ASearcher من Tsinghua وAnt عاملاً ذكياً مفتوح المصدر مُدرَّباً بالتعلم المعزز للبحث على الويب وتصفحه، ويتضمن مساهمتين رئيسيتين:

نظام تدريب بالتعلم المعزز غير متزامن بالكامل، قابل للتوسع حتى تسلسلات استخدام الأدوات الطويلة جداً
لعب الدور الذاتي القائم على التلقين (prompt-based self-play)، حيث يُولّد العامل تحديات QA صعبة لتدريب ذاته

استخدام الأدوات على نطاق واسع بشكل استثنائي

حقق نموذج 32B عبر التعلم المعزز المتصل تحسناً بنسبة 46.7%+ في أداء معيار xBench للبحث على الويب، إذ تعلّم البحث الذي يتضمن أكثر من 40 استدعاءً متسلسلاً للأدوات وأكثر من 150,000 رمز إخراج:

\[\text{Performance Gain} = \frac{\text{Score}_{RL} - \text{Score}_{base}}{\text{Score}_{base}} = +46.7\%\]

8. ARTIST: تكامل وثيق بين الاستدلال واستخدام الأدوات

تعلّم استراتيجيات استخدام الأدوات التكيّفية

يُمثّل ARTIST من MSR إطار عمل يدمج بإحكام الاستدلال متعدد الخطوات وصنع القرار لاستخدام الأدوات، ويُحسّنهما معاً بالتعلم المعزز. يتعلم النموذج اللغوي الكبير متى وكيف يستدعي الأدوات الخارجية (الآلة الحاسبة، مترجم الكود، واجهة برمجية للبحث وغيرها) ضمن سلسلة تفكيره.

قوة المكافأة المستندة إلى النتائج

باستخدام مكافأة مستندة إلى النتائج فحسب، دون توجيه خطوة بخطوة، تفوّق ARTIST على أحدث خطوط الأساس في مهام الاستدلال الرياضي الصعبة واستدعاء الدوال بهامش يصل إلى 22% في الدقة المطلقة:

\[\text{Accuracy Improvement} = \text{Acc}_{ARTIST} - \text{Acc}_{baseline} \leq 22\%\]

9. AlphaMed: نجاح ريادي في تخصيص المجال الطبي

اختراق في الاستدلال الطبي القائم على التعلم المعزز البحت

يُعدّ AlphaMed من Imperial وTUM وHKUST أول نموذج لغوي طبي اكتسب قدرات الاستدلال عبر التعلم المعزز وحده مع مكافآت بسيطة قائمة على القواعد.

نجاح النهج بدون التعلم الخاضع للإشراف

بتطبيق التعلم المعزز مع مكافآت دقة أساسية على مجموعات بيانات QA الطبية المفتوحة، حقق AlphaMed دقةً متقدمةً على 6 معايير للأسئلة والأجوبة الطبية.

تفوق على النماذج الأكبر حجماً

أبدى الأداء في مجموعة بيانات MedXpert تفوقاً على DeepSeek-V3 بـ 671B معامل، وعلى Claude 3.5 أيضاً:

\[\text{Performance}: \text{AlphaMed} > \text{DeepSeek-V3 (671B)} > \text{Claude 3.5}\]

10. General-Reasoner: نهج تكاملي للاستدلال في جميع المجالات

تحدي التحيز نحو الرياضيات والبرمجة

يُقدّم General-Reasoner من جامعة Waterloo نموذج تدريب جديداً يتغلب على التحيز القائم في جهود التعلم المعزز الحالية التي تقتصر على الرياضيات والبرمجة.

مجموعة بيانات متعددة التخصصات قابلة للتحقق

يُدخل الإطار مجموعة بيانات ضخمة متعددة التخصصات تغطي الفيزياء والكيمياء والتمويل وغيرها، مع أجوبة قابلة للتحقق، إلى جانب أداة للتحقق من سلاسل التفكير التوليدية.

نجاح إعداد Zero-RL

في إعداد “Zero-RL”، حقق General-Reasoner أداءً متيناً وقابلاً للتعميم عبر 12 معياراً تتجاوز الرياضيات، ووصل نموذج 14B إلى مستوى ينافس GPT-4 في عدة معايير أكاديمية.

الخلاصة: مستقبل الذكاء الاصطناعي في ظل التعلم المعزز

نقطة تحول في النماذج

تكشف أبحاث التدريب اللاحق بالتعلم المعزز لعام 2025 عن تحول جوهري في نماذج تطوير الذكاء الاصطناعي، إذ تُقدّم مساراً واضحاً للنماذج المفتوحة كي تُحقق أداءً مماثلاً للنماذج المغلقة أو يفوقها.

الدلالات العملية والوعي بالحدود

يظل من الأهمية بمكان الوعي الدقيق بحدود أساليب التعلم المعزز الراهنة. يُلمّح الاكتشاف القائل بأن التعلم المعزز يُعيد ترجيح القدرات القائمة أساساً إلى ضرورة تطوير تقنيات تعلم معزز أكثر ابتكاراً.

أهمية التخصص المجالي

إذا أرادت المؤسسات تحقيق أفضل الأداءات في مجال بعينه، فإن التدريب بالتعلم المعزز المتخصص في ذلك المجال يغدو أمراً لا غنى عنه.

الابتكار في الاستدلال الطويل المدى واستخدام الأدوات

يفتح ذلك آفاقاً أمام عوامل الذكاء الاصطناعي لتجاوز الإجابة على الاستفسارات البسيطة، نحو حل المشكلات المعقدة واتخاذ القرارات.

التوقعات المستقبلية: ضرورة النهج التكاملي

سيغدو تحقيق العمق في مجالات بعينها والاتساع عبر مجالات متعددة في آنٍ واحد التحديَ المحوري للجيل القادم من عوامل الذكاء الاصطناعي.

خاتمة: آفاق إمكانيات جديدة

لم يعد التدريب اللاحق بالتعلم المعزز تجربةً حكراً على المختبرات البحثية، بل بات أداةً فعّالة تستطيع الشركات والمطورون توظيفها فعلياً في تطبيقاتهم.