ReTool: التعلم المعزز للاستخدام الاستراتيجي للأدوات في النماذج اللغوية الكبيرة

⏱️ وقت القراءة المقدر: 15 دقائق

مقدمة: نموذج جديد لنماذج الاستدلال

تتطور قدرات الاستدلال في النماذج اللغوية الكبيرة بسرعة ملحوظة بفضل التعلم المعزز. تُظهر نماذج مثل OpenAI o1 وDeepSeek R1 نتائج رائعة في الاستدلال النصي البحت عبر سلاسل التفكير الطويلة، غير أنها لا تزال تكشف عن قيود جوهرية في مجالات حل المسائل البنيوية كالحسابات الرقمية الدقيقة، والاستدلال الهندسي، وحل المعادلات المعقدة.

يقدّم ReTool (التعلم المعزز للاستخدام الاستراتيجي للأدوات في النماذج اللغوية الكبيرة)، الذي نشره فريق أبحاث ByteDance Seed في أبريل 2025، نهجاً مبتكراً يدمج التعلم المعزز مع مفسّر الأكواد للتغلب على هذه القيود. لا يقتصر هذا البحث على الاستدلال النصي، بل يدمج تنفيذ الأكواد في الوقت الفعلي ديناميكياً ضمن عملية الاستدلال، محققاً قفزة نوعية في قدرة حل المسائل الرياضية.

الأفكار الجوهرية وابتكارات ReTool

قيود المناهج الحالية

تواجه نماذج الاستدلال النصي التي تعتمد كلياً على الأنماط اللغوية الداخلية القيود الجوهرية التالية: أولاً، استحالة التحقق الرقمي في المراحل الوسيطة مما يُسهّل تراكم الأخطاء. ثانياً، غموض كبير في التعامل الرمزي والحسابات الدقيقة. ثالثاً، اقتصار فضاء البحث على التعبير اللغوي مما يحول دون الاستكشاف البرمجي.

في المقابل، يوفر مفسّر الأكواد واجهة رسمية وقابلة للتنفيذ للتعداد والتحقق والحساب الدقيق، مما يجعله أداة قوية لتجاوز هذه القيود. غير أن أساليب الاستدعاء التلقائي أو التعلم الخاضع للإشراف تقتصر على محاكاة توزيعات بيانات منتقاة بعناية، وتفتقر إلى القدرة التكيفية في تحديد متى وكيف يتم استدعاء الأدوات الخارجية.

الحل الابتكاري لـ ReTool

يعالج ReTool هذه المشكلة من خلال نموذج التعلم المعزز. يستكشف النموذج مسارات استدلال مرنة ويتعلم استراتيجيات استخدام الأدوات عبر التغذية الراجعة القائمة على النتائج، متجاوزاً التعلم بالمحاكاة البسيطة نحو اكتساب قدرة حقيقية في توظيف الأدوات. يتعلم النموذج خلال هذه العملية آلياً كيفية الانتعاش من أخطاء تنفيذ الأكواد عبر التصحيح الذاتي، ومتى يستدعي الأدوات بفاعلية خلال سلاسل الاستدلال الطويلة.

المكونات التفصيلية لإطار ReTool

المرحلة الأولى: بناء مجموعة بيانات بداية باردة عالية الجودة

المكوّن الجوهري الأول في ReTool هو بناء مجموعة بيانات بداية باردة عالية الجودة لتعليم النموذج كيفية استخدام مفسّر الأكواد. تتكون هذه المجموعة من أمثلة تُظهر صراحةً متى وكيف يتم استدعاء مفسّر الأكواد، مما يمنح النموذج القدرة المبدئية على استخدام الأدوات وتحليل نتائج التنفيذ.

تستخدم عملية تنظيم البيانات نهجاً قائماً على القوالب يحوّل مسارات الاستدلال الأصلية إلى نسخ معززة بالأكواد. على وجه التحديد، يتم تحديد خطوات الحساب اليدوي واستبدالها بمقتطفات الأكواد ونتائج تنفيذها، مع الحفاظ على منطق الاستدلال الجوهري كما هو.

المرحلة الثانية: التدريب بالتعلم المعزز المعزز بالأدوات

تُطبّق المرحلة الثانية التعلم المعزز المعزز بالأدوات، حيث يضبط النموذج سلوكه عبر مكافآت قائمة على النتائج ليكتشف استراتيجيات الاستدلال المثلى في التعامل مع الأدوات. يكتب نموذج السياسة بلوكات الأكواد بمرونة خلال سلاسل الاستدلال الطويلة، ويتلقى نتائج التنفيذ الفوري من مفسّر أكواد في بيئة مُعزولة لتوجيه الاستدلال اللاحق.

المحور الرئيسي لعملية التعلم المعزز هو دعم سيناريوهات سياسة تتيح تنفيذ الأكواد الفوري متعدد الأدوار، مما يمكّن النموذج من الاستكشاف والتحسين التكراري وتحسين استراتيجية استدلاله عبر التفاعلات المعززة بالأدوات.

تنسيق مجموعة البيانات وأمثلة تفصيلية

بنية قالب تنظيم البيانات

يتمتع قالب تنظيم البيانات المستخدم في ReTool بالبنية التالية:

You are a helpful AI assistant. Initially, when solving a question, you would need to think step by step, without the ability to use code for calculation. Now, you have the capability to write code to use the code interpreter for calculation.

The thinking process can have multiple code snippets. Each code snippet is wrapped with:
<code>
python
code snippet
</code>

The returned result is wrapped with <interpreter>execution results</interpreter>.

يعمل هذا القالب عبر استقبال مسار التفكير الأصلي واستبدال خطوات الحساب اليدوي بتنفيذ الأكواد، مع الحفاظ على منطق الاستدلال الجوهري. يجب أن تتطابق نتائج التنفيذ تطابقاً تاماً مع مخرجات النموذج دون أي رموز إضافية أو منقوصة.

قالب السيناريو في التعلم المعزز

يتسم قالب السيناريو المستخدم في مرحلة التعلم المعزز بالخصائص التالية:

Solve the following problem step by step. You now have the ability to selectively write executable Python code to enhance your reasoning process. The Python code will be executed by an external sandbox, and the output can be returned to aid your reasoning.

Code Format:
<code>
python
code snippet
</code>

Answer Format:
<answer>\boxed{'The final answer goes here.'}</answer>

يتيح هذا القالب للنموذج كتابة أكواد Python قابلة للتنفيذ بصورة انتقائية أثناء حل المسائل، ثم تلقّي نتائج التنفيذ من البيئة المُعزولة الخارجية لتحسين مسار الاستدلال.

الأداء المتميز في معيار AIME

كفاءة لافتة لنموذج 32B

النتائج المحققة بتطبيق ReTool على نموذج Qwen2.5-32B-Instruct مذهلة للغاية. بـ400 خطوة تدريبية فقط، بلغت الدقة على AIME2024 نسبة 67%، متجاوزةً بشكل كبير الخط الأساسي للتعلم المعزز النصي الذي حقق دقة 40% بعد 1,080 خطوة، سواء في الكفاءة أو الأداء.

والأكثر لفتاً للنظر هو أن ReTool-32B في الإعداد الموسّع حقق دقة 72.5%، متفوقاً على OpenAI o1-preview بنسبة 27.9%. يُثبت ذلك أن النمذجة الصريحة لاستخدام الأدوات كجزء من عملية اتخاذ القرار لا يتجاوز حدود استدلال النموذج فحسب، بل يحسّن كفاءة التدريب بشكل جوهري.

تحسينات إضافية بنموذج DeepSeek-R1

تفوّق نموذج ReTool المدرّب على DeepSeek-R1-Distill-Qwen-32B على خطوط أساسية تنافسية تشمل QwQ-32B-Preview وs1-32B وOpenAI o1-preview، مما يشير إلى أن عملية التدريب بالتعلم المعزز تستحثّ استراتيجيات أكثر كفاءة لحل المسائل.

ومن المثير للاهتمام أن نموذج البداية الباردة وحده المعتمد على Qwen2.5-32B-Instruct حقق دقة 40.9% على AIME2024، وهو مستوى مقارن للخط الأساسي للتعلم المعزز النصي على نفس العمود الفقري (40.0%)، ويتجاوز بشكل واضح Qwen2.5-32B-Instruct غير المدرَّب (26.7%).

السلوكيات الناشئة عبر عملية التعلم

ظهور قدرة التصحيح الذاتي للأكواد

من أبرز الاكتشافات خلال تدريب ReTool أن النموذج يكتسب قدرة التصحيح الذاتي للأكواد باستقلالية. هذا يعني أن النموذج يتعلم من تلقاء نفسه تحليل رسائل الخطأ وتعديل الأكواد وإعادة تشغيلها عند حدوث أخطاء في التنفيذ الأولي. ظهر هذا السلوك بشكل طبيعي في عملية تحسين المكافأة القائمة على النتائج رغم أن البشر لم يعلّموه صراحةً.

الاختيار التكيفي للأدوات والاستدعاء الاستراتيجي

يُظهر النموذج أيضاً قدرةً على اختيار الأدوات تكيفياً واستدعائها استراتيجياً بحسب تعقيد المسألة وطبيعتها. يعتمد مناهج مُتمايزة: الحساب العددي المباشر للمسائل البسيطة، والتمثيل البياني أو توليد الرسوم للمسائل الهندسية المعقدة، والتعداد البرمجي للمسائل التوافقية.

التنظيم الفعّال للاستدعاءات البنيوية للأدوات

يتعلم ReTool أيضاً تنظيم استدعاءات الأدوات بصورة فعّالة. يجزّئ المسائل المعقدة إلى وحدات أصغر، ويعالج الحسابات المطلوبة في كل مرحلة بالأكواد، ويدمج النتائج في خطوات الاستدلال التالية، منظّماً عملية حل المسائل الشاملة بصورة منهجية. يمكن تفسير ذلك بوصفه تجلّياً لقدرة التحكم ما وراء المعرفي تجاوزاً لمجرد استخدام الأدوات.

التطور نحو الأنظمة العصبية الرمزية الهجينة

دمج الشبكات العصبية والحساب الرمزي

يقدّم نهج ReTool نموذجاً جديداً للأنظمة العصبية الرمزية الهجينة التي تدمج قوة الاستدلال اللغوي الطبيعي القائم على الشبكات العصبية مع دقة الحساب الرمزي. يُعظّم هذا النهج قدرة حل المسائل الكلية بالاستفادة من مزايا كل منهج.

يتولى المكوّن العصبي الاستدلال الحدسي والتعرف على الأنماط وفهم اللغة الطبيعية، بينما يتولى مكوّن الحساب الرمزي العمليات الرقمية الدقيقة والتحقق المنطقي والبحث المنهجي. يتيح هذا الدمج تكاملاً متبادلاً للقيود بين المنهجين، محققاً قدرة استدلال أقوى.

التوقعات المستقبلية لتكامل الأدوات القائم على النتائج

يمتلك نهج تكامل الأدوات القائم على النتائج إمكانية التوسع إلى ما هو أبعد من الاستدلال الرياضي المعقد إلى مجالات متنوعة. من المتوقع تطبيق منهجيات مماثلة في تصميم التجارب العلمية وتحليل البيانات وحل المسائل القائمة على المحاكاة.

بشكل خاص، يمكّن التعلم القائم على التعلم المعزز لاستخدام الأدوات النماذج من اكتساب القدرة على التفاعل مع الأدوات أو واجهات API الجديدة باستقلالية، مما يُتوقع أن يُسهم إسهاماً جوهرياً في بناء أنظمة الذكاء الاصطناعي العام.

تفاصيل التنفيذ التقني وتحليل الكفاءة

تحسين جذري في كفاءة التدريب

من أبرز جوانب ReTool التحسين الجذري في كفاءة التدريب. في حين حقق الخط الأساسي النصي 40% على 1,080 خطوة، حقق ReTool 67% في 400 خطوة فقط. يمثل ذلك أداءً أعلى بمقدار 1.675 مرة بعدد خطوات أقل بمعامل 2.7، مما يُظهر تحسيناً في كفاءة التدريب بنحو 4.5 مرة.

يعود هذا التحسين في الكفاءة إلى التغذية الراجعة الفورية المقدَّمة عبر تنفيذ الأكواد التي تُسرّع عملية التعلم. يحصل النموذج على نتائج حسابية دقيقة في المراحل الوسيطة، مما يُحسّن جودة الاستدلال الكلية ويؤدي إلى تحديثات أكثر فاعلية للسياسة.

أمان وعزل بيئة الاختبار المُعزولة

يجري تنفيذ الأكواد في ReTool في بيئة مُعزولة لضمان الأمان والسلامة. في هذه البيئة المُعزولة يمكن للنموذج إجراء الحسابات بحرية دون التأثير على الأنظمة الخارجية، فيما تحول حدود وقت التنفيذ وقيود الموارد دون الحلقات اللانهائية أو الاستهلاك المفرط للذاكرة.

الطابع الديناميكي للتفاعل متعدد الأدوار

من الخصائص الرئيسية لـ ReTool دعمه لتنفيذ الأكواد الفوري متعدد الأدوار. يستطيع النموذج كتابة الأكواد وتنفيذها مرات عدة خلال مسار استدلال واحد، وضبط الاستدلال في الخطوة التالية بناءً على نتيجة كل تنفيذ. يتيح ذلك، خلافاً لاستخدام الأدوات الساكن، عملية حل مسائل ديناميكية وتكيفية.

القيود والاتجاهات البحثية المستقبلية

قيود البحث الحالي

يتركز بحث ReTool أساساً على مجال الاستدلال الرياضي، وتحديداً معيار AIME، مما يستلزم تحققاً إضافياً من إمكانية التعميم على مجالات أخرى. فضلاً عن ذلك، يقتصر على مفسّر الأكواد كأداة محددة، مما يستوجب مزيداً من الأبحاث حول التكامل مع أدوات خارجية أو واجهات API متنوعة.

إمكانيات التطوير المستقبلية

يُتوقع أن تتجه الأبحاث المستقبلية نحو: أولاً، تعزيز الشمولية عبر التكامل مع أدوات أكثر تنوعاً كالبحث على الويب وقواعد البيانات ومحركات المحاكاة. ثانياً، توسيع نطاق التطبيق إلى مجالات تخصصية متنوعة تشمل العلوم والهندسة والمالية. ثالثاً، تحسين جودة التعلم من خلال دوال مكافأة ومقاييس تقييم أكثر تطوراً.

التأثير على الصناعة والتداعيات

نموذج جديد لتكامل أدوات الذكاء الاصطناعي

يُقدّم نجاح ReTool نموذجاً جديداً لتكامل الأدوات الخارجية في أنظمة الذكاء الاصطناعي. يُثبت أن استخدام الأدوات التكيفي عبر التعلم المعزز أكثر فاعلية بكثير من المناهج القائمة على الاستدعاء التلقائي أو استدعاءات API الثابتة. سيدفع ذلك الصناعة نحو إعادة النظر جذرياً في استراتيجيات تكامل الأدوات عند تصميم أنظمة الذكاء الاصطناعي.

إمكانيات التطبيق في التعليم والبحث

في مجال تعليم الرياضيات، يمكن لأنظمة كـ ReTool أن تصبح أدوات قوية تدعم عمليات حل المسائل لدى الطلاب. بدلاً من مجرد تقديم الإجابات، يمكنها تقديم قيمة تربوية بإظهار مناهج منهجية لحل المسائل وطرق التحقق من الحسابات.

ومن المتوقع كذلك تحقيق مكاسب إنتاجية كبيرة للباحثين في مهام التحليل العددي المعقد والمحاكاة وتحليل البيانات.

الخاتمة: الأفق الجديد الذي يفتحه دمج الاستدلال والحساب

يُقدّم بحث ReTool نقطة تحوّل مبتكرة في تعزيز قدرات الاستدلال للنماذج اللغوية الكبيرة. بالاعتراف بقيود الاستدلال النصي البحت وتطوير نهج منهجي للتغلب عليها عبر التعلم المعزز وتكامل الأدوات، يرفع قدرة أنظمة الذكاء الاصطناعي على حل المسائل إلى مستوى أعلى.

بشكل خاص، يُبرهن تحقيق أداء يتجاوز OpenAI o1-preview بنسبة 27.9% بـ400 خطوة تدريبية فقط على أهمية منهجية التعلم الكفء، كما يشير ظهور سلوكيات كالتصحيح الذاتي للأكواد إلى أن أنظمة الذكاء الاصطناعي يمكنها اكتساب قدرة حقيقية على حل المسائل متجاوزةً المحاكاة البسيطة.

سيُلهم التوجه نحو الأنظمة العصبية الرمزية الهجينة الذي قدّمه ReTool تطوير الذكاء الاصطناعي العام في المستقبل، ويحمل نموذج تكامل الأدوات القائم على النتائج إمكانية عالية ليصبح المعيار الجديد لتصميم أنظمة الذكاء الاصطناعي لحل مسائل العالم الحقيقي المعقدة. يُمثّل هذا التطور معلماً مهماً في مسيرة تطور الذكاء الاصطناعي من مجرد معالجة المعلومات إلى شريك إبداعي ومنهجي في حل المسائل.

المرجع: ReTool: Reinforcement Learning for Strategic Tool Use in LLMs - ByteDance Seed, April 2025