⏱️ وقت القراءة المقدر: 12 دقيقة

مقدمة

أحد أعمق التحديات في التدريب اللاحق للنماذج اللغوية الكبيرة هو معضلة الاستكشاف مقابل الاستغلال. يحتاج النموذج خلال التدريب إلى استكشاف استراتيجيات استجابة متنوعة، لكنه في الوقت ذاته يجب أن يستغل ما تعلمه لتعظيم الأداء. إذا مال الميزان كثيرًا نحو أيٍّ من الجانبين، عانى التدريب من عدم الاستقرار أو وقع النموذج في مثاليات محلية.

يقترح DuPO (تحسين السياسة المزدوجة) حلًا مبتكرًا لهذا التحدي: تدريب سياستين متمايزتين في آنٍ واحد، سياسة استكشاف وسياسة استغلال، تتكاملان معًا. يُثبت هذا البحث أن هذه البنية تحقق تحسنًا بمقدار 2.13 COMET في الترجمة، و6.4 نقطة في دقة الرياضيات، و9.3 نقطة في أداء إعادة الترتيب.

الخلفية: قيود التدريب القائم على RL بسياسة واحدة

مشكلات تحسين السياسة الواحدة

تُحسّن معظم أساليب التدريب اللاحق القائمة على RL الموجودة كـ PPO وGRPO وDPO سياسةً واحدة. يعاني نهج السياسة الواحدة هذا من قيود متأصلة عدة.

أولًا، مشكلة المقايضة بين الاستكشاف والاستغلال. في إطار سياسة واحدة، يُضعف تعزيز الاستغلال الاستكشافَ والعكس صحيح. يتعارض هذان الهدفان جوهريًا ضمن سياسة واحدة.

ثانيًا، تبرز مشكلة اختراق المكافأة. حين تُحسَّن سياسة واحدة حول إشارة مكافأة محددة، تتعلم استراتيجيات تسجّل درجات مرتفعة على ذلك المقياس دون تحسين فعلي. يؤدي هذا إلى الإفراط في الملاءمة مع دالة المكافأة.

ثالثًا، تقع مشكلة نسيان القدرات. مع تدريب النموذج نحو اتجاه واحد، تميل القدرات في مجالات أخرى كان قد تعلمها إلى التراجع.

الدافع لتصميم السياسة المزدوجة

الرؤية الجوهرية لـ DuPO هي أن الاستكشاف والاستغلال دوران متمايزان لا ينبغي الخلط بينهما. تتولى سياسة الاستكشاف اكتشاف استراتيجيات الحلول المتنوعة، فيما تتولى سياسة الاستغلال توظيف تلك الاستراتيجيات بأقصى كفاءة لتوليد استجابات عالية الجودة.

تؤثر هاتان السياستان في تدريب بعضهما البعض عبر تبادل المعرفة، لتحقق في نهاية المطاف توازنًا أفضل من تحسين السياسة الواحدة.

بنية DuPO ومبادئ التصميم

دور السياستين

سياسة الاستكشاف: تُولي هذه السياسة أولوية التنوع. دورها اكتشاف استراتيجيات استجابة متنوعة تتجاوز الأنماط الموجودة.

سياسة الاستغلال: تُولي هذه السياسة أولوية الجودة. استنادًا إلى الاستراتيجيات التي اكتشفتها سياسة الاستكشاف، تولّد أعلى استجابات جودةً. وهي النموذج الذي ينتج الإخراج الفعلي في مرحلة الاستدلال.

فضاء المدخلات الموحد

الابتكار الجوهري في DuPO هو أن كلتا السياستين تعملان في فضاء مدخلات موحد. رسميًا، المدخل $x = x_k \oplus x_u$ يتألف من مكونات معروفة $x_k$ ومكونات مجهولة $x_u$. تستقبل كلتا السياستين المدخل ذاته، لكنهما تولّدان استجابات بتركيزات مختلفة.

يتيح تصميم فضاء المدخلات الموحد هذا أن تكون المعلومات التي اكتشفتها سياسة الاستكشاف قابلةً للاستخدام المباشر من قِبَل سياسة الاستغلال.

آلية التفاعل بين السياستين

تتفاعل السياستان عبر الآليات التالية خلال التدريب:

  1. تبادل الاستجابات: دمج الاستجابات عالية الجودة التي اكتشفتها سياسة الاستكشاف في بيانات تدريب سياسة الاستغلال
  2. تبادل إشارات التدرج: تؤثر إشارات الخسارة لكلتا السياستين في تحديثات التدرج لكل منهما
  3. التقطير المعرفي: تتعلم سياسة الاستغلال تقطير المعرفة المتنوعة لسياسة الاستكشاف

الهدف التدريبي وأسلوب التحسين

هدف التحسين المزدوج للسياسة

يمكن التعبير عن الهدف التدريبي لـ DuPO على النحو التالي:

\[J(\theta) = \mathbb{E}[R(x,y)]\]

حيث $J(\theta)$ هو إجمالي هدف التحسين، و$R(x,y)$ هو المكافأة على المدخل $x$ والاستجابة $y$، و$\theta$ تمثل معاملات كلتا السياستين.

تدرج السياسة لهذا التحسين هو:

\[\nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta \log \pi_\theta(y|x) \cdot R(x,y)]\]

غير أن هذه الإشارة تُحلَّل في DuPO إلى إشارات منفصلة لكل سياسة، مع تضمين حدود التفاعل بين السياستين.

استراتيجية التدريب المتوازنة

يُحافَظ على التوازن بين السياستين عبر استراتيجية التدريب التالية:

التدريب المتناوب: تُدرَّب سياسة الاستكشاف وسياسة الاستغلال بالتناوب.

الترجيح التكيفي: بناءً على تقدم تدريب كل سياسة، تُطبَّق أوزان تكيفية على تحديثات التدرج.

المكافأة العابرة للسياسات: فضلًا عن المكافأة التي تستقبلها كل سياسة من استجاباتها الخاصة، تستقبل أيضًا مكافآت على مساهمتها في تحسين السياسة الأخرى.

التصميم التجريبي ومنهجية التقييم

تغطية المهام المتنوعة

جرى تقييم DuPO عبر ثلاث مهام متمايزة: الترجمة الآلية، وحل المسائل الرياضية، وإعادة ترتيب الوثائق. جاء هذا الاختيار مقصودًا للتحقق من قدرة الإطار على التعميم عبر مجالات متنوعة.

الترجمة الآلية: جرى التقييم باستخدام مقياس COMET.

حل المسائل الرياضية: جرى التقييم باستخدام معياريَّي GSM8K وMATH.

إعادة ترتيب الوثائق: جرى التقييم باستخدام NDCG على معايير استرداد المقاطع.

مقارنة مع النماذج الأساسية

قورن DuPO بالأساليب الأساسية التالية:

  • PPO: أسلوب الضبط الدقيق القياسي القائم على RL
  • GRPO: تحسين السياسة النسبي القائم على المجموعات
  • DPO: التعلم المباشر من التفضيلات
  • IPO: متغير DPO المحسَّن

النتائج التجريبية الرئيسية

أداء الترجمة الآلية

في مهمة الترجمة الآلية، سجّل DuPO تحسنًا بمقدار 2.13 COMET فوق الأساس. يُعدّ هذا مكسبًا أداءً ملموسًا، إذ حتى تحسين نصف نقطة واحدة في مقياس COMET يُعتبر عادةً ذا أهمية.

مقارنةً بالأساليب ذات السياسة الواحدة:

  • مقابل PPO: +1.87 COMET
  • مقابل DPO: +1.42 COMET
  • مقابل GRPO: +1.23 COMET

أداء الاستدلال الرياضي

في حل المسائل الرياضية، حقق DuPO تحسنًا في الدقة بمقدار 6.4 نقطة. كان هذا التحسين أكثر وضوحًا في المسائل متعددة الخطوات.

توزيع الأداء حسب مستوى الصعوبة:

الصعوبة الأساس DuPO التحسن
ابتدائي 89.2% 92.1% +2.9 نقطة
متوسط 72.4% 78.8% +6.4 نقطة
متقدم 45.6% 53.2% +7.6 نقطة

مع ازدياد صعوبة المسألة، يتضخم التحسن في الأداء من DuPO. يتسق هذا مع الاستنتاج بأن أثر تنوع السياسة عبر الاستكشاف يكون أكثر وضوحًا في المسائل المعقدة.

أداء إعادة ترتيب الوثائق

في مهمة إعادة الترتيب، سجّل DuPO تحسنًا بمقدار 9.3 نقطة في NDCG@10، وهو أبرز نتيجة بين المهام الثلاث. يكون إسهام سياسة الاستكشاف أكبر بشكل خاص في مهمة إعادة الترتيب حيث يلزم اكتشاف معايير متنوعة للحكم على الصلة.

تحليل الاستقرار وكفاءة التدريب

تجاوزًا لتحسينات الأداء، أبدى DuPO أيضًا استقرارًا تدريبيًا متفوقًا. تضمّن تباين إشارة المكافأة خلال التدريب انحرافًا معياريًا أقل بنسبة 34% مقارنةً بأساليب السياسة الواحدة.

على صعيد كفاءة التدريب، لتحقيق مستوى الأداء ذاته، احتاج DuPO إلى:

  • خطوات تدريب أقل بنسبة 23% مقارنةً بـ PPO
  • خطوات تدريب أقل بنسبة 31% مقارنةً بـ DPO

تحليل السلوكيات الناشئة

التخصص التلقائي للمهام

من الملاحظات الأكثر إثارةً للاهتمام خلال تدريب DuPO هو التخصص التلقائي للسياستين في جوانب مختلفة حتى للمهمة ذاتها.

في مهمة الترجمة مثلًا، تمحورت سياسة الاستكشاف أكثر حول توليد بنى نحوية وخيارات مفردات متنوعة، فيما ركّزت سياسة الاستغلال أكثر على الدقة والطلاقة. ظهر هذا التخصص التلقائي دون أن يكون مُصمَّمًا صراحةً.

ديناميكيات التعلم التكاملية

أظهرت ديناميكيات تعلم السياستين نمطًا تكامليًا. في المراحل الأولى من التدريب، تتطور سياسة الاستكشاف بسرعة أكبر، لكن مع مرور الوقت تلحق بها سياسة الاستغلال تدريجيًا وتتجاوزها.

تفاصيل التنفيذ

تكوين البنية

يمكن تنفيذ DuPO فوق بنيات نماذج لغوية كبيرة متنوعة. الإعداد المحدد المستخدم في البحث:

  • النموذج الأساسي: نماذج قائمة على LLaMA بـ 7 مليار و13 مليار معامل
  • تنفيذ السياسة: تشترك كل سياسة في أوزان النموذج الأساسي ذاتها لكنها تملك تهيئات طبقة ضبط دقيق مختلفة

إعدادات المعاملات الفائقة

إعدادات المعاملات الفائقة الرئيسية:

config = {
    "exploration_lr": 2e-5,
    "exploitation_lr": 1e-5,
    "alternating_interval": 100,  # steps
    "cross_policy_reward_weight": 0.3,
    "kl_penalty_coefficient": 0.1,
    "max_sequence_length": 2048,
    "batch_size": 32
}

ملاحظة مهمة في التنفيذ: إعداد معدل التعلم للسياستين. تستخدم سياسة الاستكشاف معدل تعلم أعلى للتحديثات الأسرع والأكثر استكشافًا، فيما تستخدم سياسة الاستغلال معدل تعلم أدنى لتفضيل التقارب المستقر.

تحسين كفاءة الذاكرة

نظرًا لأن DuPO يدرّب سياستين في آنٍ واحد، قد يُضاعف استخدام الذاكرة تقريبًا إذا نُفِّذ بشكل ساذج. لمعالجة هذا، طبّق فريق البحث تقنيات تحسين متعددة: مشاركة الأوزان بمشاركة الطبقات السفلى لكلتا السياستين، ونقطة التفتيش للتدرج لتقليل استخدام الذاكرة، والتجميع الديناميكي بضبط حجم الدفعة حسب متطلبات الحوسبة لكل سياسة.

أتاحت هذه التحسينات تشغيل DuPO في حيز ذاكرة بنسبة 1.4x من أسلوب السياسة الواحدة، بدلًا من 2x.

التطبيقات والإمكانيات

القابلية للتطبيق في التعلم متعدد المهام

تكتسب البنية المزدوجة لـ DuPO قوةً خاصة في بيئات التعلم متعدد المهام. يمكن لسياسة الاستكشاف إيجاد استراتيجيات حل مشتركة عبر مهام متنوعة، فيما يمكن لسياسة الاستغلال التخصص لكل مهمة.

عمليًا، يتيح هذا لنموذج DuPO واحد تحقيق أداء عالٍ عبر مهام متعددة في آنٍ واحد.

القيمة في بيئات التعلم المستمر

يمتلك DuPO ميزة في بيئات التعلم المستمر أيضًا. مع إضافة مهام أو بيانات جديدة، تكتشف سياسة الاستكشاف بكفاءة فضاءات الحلول الجديدة فيما تُحافَظ على المعرفة المتراكمة لسياسة الاستغلال وتُوظَّف.

يتيح هذا تحسينًا تدريجيًا في الأداء دون نسيان كارثي.

الإمكانيات في سيناريوهات الموارد المحدودة

في سيناريوهات الموارد المحدودة ذات البيانات الموسومة الشحيحة، يُظهر DuPO قيمةً خاصة. في التجارب، أظهر DuPO أداءً متفوقًا باستخدام 30% فقط من البيانات مقارنةً بأساليب السياسة الواحدة التي تحقق الأداء ذاته.

القيود واتجاهات البحث المستقبلية

القيود الحالية

أبرز قيود DuPO: أولًا، تعقيد التدريب إذ تجعل إدارة سياستين في آنٍ واحد عملية ضبط المعاملات الفائقة أكثر تعقيدًا. ثانيًا، تحديات القابلية للتفسير حيث يصعب فهم مبررات قرارات كل سياسة. ثالثًا، تحديات التوسع إذ لم يُتحقق بالكامل من فاعلية نهج السياسة المزدوجة عند التوسع لنماذج كبيرة جدًا.

اتجاهات البحث المستقبلية

التوسع إلى ثلاث سياسات أو أكثر، والترجيح الديناميكي للسياسات بدلًا من فترات تناوب ثابتة، والتطبيق في بيئات متعددة الوسائط، وتطوير تقنيات آلية لإيجاد التوازن الأمثل بين السياستين.

الخلاصة

يقدّم DuPO حلًا مبتكرًا لمعضلة الاستكشاف-الاستغلال الجوهرية في التدريب اللاحق للنماذج اللغوية. بفصل دورَي الاستكشاف والاستغلال في سياستين متمايزتين وتدريبهما ليتكاملا، يحقق أداءً وثباتًا أفضل من أساليب السياسة الواحدة.

تُثبت النتائج التجريبية هذه الفاعلية بوضوح: تحسن 2.13 COMET في الترجمة، و6.4 نقطة في دقة الرياضيات، و9.3 نقطة في إعادة الترتيب.

مرجع: DuPO: Dual-Policy Optimization for Large Language Models.