⏱️ الوقت المقدر للقراءة: 16 دقيقة

الملخص TRL (التعلم التعزيزي للمحولات) هو مكتبة متخصصة في ما بعد تدريب النماذج اللغوية الكبيرة طورتها 🤗Hugging Face. يوفر دعماً متكاملاً لتقنيات التعلم التعزيزي المتطورة بما في ذلك SFT وDPO وGRPO وPPO ونمذجة المكافآت، ويستوعب مشاريع من جميع الأحجام من CLI إلى التدريب الموزع. النماذج الرئيسية بما في ذلك Llama 3 وQwen وDeepSeek-R1 تم تدريبها بعد التدريب باستخدام هذه المكتبة.


ما هو TRL؟

TRL (التعلم التعزيزي للمحولات) يمثل مكتبة متخصصة في ما بعد تدريب النماذج اللغوية الكبيرة من الجيل التالي مبنية على نظام 🤗Hugging Face البيئي. مع أكثر من 14,000 نجمة على GitHub، رسخ نفسه كمعيار الصناعة الحالي.

الميزات الأساسية

تقنيات ما بعد التدريب الشاملة: يدعم جميع الخوارزميات الرئيسية بما في ذلك SFT وDPO وGRPO وPPO ونمذجة المكافآت القابلية للتوسع: دعم مثالي من GPU واحد إلى مجموعات متعددة العقد الكفاءة: التكامل مع 🤗PEFT وUnsloth يمكّن تدريب النماذج الكبيرة حتى على الأجهزة المحدودة سهولة الاستخدام: واجهة CLI قابلة للاستخدام بدون برمجة تكامل النظام البيئي: توافق مثالي مع Transformers وAccelerate وPEFT

لماذا يجب عليك استخدام TRL؟

إطار عمل مُثبت في الصناعة

النماذج اللغوية الكبيرة الرئيسية تم تدريبها بعد التدريب باستخدام TRL:

Llama 3: استخدمت Meta TRL لتدريب DPO DeepSeek-R1: قدرات التفكير المحسنة من خلال خوارزمية GRPO سلسلة Qwen: تجارب ما بعد التدريب المختلفة من Alibaba Gemma: ضبط التعليمات من Google

سد الفجوة الأكاديمية-الصناعية

أحدث الخوارزميات المُثبتة في البحث يمكن تطبيقها فوراً في الإنتاج:

يُظهر الإطار اعتماداً سريعاً للتقنيات المتطورة، مع دعم DPO خلال أشهر من نشر الورقة البحثية وتطبيقه بنجاح على Llama 3، ودمج GRPO بعد فترة قصيرة من نشر البحث واستخدامه في DeepSeek-R1، وإتاحة ORPO بسرعة بعد التقديم الأكاديمي واعتماده عبر نماذج متعددة.

طرق التثبيت

التثبيت الأساسي

pip install trl

أحدث الميزات

pip install git+https://github.com/huggingface/trl.git

إعداد بيئة التطوير

git clone https://github.com/huggingface/trl.git
cd trl/
pip install -e .[dev]

دليل شامل للمدربين الأساسيين

SFTTrainer: الضبط الدقيق المُشرف عليه

SFT (الضبط الدقيق المُشرف عليه) يمثل الطريقة الأساسية لتكييف النماذج المدربة مسبقاً مع مهام أو مجالات محددة.

المفاهيم الأساسية

الغرض: تدريب نماذج اللغة العامة على تنسيقات محددة مثل واجهات المحادثة البيانات: بيانات التعلم المُشرف عليه المكونة من أزواج إدخال-إخراج دالة الخسارة: خسارة نمذجة اللغة القياسية باستخدام Cross-Entropy

التنفيذ العملي

تتضمن عملية تنفيذ SFT تحميل النماذج والمُرمزات وتحضير مجموعات البيانات مع التنسيق المناسب وتكوين إعدادات مدرب SFT بما في ذلك حدود طول التسلسل وتحديدات حقل النص وتحسين التعبئة وتنفيذ التدريب مع المراقبة والتقييم الشاملين.

التكوين المتقدم

يتطلب التدريب المتقدم لـ SFT اعتباراً دقيقاً لحجج التدريب بما في ذلك أدلة الإخراج وعدد العصور وأحجام الدفعات وتراكم التدرج ومعدلات التعلم وفترات التسجيل واستراتيجيات التقييم ونقاط تفتيش النموذج. يتضمن التكوين أيضاً تحضير مجموعة البيانات مع تقسيمات التدريب-التحقق المناسبة ومقاييس التقييم لمراقبة الأداء.

DPOTrainer: تحسين التفضيل المباشر

DPO (تحسين التفضيل المباشر) يمثل طريقة مبتكرة تستخدم التغذية الراجعة البشرية مباشرة لتحسين النماذج، مما يقدم مزايا كبيرة على النهج التقليدية.

المفاهيم الأساسية

الغرض: التعلم المباشر للتفضيلات البشرية لتوليد استجابات أفضل البيانات: أزواج ثلاثية تتكون من المطالبات والاستجابات المفضلة والاستجابات غير المفضلة المزايا: تنفيذ أكثر استقراراً وبساطة مقارنة بـ PPO

المبادئ الرياضية

يحسن DPO دالة خسارة محددة تدمج تعلم التفضيل من خلال نسب الاحتمالية بين نماذج السياسة والمرجع. الصيغة الرياضية توازن بين إرضاء التفضيل والتنظيم لمنع الانحراف المفرط عن سلوك النموذج الأساسي.

التنفيذ العملي

يتضمن تنفيذ DPO تحضير النماذج مع تكوينات السياسة والمرجع وتحميل مجموعات بيانات التفضيل مع التنسيق المناسب وتكوين معاملات خاصة بـ DPO بما في ذلك قيم بيتا ومعدلات التعلم وتنفيذ التدريب مع المراقبة الدقيقة لمقاييس توافق التفضيل.

تنسيق بيانات DPO

تتطلب مجموعات بيانات التفضيل تنسيقاً محدداً مع المطالبات والاستجابات المختارة التي تمثل المخرجات المفضلة والاستجابات المرفوضة التي تمثل البدائل غير المفضلة. يمكّن هذا النهج المنظم من التعلم الفعال للتفضيل من خلال التدريب التباين.

GRPOTrainer: تحسين السياسة النسبية الجماعية

GRPO (تحسين السياسة النسبية الجماعية) يمثل خوارزمية تعلم تعزيزي جديدة أكثر كفاءة في الذاكرة من PPO مع الحفاظ على معايير الأداء.

المفاهيم الأساسية

الغرض: حل مشاكل ذاكرة PPO مع الحفاظ على الأداء الميزات: مُستخدم لتعزيز قدرات التفكير في DeepSeek-R1 المزايا: تعلم مستقر حتى مع السياقات الطويلة

التنفيذ العملي

يتضمن تنفيذ GRPO تحميل مجموعات البيانات مع التنسيق المناسب وتعريف دوال المكافآت لمعايير التقييم وتكوين إعدادات مدرب GRPO مع مواصفات النموذج ومعاملات التدريب وتنفيذ التدريب مع تكامل دوال المكافآت المتعددة.

استخدام دالة المكافآت المعقدة

يدعم الإطار مجموعات دوال مكافآت متطورة تقيّم جوانب متعددة من مخرجات النموذج بما في ذلك تفرد المحتوى والطول المناسب وتجنب التكرار ومقاييس الجودة الأخرى. يمكن ترجيح هذه الدوال ودمجها لإنشاء معايير تقييم شاملة.

RewardTrainer: تدريب نموذج المكافآت

نماذج المكافآت تتعلم التفضيلات البشرية وتوفر إشارات لخوارزميات التعلم التعزيزي الأخرى، وتعمل كمكونات بالغة الأهمية في خط أنابيب RLHF.

المفاهيم الأساسية

الغرض: تدريب النماذج التي تحول التغذية الراجعة البشرية إلى درجات رقمية الهيكل: عادة ما تُنفذ كمصنفات لمهام ثنائية أو انحدار الاستخدام: توفير إشارات المكافآت لـ PPO وGRPO وخوارزميات أخرى

التنفيذ العملي

يتضمن تدريب نموذج المكافآت تحضير النماذج مع رؤوس التصنيف وتحميل مجموعات بيانات التفضيل مع التنسيق المناسب وتكوين معاملات التدريب الخاصة بالمكافآت وتنفيذ التدريب مع التحقق الدقيق من فعالية تعلم التفضيل.

استخدام نموذج المكافآت

يمكن استخدام نماذج المكافآت المدربة لحساب درجات النص المولد، مما يوفر تقييمات كمية لجودة الاستجابة التي توجه المزيد من التدريب وعمليات التقييم.

خوارزميات التعلم التعزيزي المتقدمة

PPO (تحسين السياسة القريبة)

PPO يمثل طريقة RLHF التقليدية المستخدمة في سلسلة OpenAI GPT، مما يقدم ضمانات نظرية مع استقرار مُثبت.

الخصائص والقيود

المزايا: تعلم مستقر مع دعم نظري وتحقق واسع عبر تطبيقات متنوعة

العيوب: استخدام ذاكرة عالي ومتطلبات تنفيذ معقدة وأوقات تدريب ممتدة

تنفيذ TRL PPO

يتطلب تنفيذ PPO في TRL تكويناً شاملاً بما في ذلك مواصفات النموذج ومعاملات التعلم وإعدادات معالجة الدفعات وإدارة العصور. يوفر الإطار دعماً قوياً لتدريب PPO مع إدارة التعقيد المتأصل للخوارزمية.

ORPO (تحسين التفضيل بنسبة الاحتمالات)

ORPO يمثل طريقة فعالة تؤدي SFT وتعلم التفضيل بشكل متزامن، مما يقلل من تعقيد خط أنابيب التدريب الإجمالي.

الابتكار الأساسي

التعلم الموحد: يؤدي SFT وDPO في مرحلة تدريب واحدة الكفاءة: يلغي الحاجة لمراحل SFT منفصلة الأداء: يحقق أداءً شبيهاً بـ DPO مع تقارب أسرع

KTO (تحسين كانمان-تفيرسكي)

KTO يدمج التحيزات المعرفية البشرية في عمليات التحسين، مما يمثل نهجاً جديداً لتعلم التفضيل.

الميزات

أساس علم الإدراك: يعكس ميول النفور من الخسارة البشرية كفاءة البيانات: فعال حتى مع بيانات تفضيل محدودة الاستقرار: تعلم أكثر استقراراً مقارنة بـ DPO

استخدام CLI

يوفر TRL قدرات CLI قوية تمكّن الاستخدام بدون كتابة كود.

أوامر SFT

يدعم CLI تدريب SFT الشامل مع تكوينات أساسية للبدايات السريعة وخيارات متقدمة للتخصيص التفصيلي بما في ذلك مواصفات النموذج واختيار مجموعة البيانات وأدلة الإخراج وعصور التدريب وأحجام الدفعات ومعدلات التعلم وأطوال التسلسل وإعدادات التحسين.

أوامر DPO

تدريب DPO من خلال CLI يمكّن تحسين التفضيل مع مواصفات النموذج ومجموعة البيانات وتكوين الإخراج وضبط المعاملات الفائقة بما في ذلك تعديل معامل بيتا وتحسين معدل التعلم.

وثائق المساعدة

يوفر الإطار وثائق مساعدة شاملة من خلال نظرات عامة على الأوامر العامة ومساعدة أوامر محددة لشروحات معاملات مفصلة وأمثلة الاستخدام.

التدريب الموزع والتحسين

تكامل 🤗Accelerate

يوفر تكامل Accelerate اكتشاف وتكوين البيئة الموزعة التلقائي، مما يمكّن التوسع السلس عبر وحدات معالجة رسوميات وعقد متعددة بدون متطلبات إعداد يدوي.

تكوين DeepSpeed

يمكّن تكامل DeepSpeed من تحسين الذاكرة المتقدم من خلال ملفات التكوين التي تحدد إعدادات الدقة ومراحل تحسين الصفر وتفريغ المحسن وإدارة حجم الدفعة للتدريب الفعال واسع النطاق.

تكامل Unsloth

يتكامل TRL بشكل مثالي مع Unsloth لتوفير تدريب أسرع بـ 2x من خلال تحميل النموذج المحسن مع دعم التكميم وتطبيق التحسين التلقائي وتوافق المدرب السلس.

نصائح التنفيذ العملي

تحضير مجموعة البيانات

يتطلب تحضير مجموعة البيانات الفعال اعتباراً دقيقاً لتنسيق البيانات لنهج تدريب مختلفة. تحتاج بيانات SFT تنسيق محادثة مع تحديد واضح للمستخدم-المساعد، بينما تتطلب بيانات DPO أزواج تفضيل مع مطالبات واستجابات مقارنة.

ضبط المعاملات الفائقة

يتضمن تحسين المعاملات الفائقة الناجح تكوينات خاصة بالمهام مع إعدادات محافظة للتدريب المستقر وإعدادات عدوانية للتكيف السريع. يدعم الإطار تعديل المعاملات الشامل لمعدلات التعلم وأحجام الدفعات وتراكم التدرج وتقنيات التنظيم.

التقييم والمراقبة

يتطلب التقييم الشامل التكامل مع منصات المراقبة مثل WandB للتسجيل التلقائي ومقاييس التقييم المخصصة للتقييم الخاص بالمهام. يوفر الإطار قدرات تسجيل واسعة ودعم بروتوكول التقييم.

دليل استكشاف الأخطاء وإصلاحها

حلول نقص الذاكرة

يمكن معالجة قيود الذاكرة من خلال تفعيل نقاط تفتيش التدرج وتقليل أحجام الدفعات مع تراكم التدرج وتكوينات تحميل البيانات المحسنة واختيار المحسن الفعال.

حلول عدم استقرار التدريب

يمكن حل مشاكل استقرار التدريب من خلال تعديلات جدولة معدل التعلم وأنماط تراجع معدل التعلم الأكثر نعومة وضبط المعاملات الفائقة الدقيق للحفاظ على اتساق التدريب.

مشاكل تقارب DPO

يمكن معالجة مشاكل تقارب DPO من خلال توفير نموذج مرجع صريح وتعديل معامل بيتا والتحقق من جودة مجموعة البيانات لضمان تعلم التفضيل الفعال.

الاتجاهات الحديثة وخارطة الطريق

التحديثات الرئيسية لعام 2025

يستمر الإطار في التطور مع تحسينات CLI لواجهات أوامر أكثر بديهية وإضافات خوارزميات جديدة بما في ذلك ORPO وKTO وSimPO وتحسينات الأداء من خلال تكامل Unsloth الكامل ودعم متعدد الوسائط لما بعد تدريب نماذج الرؤية واللغة.

اتجاهات التطوير المستقبلية

تتضمن التطورات المتوقعة التعلم التعزيزي ذاتي الإشراف للتعلم بدون مكافآت خارجية والذكاء الاصطناعي الدستوري لتوافق الذكاء الاصطناعي القائم على المبادئ وRLHF الفيدرالي للتعلم الموزع للتغذية الراجعة البشرية عبر بيئات متعددة.

المجتمع والموارد

الموارد الرسمية

يوفر نظام TRL البيئي وثائق شاملة من خلال مستودعات GitHub ومواقع الوثائق الرسمية ومجموعات أوراق منسقة تغطي أحدث البحوث في التعلم التعزيزي للمحولات.

مواد التعلم

تتضمن الموارد التعليمية أمثلة رسمية مع تنفيذات مفصلة ومجموعات دفاتر للتعلم العملي ومنشورات مدونة توفر أدلة متعمقة للتقنيات المتقدمة.

دعم المجتمع

يحدث التفاعل المجتمعي من خلال قنوات Discord للمساعدة في الوقت الفعلي ومناقشات المنتدى للأسئلة التقنية المفصلة ومشاكل GitHub لتقارير الأخطاء وطلبات الميزات.

الخلاصة

يمثل TRL إطار عمل ما بعد تدريب النماذج اللغوية الكبيرة الأكثر شمولية المتاح حالياً. يوفر خوارزميات متطورة مُثبتة في البحث الأكاديمي مع استقرار مستوى الإنتاج مع دعم المستخدمين من جميع مستويات المهارة من المبتدئين إلى الخبراء.

قدرة الإطار على دعم الاستخدام بدون كود من خلال CLI إلى النشر واسع النطاق من خلال التدريب الموزع تلبي متطلبات متنوعة ورسخت نفسها كـ المعيار الفعلي لما بعد تدريب النماذج اللغوية الكبيرة. مع النماذج الرئيسية بما في ذلك Llama 3 وDeepSeek-R1 وQwen التي تستخدم بالفعل TRL لما بعد التدريب، فإنه يمثل أداة أساسية لأي شخص مهتم بتطوير النماذج اللغوية الكبيرة.


إذا كان هذا الدليل مفيداً، يرجى إعطاء TRL GitHub نجمة ⭐!