نموذج اللغة الصغير للاستدلال (TRLM-135M): ثورة في قدرات الاستدلال للنماذج الصغيرة
⏱️ الوقت المقدر للقراءة: 8 دقائق
مقدمة
نموذج اللغة الصغير للاستدلال (TRLM-135M) هو نموذج أولي للبحث يحتوي على 135 مليون معامل، مصمم لدراسة كيفية تعلم النماذج الصغيرة للاستدلال خطوة بخطوة. مبني على أساس SmolLM2-135M-Instruct، تم تحسين هذا النموذج من خلال خط أنابيب متطور من 3 مراحل يحول قدرات المحادثة العامة إلى قدرات استدلال متقدمة.
الميزات الأساسية لـ TRLM-135M
معمارية النموذج
- النموذج الأساسي: SmolLM2-135M-Instruct (مبني على Llama 3)
- المعاملات: ~135 مليون
- الدقة: تدريب بدقة مختلطة (bfloat16)
- المعمارية: محول فك تشفير فقط
خط أنابيب التدريب المكون من 3 مراحل
المرحلة 1: ضبط التعليمات العامة (SFT)
- البيانات: ~58,000 عينة
- المحتوى: المحادثات اليومية واتباع التعليمات
- الغرض: إرساء قدرات المحادثة الأساسية
المرحلة 2: تعلم تتبع الاستدلال (SFT)
- البيانات: ~78,000 عينة
- الميزة: عمليات الاستدلال مع علامات
<think>
- الغرض: تعلم عمليات التفكير خطوة بخطوة
المرحلة 3: محاذاة التفضيلات (DPO)
- البيانات: ~50,000 زوج تفضيل
- المحتوى: آثار الاستدلال المختارة مقابل المرفوضة
- الغرض: محاذاة تفضيلات أسلوب الاستدلال
نتائج التقييم الأدائي
يظهر TRLM-135M تحسينات كبيرة على النموذج الأساسي SmolLM2-135M-Instruct عبر معايير مختلفة:
المعيار | TRLM-135M | SmolLM2-135M-Instruct | التحسين |
---|---|---|---|
تحدي ARC | 40.61 | 37.3 | +3.31 |
BBH | 36.80 | 28.2 | +8.6 |
BoolQ | 62.17 | – | غير متاح |
GSM8K | 2.59 | 1.4 | +1.19 |
IFEval | 35.49 | 29.9 | +5.59 |
MMLU | 34.95 | 29.3 | +5.65 |
PIQA | 64.91 | 66.3 | -1.39 |
دليل الاستخدام
التثبيت والإعداد
pip install -U transformers accelerate
مثال الاستخدام الأساسي
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Shekswess/trlm-135m"
device = "cuda" # أو "cpu"
# تحميل المرمز والنموذج
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
).to(device)
# مثال على المطالبة
prompt = "أعطني شرحاً مختصراً للجاذبية بمصطلحات بسيطة."
messages = [
{"role": "user", "content": prompt}
]
# تطبيق قالب المحادثة
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
# توليد
outputs = model.generate(**inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
الإعدادات الموصى بها لمهام الاستدلال
لمهام الاستدلال الثقيلة، استخدم المعاملات التالية:
temperature=0.6
top_p=0.95
الابتكارات التقنية
1. تعلم الاستدلال خطوة بخطوة
يستخدم TRLM-135M علامات <think>
لمساعدة النموذج على تعلم عمليات التفكير الداخلية. هذا النهج يعزز قدرات الاستدلال الفعلية بدلاً من مطابقة الأنماط البسيطة.
2. تحسين جودة الاستدلال من خلال DPO
تحسين التفضيل المباشر (DPO) يدرب النموذج على تفضيل عمليات الاستدلال الأفضل، مما يحسن الدقة والاتساق في مهام الاستدلال.
3. كفاءة النماذج الصغيرة
مع 135 مليون معامل فقط، يثبت TRLM-135M أن الاستدلال عالي الجودة ممكن حتى مع قيود الموارد.
الأهمية البحثية
توسيع قدرات النماذج الصغيرة
يثبت TRLM-135M أن النماذج الصغيرة يمكنها أداء مهام الاستدلال المعقدة بطرق تدريب مناسبة. هذا يفتح إمكانيات جديدة لتطبيقات الذكاء الاصطناعي في الأجهزة الطرفية والبيئات المحمولة.
منهجية تعلم الاستدلال
خط الأنابيب المكون من 3 مراحل يقدم منهجية جديدة لإنشاء نماذج صغيرة بقدرات استدلال، مما يوفر مرجعاً قيماً لتطوير النماذج الصغيرة المستقبلية.
القيود والاعتبارات
جاهزية الإنتاج
- الهلوسة: أخطاء منطقية متكررة وتوليد معلومات خاطئة
- الحجم الصغير: معرفة عامة محدودة وعمق استدلال محدود
- الإنجليزية فقط: لم يتم استكشاف القدرات متعددة اللغات
اعتبارات الاستخدام
- موصى به لأغراض البحث والتجريب فقط
- لا يجب استخدامه لاتخاذ قرارات حرجة
- يتطلب التحقق والمراجعة الإضافية
اتجاهات التطوير المستقبلية
1. الدعم متعدد اللغات
توسيع النموذج الحالي الذي يدعم الإنجليزية فقط لدعم لغات متعددة سيزيد من القابلية للاستخدام عالمياً.
2. التخصص في المجالات
تطوير نماذج استدلال متخصصة في مجالات محددة مثل الرعاية الصحية والقانون والعلوم أمر ممكن.
3. تحسينات الكفاءة
البحث مطلوب لتحقيق نفس الأداء بمعاملات أقل.
الخلاصة
يمثل TRLM-135M معلماً مهماً في بحث استدلال النماذج الصغيرة. مع 135 مليون معامل فقط، يثبت قدرات استدلال كبيرة من خلال خط أنابيب التدريب المبتكر المكون من 3 مراحل، مما يوسع إمكانيات النماذج الصغيرة.
مع تزايد أهمية الحوسبة الطرفية والذكاء الاصطناعي المحمول، البحث في نماذج الاستدلال الصغيرة مثل TRLM-135M ذو قيمة عالية. يمكننا أن نتوقع رؤية نماذج استدلال صغيرة أكثر تقدماً في المستقبل.
المراجع
- صفحة نموذج TRLM-135M على Hugging Face
- النموذج الأساسي SmolLM2-135M-Instruct
- مكتبة TRL (Transformers Reinforcement Learning)
💡 نصيحة: عند استخدام TRLM-135M، طبق إعدادات temperature=0.6
و top_p=0.95
لمهام الاستدلال. هذا التكوين يساعد في تحقيق نتائج استدلال أكثر اتساقاً ومنطقية.