Fable-5-traces: كيفية تقطير النماذج الصغيرة من آثار جلسات وكيل البرمجة
⏱️ وقت القراءة المقدر: 8 دقائق

نظرة عامة على مجموعة البيانات
Fable-5-traces هي مجموعة آثار جلسات وكيل البرمجة التي نشرها Glint-Research. تحتوي على الاستدلال واستدعاءات الأدوات والمخرجات النصية الناتجة عن عمل Fable 5، أي Claude Code، في مهام برمجية فعلية، وقد أُعيد تنسيقها ونشرها بصيغة Hugging Face Agent Traces.
بيانات الأثر الخام التي تُمكّن من تتبع “ما فكّر فيه الوكيل، وأي أداة اختار ولماذا، وكيف تعامل مع النتائج” هي المادة الأساسية لتدريب نماذج اللغة الصغيرة لتكون نماذج سياسة. هذه المجموعة مصمّمة تحديداً لهذا الغرض.
البنية والمخطط
الحجم
- إجمالي الأمثلة التدريبية المدمجة: 4,665
- ملفات أثر Pi-style الأصلية: 4,665
- عدد الجلسات المصدر الفريدة: 60
- الحجم الكلي: 188 ميجابايت
منظوران للبيانات
توفر مجموعة البيانات منظورَين متزامنَين:
منظور أثر Pi-style (pi-traces/*.jsonl): ملفات أثر خام تحوي أحداث الجلسة وتغييرات النموذج وبيانات مستوى التفكير وسياق المستخدم واستدلال المساعد ومخرجات الأدوات. تُستخدم لإعادة إنتاج التسلسل الفعلي لتفكير الوكيل.
منظور JSONL المدمج (fable5_cot_merged.jsonl): ملف يحوّل جميع الآثار إلى سجلات مسطّحة. تشمل الحقول الرئيسية:
| الحقل | الوصف |
|---|---|
uid |
معرّف فريد |
source_file |
اسم ملف أثر Pi الأصلي |
context |
سياق المهمة (متوسط نحو 6,600 حرف) |
cot |
سلسلة استدلال الوكيل (وسيط نحو 2,365 حرف) |
output_type |
tool_use أو text |
output |
استدعاء الأداة الفعلي أو المخرج النصي |
completion |
المحتوى الكامل المنجز (متوسط نحو 3,700 حرف) |
model |
معلومات النموذج المستخدم في الاستدعاء |
origin |
مصدر الأثر |
توزيع الأدوات
من أصل 4,665 سجلاً، 3,799 سجلاً (81.44%) هي سجلات tool-use و866 سجلاً (18.56%) هي سجلات مخرجات نصية. تشمل فئات الأدوات: Bash وEdit وRead وWrite وPowerShell وWebSearch وغيرها من الفئات التي يستخدمها وكيل البرمجة الفعلي.
يعكس هذا التوزيع واقع وكيل البرمجة: الجزء الأكبر مما تنتجه نماذج اللغة في مهام البرمجة هو استدعاءات أدوات لا نصوص.
الوسوم
وسوم مجموعة البيانات: agent-traces وpi-agent وclaude-code وfable-5 وchain-of-thought وtool-use
الرخصة
AGPL-3.0، وهي رخصة copyleft تفرض نشر الشفرة المصدرية. إذا وُظِّف نموذج مدرَّب على هذه البيانات ضمن خدمة عامة، وجب نشر شفرة تلك الخدمة بالكامل وفق شروط AGPL-3.0. لا قيود على الاستخدام البحثي الداخلي أو الخدمات الخاصة ذاتية الاستضافة.
في البيئات التجارية التي تستهدف خدمات عامة، يجب مراجعة الرخصة مسبقاً. في بيئة تشغيل ThakiCloud البحثية أو الأدوات الداخلية، لا تُشكّل AGPL-3.0 قيداً عملياً.
الاستخدام في التدريب والتقييم
التقطير (Distillation)
الاستخدام الرئيسي لهذه المجموعة هو نقل سلوك نموذج وكيل كبير إلى نموذج أصغر. المنهجية كالتالي:
أولاً، يُبنى من fable5_cot_merged.jsonl بيانات SFT مستندةً إلى حقلَي context وcot وoutput. يُحوَّل مسار الاستدلال من سياق محدد إلى اختيار أداة بعينها إلى ثلاثية (مدخلات، استدلال، مخرجات).
باستخدام هذه الثلاثيات لضبط نموذج شفرات صغير كـ Qwen 2.5 Coder 7B أو DeepSeek Coder 6.7B بالضبط الدقيق الموجّه (SFT)، يمكن محاكاة جزء من سلوك tool-use المميز لـ Fable 5.
نمذجة سياسة استدعاء الأدوات
سجلات tool-use البالغة 3,799 سجلاً مناسبة أيضاً لتدريب نماذج سياسة اختيار الأدوات: متى يُستخدم Bash ومتى يُستخدم Read وأيهما يُفضَّل بين Edit وWrite. تتوزع هذه الأنماط عبر 60 جلسة.
تصوير الأثر
يصلح منظور أثر Pi-style لإعادة إنتاج جلسات الوكيل. يمكن بناء أدوات لمراجعة بشرية تُجيب عن: لماذا توقف الوكيل عند خطوة بعينها؟ وبأي ترتيب قرأ الملفات وحرّرها؟
زوايا الاستفادة لدى ThakiCloud
في سياق منصة ThakiCloud للذكاء الاصطناعي على Kubernetes، يتجلى الاستخدام الأكثر مباشرةً لهذه المجموعة في اتجاهين:
تدريب وكيل برمجة محلي: في البيئات التي لا يمكن فيها استخدام وكلاء API خارجية بسبب متطلبات أمنية كتلك الصادرة عن الجهات الحكومية، يمكن ضبط نماذج Qwen بحجم 7 إلى 14 مليار معامل باستخدام Fable-5-traces لبناء وكيل برمجة ذاتي الاستضافة. لا تسري على الخدمات الداخلية التزامات نشر الشفرة المفروضة بموجب AGPL-3.0.
التحقق من سياسة أدوات الوكيل: يمكن مقارنة ترتيب الوكيل الداخلي في استخدام الأدوات مع baseline Fable 5. تُشكّل نسبة توزيع الأدوات في 3,799 سجل tool-use نقطة مرجعية لقياس أنماط استخدام الأدوات في الوكيل الداخلي كمياً.
ربط مجموعة البيانات مباشرةً بسير عمل التدريب المستند إلى Kueue يُتيح إدارة تجارب SFT على Fable-5-traces كمهام دُفعية على Kubernetes. حجم 188 ميجابايت قابل للمعالجة بيُسر على عقدة A10G GPU مفردة.
خلاصة
Fable-5-traces هي مجموعة بيانات أثر صغيرة الحجم ومكثّفة المحتوى. الـ 4,665 سجلاً ليست كبيرةً بالأرقام المطلقة، لكنها بيانات أثر عالية الجودة تغطي العملية بأكملها من الاستدلال إلى استدعاء الأدوات عبر 60 جلسة. مع التحقق من شروط رخصة AGPL-3.0، يمكن توظيفها نقطةَ انطلاق لتجارب تقطير النماذج الصغيرة.
HuggingFace: Glint-Research/Fable-5-traces