Vibe-Coding-Instruct: ضبط دقيق موجّه لوكيل برمجة خفيف الوزن بـ 1.1 مليون عينة

⏱️ وقت القراءة المقدر: 8 دقائق

مخطط مفاهيمي لـ Vibe Coding Instruct SFT

نظرة عامة على مجموعة البيانات

Vibe-Coding-Instruct مجموعة بيانات بأزواج تعليمات واستجابات برمجية نشرها lazarus19 على HuggingFace. تضم 1.1 مليون عينة في التقسيم التدريبي، برخصة Apache-2.0، وبحجم إجمالي 459 ميجابايت. ثمة 7 نماذج مشتقة مدرَّبة على هذه المجموعة متاحة علناً، تنتمي أساساً إلى سلسلة RavenX-OpenFable-Coder المبنية على بنيتَي Gemma وQwen.

يشير مصطلح “vibe coding” إلى أسلوب تطوير تُولّد فيه نماذج اللغة الشفرة بالكامل بينما يكتفي الإنسان بتوجيه المسار العام. صُمّمت هذه المجموعة كبيانات تعليمات لضبط النماذج دقيقاً لدعم هذا الأسلوب.

البنية والمخطط

الحجم

التقسيم التدريبي: 1,100,000 عينة
حجم الملف الكلي: 459 ميجابايت
اللغة: الإنجليزية
صيغة الملف: JSON (المصدر)، Parquet (تحويل تلقائي من HuggingFace)

المخطط

يتكون كل سجل من أربعة حقول:

الحقل	النوع	نطاق القيم
`instruction`	string	35 إلى 89 حرفاً
`input`	string	قيمة مفردة عبر مجموعة البيانات كاملة
`output`	string	14 قيمة فريدة
`prompt`	string	170 إلى 337 حرفاً

يحتوي حقل instruction على نص المهمة البرمجية، بينما يحمل حقل prompt المدخل المنسَّق الذي يُمرَّر فعلياً للنموذج. عدد القيم الفريدة 14 في حقل output يعني أن أنواع التعليمات تتجمع في فئات محددة.

أنواع التعليمات

الفئات المُستخرَجة من العينات المتاحة:

إنشاء مساعدات برمجية وتطبيقات ذكاء اصطناعي
نشر تطبيقات مستندة إلى MERN وتطبيقات ذكاء اصطناعي وبيئات حاويات
تصحيح إعادة الرسم اللانهائي في React وأخطاء API 500
تصميم منصات دردشة آلية ومنصات SaaS قابلة للتوسع وأنظمة إدارة مشاريع ذكاء اصطناعي
دمج نماذج اللغة المحلية عبر Ollama وllama.cpp

الرخصة

Apache-2.0، تتيح الاستخدام التجاري والتعديل وإعادة التوزيع واستخدام براءات الاختراع دون التزامات بنشر الشفرة المصدرية. تُمكّن من دمجها في خطوط أنابيب الضبط الدقيق الداخلية للمؤسسات دون قيود.

رخصة النموذج المدرَّب على مجموعة بيانات Apache-2.0 تتبع رخصة النموذج الأساسي المستخدم، لذا يجب التحقق من شروط رخصة نماذج Qwen أو Gemma الأساسية بشكل منفصل.

خصائص مجموعة البيانات من منظور خط أنابيب SFT

الجدوى العملية لـ 1.1 مليون عينة

مليون عينة وما يزيد حجم كافٍ بوجه عام لضبط نماذج الشفرة الصغيرة (1 إلى 7 مليار معامل) بالتعليمات. البيانات الزائدة عن الحاجة قد تؤدي إلى الإفراط في الملاءمة لأنواع تعليمات بعينها أو إطالة وقت التدريب. بالمقارنة مع Alpaca وFLAN في المراحل الأولى التي اعتمدت 50,000 إلى 100,000 عينة، فالمجموعة الحالية تفوقها بأكثر من عشرة أضعاف.

حجم الملف الفعلي 459 ميجابايت يقع ضمن نطاق ما يمكن معالجته في حقبة تدريب واحدة على عقدة A100 80GB أو عقدتَي A10G 24GB.

دلالة 14 قيمة فريدة في حقل `output`

قلة القيم الفريدة إلى 14 في حقل output تُعدّ قيداً في هذه المجموعة. إذا كانت المخرجات تتوزع في أنماط استجابة ذات فئات ثابتة لا مقاطع شفرة متنوعة، فقد يعاني النموذج المدرَّب على هذه البيانات وحدها من ضعف التعميم على مهام برمجية أوسع نطاقاً. يستدعي ذلك اعتماد استراتيجية خلط مع مجموعات بيانات توليد شفرة أخرى أو إضافة بيانات مخصصة للمجال.

مسار نماذج مشتقة موثّق

وفقاً لصفحة المجموعة، ثمة 7 نماذج مدرَّبة عليها، منها سلسلة RavenX-OpenFable-Coder على بنيتَي Gemma وQwen، مما يعني وجود خط أنابيب قابل للإعادة وقابل للتعديل بالفعل.

بناء خط أنابيب SFT لوكيل برمجة مخصص

الإعداد الأساسي للتدريب

تحميل البيانات مباشرةً باستخدام مكتبة HuggingFace datasets:

from datasets import load_dataset

dataset = load_dataset("lazarus19/Vibe-Coding-Instruct")
train_data = dataset["train"]

في تدريب SFT، يُستخدم حقل prompt مدخلاً للنموذج وحقل output تسمية هدفاً. مكتبة TRL (Transformer Reinforcement Learning) عبر SFTTrainer تُبسّط الإعداد.

استراتيجية خلط البيانات المخصصة للمجال

الأكثر فاعليةً عملياً من استخدام 1.1 مليون عينة كاملةً كما هي هو إضافة تعليمات مخصصة لمنصة ThakiCloud ودمجها. توليد آلاف التعليمات الداخلية التي تغطي توليد ملفات Kubernetes manifest وكتابة إعدادات ArgoCD وتوليد شفرة Go API، ثم دمجها، يُضيف قدرات متخصصة للمجال فوق القدرات البرمجية العامة.

هذا النهج فعّال أيضاً حين يُدمج مع Fable-5-traces: ضبط أساسي لقدرة توليد الشفرة العامة باستخدام Vibe-Coding-Instruct، ثم ضبط إضافي لسياسة استدعاء الأدوات باستخدام Fable-5-traces في خطوتَي SFT متتاليتَين.

اختيار النموذج الأساسي

تشير مسارات النماذج المشتقة الظاهرة في صفحة المجموعة إلى أن Qwen2.5-Coder وسلسلة Gemma3 هي الأكثر استخداماً. للنشر المحلي في بيئة ThakiCloud، يمكن ضبط Qwen2.5-Coder-7B-Instruct باستخدام هذه المجموعة لبناء وكيل برمجة داخلي دون الاعتماد على API خارجية.

زوايا الاستفادة لدى ThakiCloud

تتلخص توجيهات استخدام هذه المجموعة في منصة ThakiCloud كالتالي:

البيانات الأساسية لوكيل برمجة ذاتي الاستضافة: رخصة Apache-2.0 تتيح الدمج في خطوط أنابيب الضبط الدقيق الداخلية دون قيود. معالجة 1.1 مليون عينة من Vibe-Coding-Instruct في مهمة دُفعية Kueue تُتيح إكمال دورة التدريب كاملةً على البنية التحتية لـ ThakiCloud.

اكتساب قدرة برمجة أساسية: حين تشحّ البيانات لمجال بعينه، تُوظَّف Vibe-Coding-Instruct أولاً لاكتساب القدرة البرمجية العامة، ثم تُضاف بيانات المجال الداخلية تدريجياً في مرحلة لاحقة.

الاستناد إلى النماذج المشتقة RavenX: الرجوع إلى إعدادات التدريب في النماذج المشتقة السبعة المتاحة لتحديد نقطة انطلاق بأقل تكلفة تجريبية.

ثمة جانب يستوجب الانتباه: القيد المتمثل في 14 قيمة فريدة فقط في حقل output يُلمح إلى احتمال تعثر النموذج المدرَّب على هذه البيانات وحدها في التعميم على مهام برمجية جديدة. استراتيجية الدمج مع مجموعات بيانات مكمّلة أو بيانات داخلية هي المسار الموصى به.

خلاصة

Vibe-Coding-Instruct مجموعة تعليمات برمجية بحجم 1.1 مليون عينة ورخصة Apache-2.0 وحجم 459 ميجابايت. لها سجل إنتاج موثّق بـ 7 نماذج مشتقة، ومسار الضبط الدقيق على أساس Qwen وGemma مُختبَر. تتيح انطلاقاً بعتبة دخول منخفضة لتجارب SFT لوكيل برمجة مخصص. مع الإدراك المسبق لمحدودية تنوع output، وتبنّي استراتيجية دمجها مع بيانات متخصصة للمجال، يصبح بناء وكيل برمجة محلي عملي متاحاً.

HuggingFace: lazarus19/Vibe-Coding-Instruct

Vibe-Coding-Instruct: ضبط دقيق موجّه لوكيل برمجة خفيف الوزن بـ 1.1 مليون عينة

نظرة عامة على مجموعة البيانات

البنية والمخطط

الحجم

المخطط

أنواع التعليمات

الرخصة

خصائص مجموعة البيانات من منظور خط أنابيب SFT

الجدوى العملية لـ 1.1 مليون عينة

دلالة 14 قيمة فريدة في حقل `output`

مسار نماذج مشتقة موثّق

بناء خط أنابيب SFT لوكيل برمجة مخصص

الإعداد الأساسي للتدريب

استراتيجية خلط البيانات المخصصة للمجال

اختيار النموذج الأساسي

زوايا الاستفادة لدى ThakiCloud

خلاصة

참고

SkillRet: 에이전트가 수천 개 스킬을 다루는 시대의 검색 표준을 ThakiCloud가 만들다

SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)

코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)

نظرة عامة على مجموعة البيانات

البنية والمخطط

الحجم

المخطط

أنواع التعليمات

الرخصة

خصائص مجموعة البيانات من منظور خط أنابيب SFT

الجدوى العملية لـ 1.1 مليون عينة

دلالة 14 قيمة فريدة في حقل output

مسار نماذج مشتقة موثّق

بناء خط أنابيب SFT لوكيل برمجة مخصص

الإعداد الأساسي للتدريب

استراتيجية خلط البيانات المخصصة للمجال

اختيار النموذج الأساسي

زوايا الاستفادة لدى ThakiCloud

خلاصة

참고

SkillRet: 에이전트가 수천 개 스킬을 다루는 시대의 검색 표준을 ThakiCloud가 만들다

SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)

코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)

دلالة 14 قيمة فريدة في حقل `output`