نظرة عامة

AceReason-1.1-SFT، الذي أصدرته NVIDIA في 16 يونيو 2025، هو مجموعة بيانات ضبط دقيق مُشرف واسعة النطاق متخصصة في الاستدلال الرياضي والبرمجي. خدمت هذه المجموعة كبيانات تدريب SFT لنموذج AceReason-Nemotron-1.1-7B، مع جميع الاستجابات المُولدة بواسطة نموذج DeepSeek-R1.

تتكون مجموعة البيانات من إجمالي 3,970,332 عينة، بما في ذلك 2,668,741 عينة استدلال رياضي و1,301,591 عينة استدلال برمجي.

معلومات مفصلة عن مجموعة البيانات

المعلومات الأساسية

تم تطوير مجموعة بيانات AceReason-1.1-SFT من قبل NVIDIA وإصدارها في 16 يونيو 2025، تحت ترخيص المشاع الإبداعي النسبة 4.0 الدولي (CC BY 4.0). مجموعة البيانات متاحة باللغة الإنجليزية ومخزنة بتنسيقات Arrow وParquet، تحتوي على حوالي 4 مليون عينة في النطاق 1M-10M.

المواصفات التقنية

مجموعة البيانات موثقة في ورقة ArXiv بمعرف 2506.13284 ومتاحة على Hugging Face في nvidia/AceReason-1.1-SFT. حجم الملف حوالي 2.19 جيجابايت لأول 5 جيجابايت من ملفات Parquet، مع تقدير إجمالي 3,958,018 صف.

مصادر البيانات والتركيب

إحصائيات حسب المصدر

تستمد مجموعة البيانات من ثمانية مصادر بيانات رئيسية بمساهمات متفاوتة. OpenMathReasoning يوفر أكبر مساهمة مع 270,534 مشكلة تولد 2,147,570 عينة (54.1% من الإجمالي). NuminaMath-CoT يساهم بـ 78,880 مشكلة مع 521,171 عينة (13.1%). OpenCodeReasoning يضيف 35,374 مشكلة تنتج 763,495 عينة (19.2%). المصادر الأخرى تشمل MagicoderEvolInstruct مع 27,625 عينة (0.7%)، opc-sft-stage2 يساهم بـ 79,938 مشكلة لـ 323,163 عينة (8.1%)، leetcode يوفر 5,571 مشكلة لـ 126,878 عينة (3.2%)، TACO يقدم 16,726 مشكلة لـ 56,694 عينة (1.4%)، وapps يساهم بـ 159 مشكلة لـ 3,736 عينة (0.1%).

توزيع الفئات

تنقسم مجموعة البيانات إلى فئتين رئيسيتين. الاستدلال الرياضي يشمل 2,668,741 عينة (67.2%)، بشكل أساسي من OpenMathReasoning مع 2,147,570 عينة وNuminaMath-CoT مع 521,171 عينة. الاستدلال البرمجي يمثل 1,301,591 عينة (32.8%)، بما في ذلك OpenCodeReasoning مع 763,495 عينة، opc-sft-stage2 مع 323,163 عينة، leetcode مع 126,878 عينة، TACO مع 56,694 عينة، MagicoderEvolInstruct مع 27,625 عينة، وapps مع 3,736 عينة.

جودة البيانات والمعالجة المسبقة

عملية تنقيح البيانات

خضعت مجموعة البيانات لضمان الجودة الشامل من خلال ثلاث مراحل رئيسية. توليد الاستجابة ضمن الجودة المتسقة من خلال توليد جميع الاستجابات بواسطة نموذج DeepSeek-R1. إزالة التكرار تضمنت تصفية العينات مع تداخل 9-gram مع عينات الاختبار من معايير الرياضيات والبرمجة. التحقق من الجودة اختار فقط العينات التي تحتوي على عمليات استدلال عالية الجودة وإجابات دقيقة.

هيكل البيانات

كل عينة في مجموعة البيانات تتبع تنسيقاً منظماً يشمل تصنيف الفئة إما “math” أو “code”، وتحديد المصدر الذي يشير إلى مجموعة البيانات الأصلية، والمدخل الذي يحتوي على المشكلة أو السؤال، والمخرج الذي يوفر عملية الاستدلال التفصيلية والإجابة.

الترخيص وشروط الاستخدام

ترخيص CC BY 4.0

تُقدم مجموعة بيانات AceReason-1.1-SFT تحت ترخيص المشاع الإبداعي النسبة 4.0 الدولي، والذي يسمح بالاستخدام التجاري لأغراض الربح، والتعديل وتحويل مجموعة البيانات، وتوزيع النسخ الأصلية والمعدلة، والاستخدام الخاص للأغراض الشخصية. يتطلب الترخيص النسبة للمؤلف الأصلي (NVIDIA) وتحديد الترخيص، وتضمين إشعار الترخيص، والإشارة الموصى بها للتغييرات عند إجراء التعديلات.

طرق الاستخدام

تدريب نموذج SFT

يمكن تحميل مجموعة البيانات باستخدام مكتبة Hugging Face Datasets لتطبيقات الضبط الدقيق المُشرف. يمكن للمستخدمين تصفية مجموعة البيانات للتركيز على بيانات الاستدلال الرياضي من خلال اختيار العينات مع فئة “math” أو بيانات الاستدلال البرمجي من خلال التصفية لفئة “code”.

حالات الاستخدام الموصى بها

مجموعة البيانات مناسبة بشكل خاص لـ تطوير نموذج الاستدلال الرياضي لتعزيز قدرات حل المشاكل الرياضية، وتعلم عمليات الاستدلال خطوة بخطوة، وتحسين فهم المفاهيم الرياضية. لـ تطوير نموذج الاستدلال البرمجي، تدعم قدرات حل المشاكل الخوارزمية، ومهارات توليد الكود وتصحيح الأخطاء، وتحسين المنطق البرمجي. تمكن مجموعة البيانات أيضاً من تطوير نموذج الاستدلال متعدد الوسائط من خلال دمج الرياضيات والبرمجة للاستدلال الشامل في STEM، وتقييم القدرة الشاملة على حل المشاكل، وتطوير أنظمة الذكاء الاصطناعي التعليمية.

التفاصيل التقنية

طرق الوصول للبيانات

يمكن الوصول لمجموعة البيانات من خلال مكتبة Hugging Face Datasets عن طريق تحميل مجموعة البيانات الكاملة، أو استخدام وضع التدفق لكفاءة الذاكرة، أو أخذ عينات من أجزاء محددة مثل أول 10% من تقسيم التدريب.

تنسيقات التخزين

مجموعة البيانات متاحة بتنسيقات متعددة بما في ذلك Arrow لتنسيق البيانات العمودية الفعال في الذاكرة، Parquet لكفاءة الضغط المحسنة وأداء الاستعلام، وJSON لتنسيق النص عالي التوافق.

المعايير والأداء

إنجازات AceReason-Nemotron-1.1-7B

يُظهر النموذج المدرب على هذه المجموعة أداءً ممتازاً عبر معايير مختلفة. للـ الاستدلال الرياضي، يتفوق في تقييمات GSM8K وMATH وAMC. في الاستدلال البرمجي، يؤدي بشكل جيد في تقييمات HumanEval وMBPP وCodeContests. يُظهر النموذج أيضاً قدرات استدلال شاملة قوية عبر تقييمات متنوعة متعلقة بـ STEM.

فريق البحث ومعلومات الاتصال

الباحثون الرئيسيون

يشمل فريق البحث Zihan Liu (zihanl@nvidia.com)، Zhuolin Yang (zhuoliny@nvidia.com)، Yang Chen (yachen@nvidia.com)، Chankyu Lee (chankyul@nvidia.com)، وWei Ping (wping@nvidia.com).

معلومات الاستشهاد

@article{liu2025acereason,
  title={AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy},
  author={Liu, Zihan and Yang, Zhuolin and Chen, Yang and Lee, Chankyu and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei},
  journal={arXiv preprint arXiv:2506.13284},
  year={2025}
}

الاعتبارات الأخلاقية

أنشأت NVIDIA سياسات وتدابير تنفيذ لتطوير الذكاء الاصطناعي الموثوق. يُشجع المطورون على التعاون مع فرق النماذج الداخلية لضمان الامتثال لمتطلبات الصناعة وحالة الاستخدام، ومعالجة قضايا سوء استخدام المنتج غير المتوقعة، والإبلاغ عن الثغرات الأمنية لـ NVIDIA AI Concerns عند اكتشافها.

الخلاصة

يمثل NVIDIA AceReason-1.1-SFT مجموعة بيانات SFT واسعة النطاق عالية الجودة في مجالي الاستدلال الرياضي والبرمجي. متاح تحت ترخيص CC BY 4.0 للاستخدام التجاري، تتكون مجموعة البيانات من استجابات عالية الجودة قائمة على DeepSeek-R1، مما يجعلها مورداً قيماً للغاية لتطوير نماذج الذكاء الاصطناعي ذات القدرات الاستدلالية المتفوقة.

حجم مجموعة البيانات البالغ ما يقارب 4 مليون عينة والتنوع من 8 مصادر بيانات رئيسية يؤسسها كمعيار جديد لتطوير نماذج الاستدلال الرياضي والبرمجي.

المراجع