نظرة عامة

OpenMathReasoning هو مجموعة بيانات استدلال رياضي واسعة النطاق طورتها NVIDIA والتي خدمت كأساس للنموذج الفائز في مسابقة AIMO-2 Kaggle. تتكون هذه المجموعة من 306 ألف مشكلة رياضية فريدة وإجمالي 5.68 مليون حل، صدرت تحت ترخيص CC BY 4.0.

تم معالجة المشاكل الرياضية عالية الجودة المجمعة من منتدى AoPS (فن حل المشاكل) باستخدام نماذج DeepSeek-R1 وQwQ-32B لتوليد حلول تطبق منهجيات استدلال مختلفة بما في ذلك سلسلة الأفكار والاستدلال المتكامل مع الأدوات واختيار التوليد.

تركيب مجموعة البيانات والحجم

الإحصائيات الأساسية

المكون الحجم الوصف
المشاكل الرياضية الفريدة 306 ألف مشاكل فريدة مجمعة من منتدى AoPS
حلول CoT 3.2 مليون حلول سلسلة الأفكار الطويلة
حلول TIR 1.7 مليون حلول الاستدلال المتكامل مع الأدوات
عينات GenSelect 566 ألف اختيار الحل الأمثل من مرشحين متعددين
مشاكل إضافية 193 ألف مشاكل إضافية بدون حلول
إجمالي نقاط البيانات 5,678,317 حجم مجموعة البيانات الكاملة

مصادر البيانات

المصدر الأساسي هو منتدى AoPS (فن حل المشاكل)، والذي يشمل فئات مثل أولمبياد المدارس الثانوية والمسابقات الرياضية. تشمل المصادر الإضافية أجزاء من مجموعة بيانات تدريب MATH، مع تنقيح المشاكل باستخدام Qwen2.5-32B-Instruct لتحسين الجودة.

هيكل حقول مجموعة البيانات

أوصاف الحقول الرئيسية

تحتوي مجموعة البيانات على معلومات منظمة تشمل أوصاف المشاكل المنقحة بواسطة Qwen2.5-32B-Instruct من منتدى AoPS، والحلول الاصطناعية المُولدة بواسطة نماذج DeepSeek-R1 أو QwQ-32B، ومعرفات نماذج التوليد، وتصنيفات أنواع المشاكل، والإجابات المتوقعة من خلال الاستخراج أو التصويت الأغلبي، وأسماء المنتديات المصدر، وأوضاع الاستنتاج، ومعدلات النجاح من Qwen2.5-Math-72B-Instruct وضع TIR، ومؤشرات الاستخدام لتدريب النموذج الفائز في AIMO-2 Kaggle.

تصنيف أنواع المشاكل

تُصنف المشاكل إلى ثلاثة أنواع رئيسية: has_answer_extracted للمشاكل ذات الإجابات القابلة للاستخراج بوضوح، no_answer_extracted للمشاكل التي يصعب فيها استخراج الإجابة، وconverted_proof لمشاكل الإثبات المحولة إلى أسئلة قائمة على الإجابة.

منهجيات الاستدلال

1. سلسلة الأفكار (CoT)

يُظهر استدلال سلسلة الأفكار عمليات التفكير المنطقي خطوة بخطوة. على سبيل المثال، عند حل مشكلة تقييم دالة مثل إيجاد f(3) للدالة f(x) = x² + 2x + 1، سيقوم نهج CoT بالتعويض المنهجي للقيمة، وحساب كل حد بشكل منفصل، ودمج النتائج للوصول إلى الإجابة النهائية 16.

2. الاستدلال المتكامل مع الأدوات (TIR)

يدمج الاستدلال المتكامل مع الأدوات أدوات أو حاسبات خارجية للاستدلال المحسن. عند حل التكاملات المعقدة، سيطبق هذا النهج قواعد التكامل على كل حد، ويتحقق من النتائج باستخدام الأدوات الحاسوبية، ويقدم الإجابة النهائية المنظمة مع التدوين الرياضي المناسب.

3. اختيار التوليد (GenSelect)

تتضمن منهجية اختيار التوليد إنشاء حلول مرشحة متعددة واختيار الأمثل بناءً على معايير مثل الدقة والكفاءة والوضوح. يولد هذا النهج استراتيجيات حل مختلفة ويختار الطريقة الأكثر بديهية ودقة.

خط أنابيب توليد البيانات

المرحلة الأولى: جمع المشاكل والمعالجة المسبقة

يبدأ خط الأنابيب بتحميل بيانات منتدى AoPS وتنقيح المشاكل باستخدام Qwen2.5-32B-Instruct. يتم تضمين المشاكل المُتحقق منها فقط التي تلبي معايير الجودة في مجموعة البيانات المنقحة.

المرحلة الثانية: توليد الحلول

يتم توليد الحلول باستخدام نماذج DeepSeek-R1 وQwQ-32B. تنشئ العملية حلول CoT متعددة (عادة 32 لكل مشكلة) وحلول TIR (عادة 16 لكل مشكلة) لكل مشكلة منقحة.

المرحلة الثالثة: تصفية الجودة

تتضمن المرحلة الأخيرة التحقق الشامل من الجودة بما في ذلك التحقق من قيود التنسيق، وإزالة تلوث المعايير من خلال فحص التكرار 9-gram، والتحقق من الإجابة لضمان الدقة الرياضية والاتساق المنطقي.

سلسلة نماذج OpenMath-Nemotron

تشكيلة النماذج

تشمل سلسلة OpenMath-Nemotron خمسة نماذج رئيسية: نموذج 1.5B للاستدلال الرياضي خفيف الوزن، نموذج 7B الذي يقدم أداءً متوازناً وكفاءة، نموذج 14B للاستدلال الرياضي عالي الأداء، نموذج 14B-Kaggle مخصص للفوز في مسابقة AIMO-2، ونموذج 32B الذي يمثل أعلى مستوى أداء.

أداء المعايير

يُظهر تقييم الأداء عبر معايير رياضية رئيسية نتائج مثيرة للإعجاب. يحقق OpenMath-Nemotron-7B 74.8 على AIME24 و61.2 على AIME25 بمنهجية CoT. يُظهر نموذج 14B 76.3 على AIME24 و63.0 على AIME25، بينما يصل نموذج 32B مع TIR إلى 78.4 على AIME24 و64.2 على AIME25.

فعالية GenSelect

تُظهر منهجية GenSelect تحسينات أداء كبيرة عبر جميع النماذج. يتحسن نموذج 7B من 74.8 إلى 86.7 على AIME24 (زيادة 11.9 نقطة مئوية)، ويتقدم نموذج 14B من 52.1 إلى 72.4 على HMMT (تحسن 20.3 نقطة مئوية)، ويتقدم نموذج 32B من 78.4 إلى 93.3 على AIME24 (تحسن 14.9 نقطة مئوية).

طرق الاستخدام والتنفيذ

تحميل مجموعة البيانات

يمكن الوصول لمجموعة البيانات من خلال مكتبة Hugging Face Datasets عن طريق تحميل مجموعة OpenMathReasoning الكاملة من NVIDIA. يمكن للمستخدمين تصفية البيانات حسب أوضاع الاستنتاج المحددة مثل CoT أو TIR أو GenSelect للتركيز على نهج استدلال معين.

تحليل أنواع المشاكل

يكشف تحليل أنواع المشاكل عن التوزيع عبر فئات مختلفة، مما يساعد المستخدمين على فهم تركيب مجموعة البيانات واختيار مجموعات فرعية مناسبة لتطبيقاتهم المحددة.

تحليل نموذج التوليد

تشمل مجموعة البيانات مساهمات من نماذج توليد متعددة، مع إحصائيات مفصلة تُظهر النسبة المئوية لمساهمة كل نموذج في مجموعة البيانات الإجمالية، مما يمكن المستخدمين من فهم تنوع مصادر الحلول.

حالة نجاح AIMO-2 Kaggle

نظرة عامة على المسابقة

ركزت مسابقة AIMO-2 (أولمبياد الذكاء الاصطناعي الرياضي) المستضافة من قبل Kaggle على حل مشاكل رياضية بمستوى الأولمبياد. حقق فريق NVIDIA النصر باستخدام هذه المجموعة كأساس لحلهم الفائز.

استراتيجية الفوز

تضمنت استراتيجية النجاح أربعة عناصر رئيسية: استخدام بيانات منتدى AoPS عالية الجودة، ودمج نهج الاستدلال CoT وTIR وGenSelect، واستخدام مجموعات النماذج بأحجام مختلفة، وتنفيذ تحسين خط الأنابيب المستمر.

عوامل النجاح الرئيسية

استخدم تكوين تدريب النموذج الفائز 2.2 مليون حل CoT و15,000 حل TIR قائم على نموذج OpenMath-Nemotron-14B مع الضبط الدقيق المُشرف على بيانات OpenMathReasoning. حققت مقاييس الأداء 73.7 على AIME 2024، و57.9 على AIME 2025، و50.5 على HMMT 24-25، و5.7 على HLE Math.

الترخيص وشروط الاستخدام

ترخيص CC BY 4.0

تُقدم مجموعة بيانات OpenMathReasoning تحت ترخيص المشاع الإبداعي النسبة 4.0 الدولي، والذي يسمح بالاستخدام التجاري، والتعديل، وتوزيع النسخ الأصلية والمعدلة، والاستخدام الخاص. يتطلب الترخيص النسبة لشركة NVIDIA، وتضمين إشعار الترخيص، والإشارة الموصى بها للتغييرات عند إجراء التعديلات.

حالات الاستخدام الموصى بها

مجموعة البيانات مناسبة للأغراض التعليمية في تدريب نماذج الاستدلال الرياضي، وتطبيقات البحث في تطوير الذكاء الاصطناعي الرياضي، والاستخدام التجاري في تطوير أدوات التعليم الرياضي، وأغراض التقييم لقياس أداء النموذج.

التفاصيل التقنية

تنسيق تخزين البيانات

تُخزن مجموعة البيانات بتنسيق Parquet بحجم 49.5 جيجابايت، مستخدمة التخزين العمودي الفعال ويمكن الوصول إليها من خلال واجهة برمجة تطبيقات Hugging Face Datasets.

عملية مراقبة الجودة

تتضمن إدارة الجودة ثلاث مراحل رئيسية: تصفية قيود التنسيق لإزالة أسئلة نعم/لا، ومشاكل الاختيار المتعدد، ومشاكل التنسيق غير المناسب؛ وإزالة تكرار المعايير من خلال فحص التداخل 9-gram مع بيانات التقييم الموجودة لمنع تلوث البيانات؛ والتحقق من الحل بما في ذلك فحص صحة الحل المُولد بواسطة LLM، والتحقق من الدقة الرياضية، ومراجعة الاتساق المنطقي.

مشاكل خط الأنابيب والحلول

تم حل التناقضات الأولية بين عدد المشاكل المُبلغ عنها (540 ألف مُبلغ عنها في البداية مقابل 306 ألف مُصدرة فعلياً) من خلال الكشف الشفاف عن معالجة البيانات. بالإضافة إلى ذلك، تم تحديد فقدان 137 ألف مشكلة إثبات بسبب أخطاء خط الأنابيب، مع جهود الاستعادة التي تُظهر تدهور الأداء، مما يؤدي إلى بحث التحسين المستمر.

التطبيقات وحالات الاستخدام

التطبيقات التعليمية

تمكن مجموعة البيانات من تطوير أنظمة تدريس رياضي شخصية يمكنها توليد حلول خطوة بخطوة وتقديم توصيات مناسبة للمتعلم. يمكن لمولدات المشاكل الرياضية إنشاء مشاكل مُدرجة بالصعوبة مع حلول مفصلة واقتراحات مخصصة بناءً على مستويات المتعلم.

تطبيقات البحث

تشمل تطبيقات البحث تحليل قدرات الاستدلال لفهم آليات الاستدلال الرياضي، ودراسات عمليات الاستدلال متعددة الخطوات، وتحديد أنماط التفكير المنطقي. تدعم مجموعة البيانات أيضاً تطوير أنظمة التعلم الذكية، وأنظمة التقدير والتغذية الراجعة الآلية، وأدوات تتبع تقدم التعلم.

مقارنة الأداء والتحليل

مقارنة النماذج الأساسية

تُظهر المقارنة مع النماذج الأساسية تحسينات كبيرة. يحقق OpenMath-Nemotron-7B 74.8 على AIME24 و61.2 على AIME25، مما يمثل تحسينات بـ 20.4 و22.6 نقطة على التوالي مقارنة بـ DeepSeek-R1-Distill-Qwen-7B. وبالمثل، يُظهر OpenMath-Nemotron-14B 76.3 على AIME24 و63.0 على AIME25، مُظهراً تحسينات بـ 10.5 و14.6 نقطة مقارنة بالأساس المقابل.

تحليل أداء طرق الاستدلال

تكشف المقارنة بين نهج CoT وTIR أن CoT يتفوق في عمليات التفكير المنطقي الواضحة بينما يُظهر TIR تفوقاً في الحسابات المعقدة. تحسن منهجية GenSelect بشكل كبير كلا النهجين عبر جميع مقاييس التقييم.

اتجاهات التطوير المستقبلية

خطط توسيع مجموعة البيانات

يشمل التوسع المستقبلي تكامل منتديات رياضية إضافية، ودمج مشاكل رياضية بلغات مختلفة، وتنفيذ تحديثات المشاكل في الوقت الفعلي للحفاظ على نضارة وصلة مجموعة البيانات.

التحسينات التقنية

تركز التحسينات التقنية على تطبيق نماذج توليد أكثر قوة، وتجريب منهجيات استدلال متنوعة، ودعم المشاكل الرياضية متعددة الوسائط، وتنفيذ أنظمة قياس أداء أكثر دقة، وتوفير تحديثات المعايير في الوقت الفعلي، وإجراء مقارنات مع المقيمين البشر.

الخلاصة

NVIDIA OpenMathReasoning يمثل معياراً جديداً في مجموعات بيانات الاستدلال الرياضي مع 5.68 مليون حل عالي الجودة ومنهجيات استدلال متنوعة. مكنت مجموعة البيانات نماذج سلسلة OpenMath-Nemotron من تحقيق أداء استثنائي، مُظهرة بشكل خاص من خلال انتصار مسابقة AIMO-2 Kaggle.

ترخيص CC BY 4.0 يسمح بالاستخدام المجاني عبر التطبيقات التعليمية والبحثية والتجارية. منهجيات الاستدلال المبتكرة لـ CoT وTIR وGenSelect، مدمجة مع خطوط أنابيب توليد البيانات المنهجية، تؤسس معايير مهمة لتطوير الذكاء الاصطناعي الرياضي المستقبلي. من المتوقع أن تساهم هذه المجموعة بشكل كبير في تطوير الذكاء الاصطناعي للاستدلال الرياضي من خلال تمكين المزيد من الباحثين والمطورين من المشاركة في المجال.

معلومات الاستشهاد

@article{moshkov2025aimo2,
  title   = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
  author  = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
  year    = {2025},
  journal = {arXiv preprint arXiv:2504.16891}
}

المراجع