MiniMax-M3: نموذج MoE متعدد الوسائط بـ 428B معامل و1M سياق وMSA أسرع 9 مرات في الإدخال مقارنة بـ M2.7
⏱️ وقت القراءة المقدر: 8 دقائق

ما الجديد؟
أصدرت MiniMaxAI نموذج MiniMaxAI/MiniMax-M3. هو الخلف المباشر لـ M2.7، والتغيير الأبرز هو السرعة. وفق ما أعلنته الشركة، يبلغ M3 معالجة الإدخال (prefill) 9 أضعاف سرعة M2 ومعالجة الإخراج (decode) 15 ضعفاً مع تخفيض الحوسبة لكل رمز إلى 1/20. هذه الأرقام ادعاءات من الشركة المطورة دون تحقق مستقل، لذا ينبغي التحقق منها في مهامك الفعلية. التوجه العام واضح: معالجة سياق بحجم 1M رمز بسرعة عملية.
يعالج النموذج نصاً وصوراً ومقاطع فيديو بشكل أصلي. على خلاف الجيل السابق المقتصر على النص، يستقبل المدخلات البصرية لاستخدامها في مهام الوكلاء والبرمجة. وسوم HuggingFace تشمل agent وcoding وvideo.
المعمارية
إجمالي المعاملات نحو 428B والمعاملات النشطة نحو 23B. في بنية MoE، عدد الخبراء المشاركين فعلياً في حوسبة كل رمز هو ما يحدد قيمة 23B هذه. تفاصيل MoE كعدد الخبراء وعدد الطبقات غير مذكورة في بطاقة النموذج.
التقنية الأساسية هي MiniMax Sparse Attention (MSA). الورقة منشورة على arXiv:2606.13392. تُخفف من التعقيد O(n^2) للانتباه الكثيف القياسي باستخدام الانتباه المتفرق، مما يجعل سياق 1M عملياً من حيث التكلفة. نماذج عديدة تدعم سياق 1M بالفعل، لكن الجمع بين MoE والانتباه المتفرق لرفع إنتاجية الإخراج (decode throughput) هو ما يُميز M3.
ثلاثة أوضاع استدلال: thinking=enabled للاستدلال بأسلوب سلسلة التفكير (chain-of-thought)، وthinking=adaptive للتبديل التلقائي وفق تعقيد المهمة، وthinking=disabled للاستجابة المباشرة. المعاملات الموصى بها: temperature 1.0 وtop_p 0.95 وtop_k 40.
النوع المدعوم BF16 وF32. كان FP8 مدعوماً في M2.7 لكنه غير مذكور في بطاقة M3. تحقق من ذلك قبل النشر الفعلي.
المعايير
بطاقة النموذج الرسمية لا تتضمن أرقام معايير محددة. المعلومة المذكورة هي نسب تحسين السرعة مقارنة بـ M2. للاطلاع على نتائج لوحات ترتيب خارجية أو تقييمات مستقلة، ارجع إلى ورقة arXiv:2606.13392.
قائمة اللغات المدعومة غير مذكورة في بطاقة النموذج أيضاً. التحقق من دعم اللغات المتعددة يحتاج إلى اختبار مباشر.
التشغيل والنشر
يدعم M3 رسمياً: SGLang وvLLM وTransformers وOllama وllama.cpp وLM Studio وJan. في بيئة K8s محلية، تشغيل SGLang أو vLLM كـ Deployment مع خدمة HTTP هو المسار الأعملي.
رفع نموذج 428B بصيغة BF16 يستلزم نحو 856GB من ذاكرة VRAM. نظرياً: 11 بطاقة H100 80GB أو 7 بطاقات H200 141GB. بفضل طبيعة MoE، لا تُفعَّل سوى 23B معامل لكل رمز مما يجعل الإنتاجية الفعلية أعلى بكثير من نموذج كثيف بـ 428B، لكن تحميل كامل المعاملات في VRAM يبقى ضرورة لا مفر منها.
23 نسخة مضغوطة منشورة. الضغط إلى 4 بت أو 8 بت يُخفض متطلبات GPU إلى النصف أو أقل، غير أن تدهور الجودة في كل نسخة يستلزم تقييماً مستقلاً.
تشغيل M3 عبر vLLM يستلزم إعداد tensor parallelism.
vllm serve MiniMaxAI/MiniMax-M3 \
--tensor-parallel-size 8 \
--dtype bfloat16 \
--max-model-len 65536
لتفعيل السياق الكامل بحجم 1M رمز تحتاج إلى ضبط max-model-len مع الأخذ في الاعتبار ذاكرة KV cache. الأسلم البدء باختبار سياقات قصيرة والزيادة تدريجياً.
في SGLang يمكن الاستفادة من expert parallelism المُحسَّن لنماذج MoE.
python -m sglang.launch_server \
--model-path MiniMaxAI/MiniMax-M3 \
--tp 8 \
--dtype bfloat16
الترخيص
الترخيص هو minimax-community، ليس Apache-2.0 ولا MIT بل ترخيص خاص. شروط الاستخدام التجاري وقيود إعادة التوزيع وأحكام النماذج المشتقة قد تختلف عن المصادر المفتوحة القياسية. راجع نص الترخيص الكامل قبل أي نشر في بيئة الإنتاج.
منظور ThakiCloud
Kueue وإدارة موارد تشغيل MoE. نموذج MoE بـ 428B طلب موارد GPU مرتفع وإنتاجيته تتذبذب وفق أنماط الطلبات. على منصة ThakiCloud، عزل مجموعة GPU مخصصة لـ M3 باستخدام ResourceFlavor وClusterQueue في Kueue مع الفصل بين الاستدلال الدُفعي والتشغيل الفوري عبر WorkloadPriorityClass يمكّن من التشغيل بلا تنافس على الموارد.
سياق 1M ومسار وكيل متعدد الوسائط. سياق 1M في M3 وقدرته على استقبال صور ومقاطع فيديو قابلان للتوظيف في تحليل الوثائق واستكشاف مستودعات الكود كاملة وبناء وكلاء فهم الفيديو. إضافة نقطة نهاية تشغيل M3 إلى خط أنابيب ThakiCloud الدُفعي القائم على Kueue تُنشئ بنية لمعالجة المهام ذات السياق الطويل دُفعياً. لكن التكلفة التشغيلية عالية، لذا قياس طول السياق الفعلي المطلوب لكل مهمة يجب أن يسبق أي توسع.
إن كانت لديك أعباء عمل قائمة على M2.7 وتخطط للترقية إلى M3، تحتاج إلى مراجعة منفصلة لمعاملات الاستدلال (وضع thinking) ومعالجة المدخلات متعددة الوسائط. هذا ليس استبدالاً مباشراً بل يستلزم تغييرات في الواجهة.