NVIDIA Nemotron-3-Ultra-550B: بنية LatentMoE الهجينة، وسياق مليون رمز، ودعم اللغة الكورية في التحليل المحلي

⏱️ وقت القراءة المقدر: 8 دقائق

مخطط معماري لـ Nemotron-3-Ultra

نظرة عامة على Nemotron-3-Ultra-550B

أصدرت NVIDIA في الرابع من يونيو 2026 نموذج nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16، وهو نموذج من فئة MoE بمجموع 550B معامل و55B معاملًا نشطًا. الترخيص هو OpenMDW-1.1.

أبرز ما يميز هذا النموذج هو أسلوب دمج البنى المعمارية. يجمع بين SSM القائم على Mamba-2، وMoE، والانتباه القياسي في بنية LatentMoE هجينة، مع دمج ترميز تخميني متعدد الرموز MTP (Multi-Token Prediction). يدعم سياقًا بطول مليون رمز.

بنية LatentMoE الهجينة

دمج Mamba-2 مع MoE والانتباه

في النماذج اللغوية الكبيرة التقليدية القائمة على المحوّل (Transformer)، يصبح التعقيد $O(L^2)$ للانتباه عنق زجاجة مع السياقات الطويلة. تتناول نماذج SSM (State Space Model)، ولا سيما Mamba، هذه المشكلة بطريقة مغايرة عبر تعقيد خطي $O(L)$. ويُحسّن Mamba-2 ذلك من خلال مصفوفات فضاء الحالة المُهيكَلة.

يمزج Nemotron-3-Ultra طبقات Mamba-2 مع طبقات الانتباه القياسي ثم يدمجها مع MoE. من الناحية النظرية تعمل قدرة الانتباه على التقاط الأنماط بدقة للتسلسلات القصيرة، بينما تُفيد مزايا التعقيد الخطي لـ SSM مع التسلسلات الطويلة.

المهم هو إدراك أن البيانات الميدانية حول أداء هذا المزيج في خدمة سياق مليون رمز فعليًا لا تزال شحيحة. متطلبات VRAM والإنتاجية الفعلية عند السياقات الطويلة تظل غير محسومة قبل إجراء اختبارات مباشرة.

حجم التدريب

دُرِّب النموذج مسبقًا على نحو 20 تريليون رمز بتاريخ قطع يناير 2025. بلغ حجم مجموعة البيانات 53.8 TiB مُستخرجة من 226 مجموعة بيانات. تاريخ قطع ما بعد التدريب هو مايو 2026. BF16 هو النوع الافتراضي، مع إتاحة بعض وصفات التدريب المسبق NVFP4.

أوضاع الاستدلال

يتيح قالب المحادثة (chat template) التبديل بين وضع التفكير (Thinking) والوضع الاعتيادي. كذلك يدعم النموذج استدعاء الأدوات والمخرجات المُهيكَلة (مثل JSON schema).

اللغات المدعومة

يدعم النموذج رسميًا 10 لغات: الإنجليزية والفرنسية والإسبانية والإيطالية والألمانية واليابانية والهندية والكورية والبرتغالية (برازيلية) والصينية. الدعم الكوري مُصرَّح به بوضوح.

المعايير

فيما يلي الأرقام من بطاقة النموذج على HF:

المعيار	Nemotron-3-Ultra
SWE-Bench Verified	70.7%
MMLU-Pro	86.8%
IOI 2025	570.0
LiveCodeBench v6	89.0%
GPQA (no tools)	87.0%

SWE-Bench Verified 70.7% يُبرهن على أداء قوي في مهام هندسة البرمجيات. MMLU-Pro 86.8% مرتفع في اختبار الأسئلة والأجوبة المتعدد المجالات. IOI 2025 570.0 هو الدرجة على مجموعة مسائل أولمبياد المعلوماتية الدولية. GPQA 87.0% يعكس الأداء على الأسئلة العلمية على مستوى الدراسات العليا.

الخدمة والنشر

الحد الأدنى من متطلبات الأجهزة

وفق الوثائق الرسمية، الحد الأدنى لعقدة واحدة هو 8 بطاقات B200 أو GB200، وهو ما يُعادل أنظمة DGX B200 أو GB200. للتكوين متعدد العقد يلزم 8 بطاقات H100 أو H200 أو GB200 أو GB300 فأكثر مع تنسيق Ray. مسار الدعم الرسمي لمجموعات A100 الحالية غير مُدرج حاليًا في بطاقة النموذج.

هذه المتطلبات تجعله الأعلى حاجزًا للدخول بين النماذج الأربعة التي نناقشها.

أطر العمل المدعومة

vLLM الإصدار 0.22.0 أو أحدث (يدعم TP/EP وMTP speculative decoding بـ5 رموز)
SGLang الإصدار 0.5.12.post1 أو أحدث (chunked prefill وEAGLE)
TensorRT-LLM 1.3.0rc17 (مخصص لمعمارية Blackwell)
نسخ GGUF وGPTQ من المجتمع

يدعم النموذج FP8 KV-cache ونسخ NVFP4. مسار TensorRT-LLM محسَّن حاليًا لمعمارية Blackwell (B200/GB200).

أوضاع النشر

يتوفر MTP speculative decoding في vLLM بوحدات من 5 رموز مما يُتوقع معه زيادة في الإنتاجية. chunked prefill فعّال في تخفيض ذروة استهلاك الذاكرة عند تهيئة السياقات الطويلة.

من منظور ThakiCloud

ثلاثة محاور ينبغي تناولها عند تقييم هذا النموذج للنشر المحلي:

المزايا النظرية لـ LatentMoE الهجينة مع الغموض الميداني. البنية التي تجمع Mamba-2 والانتباه يقوم تبريرها النظري على مزايا التعقيد الخطي لـ SSM في السياقات الطويلة. غير أن استهلاك VRAM الفعلي والإنتاجية عند سياق مليون رمز تظلان غير محسومتين قبل القياس المباشر. البنية جديدة والبيانات الميدانية التطبيقية شحيحة بعد. عند دراسة النشر المحلي، لا ينبغي الاقتصار على أرقام المورّد بل يجب إجراء قياسات في البيئة الخاصة.

الحد الأدنى: 8 بطاقات B200 لعقدة واحدة، أي بنظام DGX B200 على وجه التحديد. يصعب على المؤسسات التي تمتلك مجموعات H100 الحصول على الأداء الأمثل لهذا النموذج في الوقت الراهن. التكوين متعدد العقد بـ H100 ممكن لكنه يستلزم تنسيق Ray وحيزًا ترددًا شبكيًا إضافيًا. للمؤسسات التي تدرس التحوّل إلى B200/GB200 يمثّل هذا النموذج خيارًا للدراسة، أما من كانت بنيتهم التحتية قائمة على A100 فالمسار الواقعي هو الاكتفاء بمسار GGUF المجتمعي لمرحلة التقييم الوظيفي.

الدعم الرسمي للكورية يُشكّل حجةً للنشر المؤسسي المحلي في كوريا. اندراج الكورية ضمن اللغات العشر المدعومة رسميًا أمر ذو دلالة. نماذج كبيرة كثيرة تدّعي دعم الكورية لكن نادرًا ما تُدرجها في لغات التقييم الرسمي. يمكن استخدام ذلك مرجعًا لاعتماد مؤسسي محلي في القطاعات التي تعتمد معالجة الوثائق الكورية كالقطاع المالي والعام والطبي. مع ذلك، لا تُقدَّم نتائج معيارية مستقلة للكورية، لذا يتعين التحقق من الأداء الكوري الفعلي عبر مجموعات تقييم داخلية.

رخصة OpenMDW-1.1 هي رخصة نماذج مفتوحة صممتها NVIDIA. مراجعة نص الرخصة قبل النشر التجاري المحلي خطوة لا يمكن تجاوزها.