Kimi K2.6: تحليل بنية سرب الوكلاء لنموذج MoE بتريليون معامل و32B نشط و300 وكيل فرعي

⏱️ وقت القراءة المقدر: 8 دقائق

مخطط مفاهيمي لـ Kimi K2.6

نظرة عامة على Kimi K2.6

أصدرت Moonshot AI نموذج Kimi K2.6 المتاح في مستودع moonshotai/Kimi-K2.6. الترخيص Modified MIT. يبلغ مجموع المعاملات تريليونًا (1T)، غير أن المعاملات المُنشّطة فعليًا أثناء الاستدلال لا تتجاوز 32B.

تحمل نسبة التنشيط البالغة 3.2% دلالة عملية واضحة: تحميل الأوزان على ذاكرة GPU يستلزم كامل تريليون معامل، لكن FLOPs لمعالجة رمز واحد تقترب من نموذج dense بحجم 32B. بهذا تنفصل متطلبات التخزين عن سرعة الاستدلال.

تفاصيل البنية

تكوين الطبقات

يتألف Kimi K2.6 من 61 طبقة، أولها طبقة dense وبقيتها طبقات MoE. يبلغ عدد الخبراء الإجمالي 384، يُختار من بينهم 8 خبراء لكل رمز، مع خبير مشترك واحد يعمل دائمًا.

آلية الانتباه المستخدمة هي MLA (Multi-head Latent Attention)، التي ظهرت أولًا في DeepSeek V2. تضغط هذه الآلية ذاكرة التخزين المؤقتة للمفتاح والقيمة (KV cache) إلى فضاء كامن منخفض الأبعاد، مما يُقلص استهلاك ذاكرة KV cache. البُعد المخفي للانتباه 7168، والبُعد المخفي لـ MoE 2048، وعدد رؤوس الانتباه 64. دالة التنشيط هي SwiGLU.

طول السياق والمفردات

يبلغ طول السياق 256K رمز. حجم المفردات 160K، وهو ملائم للمعالجة متعددة اللغات.

مشفر الرؤية

يتضمن النموذج مشفّر الرؤية MoonViT بحجم 400M معامل للمعالجة متعددة الوسائط، ويدعم المدخلات المرئية والفيديو.

وضع التفكير والاستجابة الفورية

يمكن التبديل بين وضع التفكير (Thinking) ووضع الاستجابة الفورية (Instant). في وضع التفكير تظهر خطوات الاستدلال الوسيطة متداخلةً مع المخرجات. يتيح ذلك للمستخدم اختيار المقايضة بين تكلفة الحوسبة وجودة الاستجابة.

سرب الوكلاء

تشير بطاقة النموذج إلى القدرة على تشغيل 300 وكيل فرعي في آن واحد مع معالجة ما يصل إلى 4,000 خطوة تنسيق. يتيح ذلك التوزيع على عدد من الوكلاء لمهام معقدة مثل الترميز طويل الأفق.

المعايير

فيما يلي الأرقام من بطاقة النموذج على HF:

المعيار	Kimi K2.6
SWE-Bench Verified	80.2
SWE-Bench Pro	58.6
SWE-Bench Multilingual	76.7
Terminal-Bench 2.0	66.7
LiveCodeBench v6	89.6
AIME 2026	96.4
GPQA-Diamond	90.5
HMMT 2026	92.7
MMMU-Pro	79.4
MathVision	87.4
BrowseComp	83.2
HLE-Full w/tools	54.0

80.2 على SWE-Bench Verified نتيجة قوية في مهام حل قضايا GitHub الفعلية. 96.4 على AIME 2026 يعكس أداءً على مستوى المسابقات الرياضية. MMMU-Pro 79.4 وMathVision 87.4 يُظهران قدرات الاستدلال متعدد الوسائط.

BrowseComp 83.2 هو مقياس ذو دلالة في سيناريوهات استخدام الوكلاء، إذ يقيس استرداد المعلومات القائم على تصفح الويب.

الخدمة والنشر

أطر العمل المدعومة

vLLM (يدعم التوازي التنسوري)
SGLang (محسّن لاستدلال الدفعات)
KTransformers (تكميم لوحدات GPU للمستهلكين)
Transformers الإصدار 4.57.1 أو أحدث، وأقل من 5 (ملاحظة: يوجد حد أعلى للإصدار)

التكميم

يُوفّر النموذج 39 نسخة مكممة تشمل INT4 الأصلي، متوافقة مباشرة مع llama.cpp وOllama وLM Studio وJan.

المتطلبات

تحميل تريليون معامل بصيغة BF16 يستلزم نحو 2TB من VRAM. للخدمة الفعلية، حتى مع التكميم INT4، تلزم نحو 8 بطاقات H100 بذاكرة 80GB. يتيح KTransformers تحميل النسخ المكممة على مجموعات GPU للمستهلكين.

قيد إصدار Transformers ينبغي التحقق منه عند تهيئة البيئة (>=4.57.1,<5).

من منظور ThakiCloud

نقطتان تستأثران باهتمام خاص:

كفاءة الخدمة من 1T إجمالية / 32B نشطة. كون المعاملات النشطة 32B يعني عمليًا أن زمن الاستجابة ومعدل الإنتاجية يعادلان نموذج dense بحجم 32B. تكلفة تحميل الأوزان على GPU (VRAM) وسرعة توليد الرموز (FLOPs) منفصلتان. ادعاء إمكانية الخدمة ببصمة بطاقة H100 واحدة أو اثنتين مشروط بالتكميم، لكنه يظل أفضل من حيث الإنتاجية مقارنةً بنماذج dense بحجم 70B فأكثر. في بيئة تُدار فيها حصص GPU عبر Kueue، يُعدّ هذا التمييز أساسيًا لحساب التكلفة الفعلية للخدمة.

سرب 300 وكيل فرعي والتكامل مع K8s متعدد الوسيط. يتكامل ادعاء Kimi K2.6 بتشغيل 300 وكيل فرعي متزامن بشكل طبيعي مع بنية نشر حوافظ الوكلاء على K8s. يمكن تصور جدولة كل وكيل فرعي كحمل عمل مستقل مع تنسيق الأولويات عبر Kueue. كيفية تنفيذ النموذج لهذا التنسيق من الناحية الفعلية تستلزم مراجعة كود المستودع والأمثلة مباشرة، لكنه يُشكّل معمارية مرجعية للفرق الراغبة في بناء عروض توضيحية لوكلاء متعددي الوسيط.

توافر 39 نسخة مكممة ودعم KTransformers يُتيح البدء بوحدات GPU من فئة RTX في مرحلة التحقق من الوظائف دون الحاجة إلى مجموعة H100 كاملة. مع ذلك، تجدر مراجعة الشروط التفصيلية لترخيص Modified MIT والتحقق من توافقه مع سيناريوهات الاستخدام المقصودة.