DiffusionGemma 26B-A4B: تجربة Google في توليد 15 إلى 20 رمزاً دفعةً واحدة عبر الانتشار النصي المتقطع

⏱️ وقت القراءة المقدر: 9 دقائق

مخطط مفاهيمي لـ DiffusionGemma 26B-A4B

ما الجديد

أطلق Google DeepMind نموذج google/diffusiongemma-26B-A4B-it. يشير الاسم إلى أن البنية مستندة إلى Gemma، بيد أن آلية توليد النصوص مختلفة جذرياً. تعتمد نماذج اللغة التقليدية على التوليد التلقائي التسلسلي، إذ تتنبأ برمز واحد في كل مرة من اليسار إلى اليمين. أما DiffusionGemma فيستخدم الانتشار النصي المتقطع (discrete text diffusion): يصفّي تسلسلاً مشوشاً تكراراً حتى يصل إلى النص النهائي.

من حيث سرعة التوليد الفعلية، يُنتج النموذج 15 إلى 20 رمزاً في وقت واحد خلال تمرير أمامي واحد. تشير بطاقة النموذج إلى تجاوز 1,100 رمز في الثانية على H100 FP8 مع دُفعات صغيرة، وهذه الأرقام صادرة عن Google وتتفاوت بحسب تكوين الأجهزة وحجم الدُّفعة.

الرخصة Apache-2.0، مما يتيح الاستخدام التجاري وتوزيع النماذج المشتقة.

البنية

تفاصيل المعاملات:

إجمالي المعاملات: 25.2 مليار
المعاملات النشطة: 3.8 مليار
عدد الطبقات: 30
الخبراء: 128 إجمالاً، 8 نشطة و1 مشتركة
حجم المفردات: 262,144
مشفّر الرؤية: نحو 550 مليون معامل
نافذة الانزلاق: 1,024 رمز
طول اللوحة: 256
السياق: يصل إلى 256K رمز

البنية من نوع مشفّر-فكّ تشفير مع انتباه ثنائي الاتجاه. يختلف هذا عن الانتباه أحادي الاتجاه في نماذج اللغة السببية القياسية، إذ يمكن للنموذج رؤية التسلسل كاملاً في آنٍ واحد. هذا، مقروناً بالانتشار المتقطع، يشكّل الأساس الذي يُتيح توليد رموز متعددة في تمرير واحد.

يقبل النموذج الصور والفيديو إضافةً إلى النصوص، ويدعم الصور بدقة وأبعاد متغيرة.

دُرّب النموذج على أكثر من 140 لغة، ويدعم صراحةً أكثر من 35 لغة، وتاريخ انتهاء بيانات التدريب يناير 2025.

المعيارية

الأرقام الواردة في بطاقة النموذج مأخوذة من النسخة المضبوطة بالتعليمات (instruction-tuned) باستخدام Entropy Bound sampler.

المعيار	النتيجة
MMLU Pro	77.6%
AIME 2026 (بدون أدوات)	69.1%
LiveCodeBench v6	69.1%
GPQA Diamond	73.2%
BigBench Extra Hard	47.6%
MMMU Pro (رؤية)	54.3%
MATH-Vision	70.5%

تُعدّ نتيجة 69.1% على AIME 2026 و73.2% على GPQA Diamond أداءً قوياً في الاستدلال الرياضي وحل المسائل العلمية. وهي أرقام لافتة بالنظر إلى أن المعاملات النشطة 3.8 مليار فقط، مع ضرورة التذكير بأن المعيارية تمثّل دائماً لقطةً في ظروف محددة.

خصوصيات النشر على Kubernetes

تؤثر آلية التوليد المغايرة للنماذج التلقائية التسلسلية في البنية التحتية للتقديم.

نمط ذاكرة التخزين المؤقت KV يختلف. تخزّن النماذج التلقائية التسلسلية مفاتيح وقيم الرموز المولّدة بشكل تسلسلي لاستخدامها في التنبؤ بالرموز التالية. أما الانتشار المتقطع فيصفّي التسلسل كاملاً بصورة متكررة، لذا لا ينطبق عليه آلية KV القياسية كما هي. يستلزم ذلك التحقق الميداني من آلية عمل تحسينات PagedAttention في vLLM وSGLang.

خصائص المعالجة الدُّفعية مختلفة. في النماذج التلقائية التسلسلية، تُعالَج الأطوال المتباينة ضمن الدُّفعة بالحشو أو التجميع المستمر. في نماذج الانتشار، يتفاوت وقت المعالجة بحسب خطوات الانتشار وطول اللوحة. قد تختلف توزيعات زمن المعالجة عن تلك الخاصة بالنماذج التلقائية التسلسلية.

ذاكرة الاستدلال. يحتاج النموذج نحو 50.4 جيجابايت من ذاكرة VRAM بتنسيق BF16 الكامل البالغ 25.2 مليار معامل. يندرج ذلك ضمن A100 80GB أو H100 80GB واحدة حتى مع إضافة مشفّر الرؤية البالغ 550 مليون معامل. يمنح تصميم المعاملات النشطة البالغة 3.8 مليار ميزةً على النماذج الكثيفة ذات 25 مليار من حيث الإنتاجية.

تشمل أطر العمل الرسمية المدعومة: Transformers وvLLM وSGLang وDocker Model Runner، فضلاً عن 26 متغيراً من التكميم المتاحة.

# مثال على التقديم عبر vLLM
vllm serve google/diffusiongemma-26B-A4B-it \
  --dtype bfloat16 \
  --max-model-len 32768

نظراً لطبيعة نموذج الانتشار المتقطع، ينبغي التحقق من التوافق مع إصدار vLLM أولاً؛ إذ لا تعمل بعض الميزات المحسّنة للنماذج التلقائية التسلسلية القياسية بالضرورة مع هذا النوع.

يدعم النموذج وضع التفكير (thinking mode) ويدعم موجّه النظام واستدعاء الدوال بشكل أصلي.

منظور ThakiCloud

بيئة تجريبية لنموذج استدلال الانتشار. يلائم DiffusionGemma البحث التجريبي في نماذج الاستدلال أكثر مما يلائم أعباء الإنتاج الحالية. يمكن على منصة ThakiCloud إنشاء WorkloadClass معزولة في Kueue للتجارب، وقياس الإنتاجية الفعلية والجودة مقارنةً بالنماذج التلقائية التسلسلية جنباً إلى جنب. الأولوية هي جمع البيانات حول الفوارق التي يُحدثها الانتشار المتقطع في أنواع مهام بعينها.

السياق 256K ومتعدد الأوضاع. يتيح سياق 256K ودعم إدخال الصور والفيديو معالجة المستندات الطويلة وتحليل قواعد الشفرات الضخمة. كما أن رخصة Apache-2.0 لا تفرض قيوداً على الاستخدام التجاري وتطوير النماذج المشتقة، وهو ما يصبّ في مصلحة التكامل داخل البنية التحتية الخاصة.

لا يزال نظام بيئة الانتشار للنماذج اللغوية أقل نضجاً مقارنةً بالنماذج التلقائية التسلسلية. تبقى مرحلة التحقق المباشر من وضع دعم أطر التقديم لنماذج الانتشار، وفعالية التكميم، واستقرار النشر الفعلي ضرورةً لا غنى عنها.

DiffusionGemma 26B-A4B: تجربة Google في توليد 15 إلى 20 رمزاً دفعةً واحدة عبر الانتشار النصي المتقطع

ما الجديد

البنية

المعيارية

خصوصيات النشر على Kubernetes

منظور ThakiCloud

참고

SkillRet: 에이전트가 수천 개 스킬을 다루는 시대의 검색 표준을 ThakiCloud가 만들다

SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)

코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)