كيف تطورت البنية التحتية المستخدمة في تدريب نماذج الذكاء الاصطناعي واسعة النطاق. تتتبع ورقة بحثية نشرتها Google على arXiv بعنوان “Google’s Training Supercomputers from TPU v2 to Ironwood” (arXiv:2606.15870، قُدمت في 14 يونيو 2026) تطور خمسة أجيال من TPU عبر خمسة محاور: الاستقرار المعماري، والحجم، والمرونة، وكفاءة الطاقة، والاستدامة. ولأن الورقة تتناول كيفية توسيع النظام بأكمله بدلًا من أداء الشريحة الواحدة، فإنها تقدّم دروسًا مباشرة للفرق التي تدير بنية تحتية للذكاء الاصطناعي.

نحن في ThakiCloud نتعامل مع أحمال عمل GPU وبنية تحتية للتدريب ضمن منصة SaaS للذكاء الاصطناعي والتعلم الآلي مبنية على K8s. لنستعرض سبب أهمية هذه الورقة لكل من علماء البيانات ومهندسي البنية التحتية.

📄 المراجعة المتعمقة الكاملة (DOCX): يمكنكم تحميل المراجعة العلمية التفصيلية لهذه الورقة من Google Drive.

التطور عبر خمسة محاور

المحاور الخمسة التي تستخدمها الورقة لتقييم الأجيال الخمسة تشكّل بحد ذاتها إطارًا لتقييم البنية التحتية لتدريب الذكاء الاصطناعي واسعة النطاق.

  • الاستقرار المعماري (Architectural Stability): الحفاظ على جوهر نموذج البرمجة والمعمارية عبر الأجيال المتعاقبة يتيح تراكم حزمة البرمجيات والخبرة التشغيلية. عدم الاضطرار لإعادة التعلم من الصفر في كل جيل هو بحد ذاته وفورات حجم.
  • الحجم (Scale): التوسع إلى مجموعات (pods) تضم آلاف الشرائح، حيث تصبح الوصلات البينية بين الشرائح والطوبولوجيا عنصرين محوريين.
  • المرونة (Resilience): عند حجم يبلغ آلاف الشرائح، يصبح العطل أمرًا ثابتًا لا استثناء. لا بد من تصميم يسمح للتدريب بالاستمرار حتى عند تعطّل بعض الشرائح.
  • كفاءة الطاقة (Power Efficiency): يشكّل تحسين مؤشر TFLOPS/واط المقياس الأساسي عبر الأجيال. إنجاز المهمة نفسها باستهلاك طاقة أقل ينعكس مباشرة على تكاليف التشغيل.
  • الاستدامة (Sustainability): كفاءة الطاقة هي في النهاية مسألة بصمة كربونية أيضًا.

دروس يستفيد منها علماء البيانات

هذا هو سبب فائدة هذه الورقة من الناحية المنهجية، متجاوزةً كونها ورقة عتاد فقط.

  • أداء النظام مقابل أداء الشريحة: الاكتفاء بالنظر إلى عمليات الفاصلة العائمة (FLOPS) لشريحة واحدة يُغفل التحسن الحقيقي. يجب النظر إلى أداء النظام بأكمله، بما يشمل الوصلات البينية والطوبولوجيا وحزمة البرمجيات، لرؤية التحسن الفعلي في إنتاجية التدريب. وينطبق هذا الأمر ذاته على خدمة الاستدلال، إذ ما يهم هو الإنتاجية الفعلية للعنقود بأكمله، لا إنتاجية بطاقة GPU واحدة.
  • المرونة هي الإنتاجية بعينها: دون تصميم للتعافي من الأعطال، تنخفض الإنتاجية الفعلية بشكل حاد في التدريب واسع النطاق. فنقاط التحقق (checkpointing) وتحمّل الأعطال الجزئية ليسا خيارًا اختياريًا، بل هما الإنتاجية بحد ذاتها.
  • كفاءة الطاقة كمؤشر من الدرجة الأولى: تتبّع مؤشر TFLOPS/واط كمقياس رئيسي يعكس فلسفة تشغيلية تعامل التكلفة كعنصر من الدرجة الأولى.

منظور ThakiCloud: نقل مبادئ تصميم البنية التحتية واسعة النطاق

نحن لا نبني حواسيب فائقة مخصصة مثل TPU، لكن مبادئ التصميم في هذه الورقة تنتقل مباشرة إلى منصة GPU مبنية على K8s. يتجسد الاستقرار المعماري في واجهات موحدة للخدمة والتدريب، وتتجسد المرونة في إعادة محاولة المهام القائمة على Kueue وفي نقاط التحقق، وتتجسد كفاءة الطاقة في مراقبة استخدام GPU وتجميع أحمال العمل.

تطبيق دروس مستفادة من حجم آلاف الشرائح على منصة متعددة المستأجرين تضم عشرات إلى مئات وحدات GPU هو بالضبط المجال الذي نعمل فيه. فاعتبار الأعطال أمرًا ثابتًا، ومراقبة إنتاجية النظام بأكمله، ومعاملة الطاقة والتكلفة كمؤشرات من الدرجة الأولى، فلسفة تشغيلية صحيحة بصرف النظر عن الحجم.

خاتمة

تُظهر ورقة Google عن خمسة أجيال من TPU، بالبيانات، أن “البنية التحتية للذكاء الاصطناعي واسعة النطاق هي نظام لا شريحة.” اجمعوا الخبرة عبر الاستقرار المعماري، واحموا الإنتاجية عبر المرونة، وعاملوا كفاءة الطاقة كمؤشر من الدرجة الأولى. ينطبق هذا المبدأ على كل فريق يدير عنقود GPU.


المصدر: “Google’s Training Supercomputers from TPU v2 to Ironwood: Architectural Stability, Scale, Resilience, Power Efficiency, and Sustainability Across Five Generations”, arXiv:2606.15870 (2026-06-14). https://arxiv.org/abs/2606.15870

📄 المراجعة المتعمقة الكاملة (DOCX): يمكنكم تحميل المراجعة العلمية التفصيلية لهذه الورقة من Google Drive.