⏱️ وقت القراءة المقدر: 8 دقائق

المقدمة: ثورة التبريد في عصر الذكاء الاصطناعي

لقد غيّر ازدهار الذكاء الاصطناعي بشكل جذري المشهد الخاص ببنية مراكز البيانات، مع وصول المتطلبات الحاسوبية إلى مستويات غير مسبوقة لا تستطيع أنظمة التبريد الهوائية التقليدية التعامل معها بشكل كاف. في Hot Chips 2025، كشفت جوجل عن نهجها الشامل لتقنية التبريد السائل، موضحة كيف قاموا بتوسيع الإدارة الحرارية المائية من المفاهيم التجريبية إلى بنية مراكز البيانات الجاهزة للإنتاج. يمثل هذا التقدم التقني معلماً حاسماً في تطور بنية الذكاء الاصطناعي، خاصة مع استمرار أحمال عمل التعلم الآلي في دفع حدود استهلاك الطاقة وتوليد الحرارة.

كشفت عرض جوجل في Hot Chips 2025 عن التحديات الهندسية المعقدة والحلول المبتكرة التي نشأت من سنوات خبرتهم في نشر TPU (وحدة معالجة التنسور). بدأت رحلة جوجل في التبريد السائل في عام 2018، مدفوعة بالإدراك أن طرق التبريد الهوائية التقليدية أصبحت غير كافية بشكل متزايد للمتطلبات الحرارية لمسرعات الذكاء الاصطناعي الحديثة. إن نهجهم المنهجي لتطوير حلول التبريد على نطاق مراكز البيانات يقدم رؤى قيمة حول مستقبل بنية الحوسبة عالية الأداء ويوفر مخططاً لكيفية تعامل المنظمات الأخرى مع تحديات الإدارة الحرارية المشابهة.

الفيزياء والهندسة وراء ابتكار التبريد السائل من جوجل

تكمن الميزة الأساسية للتبريد السائل في فيزياء انتقال الحرارة الأساسية، حيث يُظهر الماء توصيلاً حرارياً أفضل بحوالي 4000 مرة من الهواء. يتيح هذا الاختلاف الدراماتيكي في الخصائص الحرارية لأنظمة التبريد السائل نقل الحرارة بعيداً عن وحدات المعالجة بكفاءة غير مسبوقة، مما يجعل من الممكن الحفاظ على درجات حرارة التشغيل المثلى حتى تحت الأحمال الحرارية القصوى التي تولدها أحمال عمل الذكاء الاصطناعي الحديثة. إن تنفيذ جوجل لهذا المبدأ يمتد بعيداً عن انتقال الحرارة البسيط، مدمجاً حلولاً هندسية متطورة تتعامل مع التحديات الفريدة للنشر على نطاق مراكز البيانات.

تستخدم بنية التبريد السائل من جوجل نهجاً هرمياً يبدأ بوحدات توزيع المبرد (CDU) المرتبة في رفوف من ستة وحدات، حيث تعمل هذه الوحدات بطريقة مشابهة لمجموعات المبرد والمضخة الموجودة في أنظمة التبريد المائي للحاسوب الشخصي، ولكن تم توسيعها للتعامل مع الأحمال الحرارية لرفوف الخوادم الكاملة. يدمج تصميم النظام مبادئ التكرار، مما يسمح لخمس وحدات CDU بتوفير قدرة تبريد كافية مع تمكين الصيانة على الوحدة السادسة دون توقف. تعكس استراتيجية التكرار هذه التزام جوجل بالحفاظ على توفر الخدمة أثناء تنفيذ عمليات الصيانة الضرورية.

تعمل عملية تبادل الحرارة داخل نظام جوجل من خلال فصل مهندس بعناية لحلقات المبرد، حيث لا يختلط إمداد الماء على مستوى المنشأة والسائل المبرد الداخلي أبداً، مع قيام وحدات CDU بدور الجسور الحرارية التي تنقل الحرارة بين هذين النظامين السائلين المنفصلين. يتعامل نهج التصميم هذا مع مخاوف التلوث ويسمح بالتحسين المستقل لكل حلقة تبريد. يستخدم نظام توزيع المبرد مشعبات توجه المبرد إلى خوادم TPU الفردية، حيث تربط حلقات التبريد عدة رقائق في تكوين متسلسل، مما يستدعي وضع ميزانية حرارية دقيقة بناءً على متطلبات الرقاقة الأخيرة في كل تسلسل تبريد.

التقنيات المتقدمة للتبريد واستراتيجيات التحسين

يدمج تنفيذ جوجل عدة تقنيات تبريد متقدمة تُظهر الهندسة المتطورة المطلوبة للتبريد السائل الفعال على نطاق مراكز البيانات. إن تبني لوحات التبريد ذات التدفق المنقسم يمثل تحسيناً كبيراً مقارنة بالتكوينات المباشرة التقليدية، مما يوفر خصائص انتقال حرارة محسنة تتناسب بشكل أفضل مع الملفات الحرارية لرقائق TPU الخاصة بهم. يعكس هذا الاختيار التصميمي أعمال اختبار وتحسين واسعة لتحقيق أقصى كفاءة تبريد ضمن قيود نشر مراكز البيانات.

أظهر الانتقال من TPUv3 إلى TPUv4 استعداد جوجل لتبني استراتيجيات تبريد أكثر عدوانية، بما في ذلك الانتقال إلى تكوينات التبريد المكشوفة التي تلغي الواجهة الحرارية بين الرقاقة ونظام التبريد. هذا النهج، الذي يوازي تقنيات إزالة الغطاء المستخدمة من قبل عشاق الحاسوب الشخصي، كان ضرورياً بسبب زيادة استهلاك طاقة TPUv4 بمقدار 1.6 مرة مقارنة بسابقه. تُظهر استراتيجية التبريد المكشوف كيف تستمر متطلبات الإدارة الحرارية في قيادة الابتكار في تصميم تغليف الرقائق وأنظمة التبريد.

يمتد عمل التحسين من جوجل إلى ما هو أبعد من تصميم المكونات الفردية ليشمل تحسينات الكفاءة على مستوى النظام. كشف تحليلهم أن استهلاك طاقة مضخة التبريد السائل يمثل أقل من 5% من طاقة المروحة المطلوبة لحلول التبريد الهوائية المكافئة، مما يسلط الضوء على مزايا الكفاءة الطاقوية الكبيرة لأنظمة التبريد السائل. تصبح هذه المكاسب في الكفاءة الطاقوية مهمة بشكل خاص على نطاق مراكز البيانات، حيث يمكن أن يمثل استهلاك الطاقة المتعلق بالتبريد جزءاً كبيراً من متطلبات الطاقة الإجمالية للمنشأة.

بروتوكولات الصيانة والموثوقية التشغيلية

تتطلب التحديات التشغيلية لصيانة أنظمة التبريد السائل على نطاق مراكز البيانات بروتوكولات متطورة واستراتيجيات تكرار تتجاوز بكثير نهج الصيانة المستخدمة في النشر على نطاق أصغر. يعكس نهج جوجل للصيانة فهماً عميقاً للتعقيدات التشغيلية الكامنة في أنظمة التبريد السائل، بما في ذلك المخاطر مثل النمو الميكروبي واكتشاف التسرب وإجراءات استبدال المكونات. تدمج استراتيجية الصيانة الخاصة بهم طبقات متعددة من الحماية والمراقبة لضمان موثوقية النظام مع تقليل انقطاع الخدمة.

يمثل التحقق من المكونات جانباً حاسماً من نهج جوجل للصيانة، مع تطبيق بروتوكولات اختبار التسرب الواسعة على جميع مكونات النظام قبل النشر. تدمج أنظمة المراقبة الخاصة بهم قدرات التنبيه في الوقت الفعلي التي يمكنها اكتشاف مشاكل مثل التسريبات أو شذوذات درجة الحرارة، مما يمكن الاستجابة السريعة للمشاكل المحتملة قبل أن تؤثر على توفر الخدمة. يؤدي تنفيذ جداول الصيانة الوقائية وأنظمة الترشيح إلى تقليل مخاطر فشل النظام بشكل أكبر وإطالة عمر المكونات.

تتضمن بروتوكولات الصيانة من جوجل إجراءات استجابة محددة بوضوح تمكن فرق العمليات من معالجة المشاكل بطريقة متسقة وفعالة. يصبح هذا النهج المنهجي لإدارة الصيانة أساسياً عند التعامل مع نطاق عمليات مراكز البيانات في جوجل، حيث ستصبح نهج الصيانة المؤقتة غير قابلة للإدارة بسرعة. يعكس استثمار جوجل في بروتوكولات الصيانة الشاملة فهمهم أن الموثوقية التشغيلية مهمة بنفس القدر مثل الأداء الحراري في تنفيذ التبريد السائل الناجح.

الآثار على الصناعة والاتجاهات المستقبلية

امتدت رؤية تقنية التبريد السائل في Hot Chips 2025 إلى ما هو أبعد من عرض جوجل، مع عرض عدة بائعين لأنظمة التبريد المائي بما في ذلك خادم GB300 من Nvidia المجهز بوصلات التبريد المائي الخارجية والأنابيب المرنة. تشير انتشار عروض التبريد السائل في المؤتمر إلى أن هذه التقنية وصلت إلى مستوى نضج حيث أصبحت اعتباراً معيارياً لتطبيقات الحوسبة عالية الأداء بدلاً من كونها بديلاً تجريبياً.

يوضح عرض Rebellions AI لرقاقة “REBEL Quad” مع نظام التبريد القائم على المبرد كيف يتم تبني التبريد السائل عبر الصناعة، حتى من قبل الشركات الصغيرة التي تطور مسرعات الذكاء الاصطناعي المتخصصة. بينما ستستخدم بطاقات الإنتاج الخاصة بهم التبريد الهوائي التقليدي، فإن اختيارهم لاستخدام التبريد السائل لأغراض العرض يسلط الضوء على مزايا الأداء التي يمكن أن يوفرها التبريد المائي لعرض قدرات الرقاقة تحت الظروف الحرارية المثلى.

يمثل التبني الواسع لتقنية التبريد السائل تحولاً جوهرياً في تصميم بنية مراكز البيانات، مع آثار تمتد بعيداً عن الإدارة الحرارية. مع استمرار أحمال عمل الذكاء الاصطناعي في الزيادة في الكثافة الحاسوبية، من المرجح أن تصبح استراتيجيات الإدارة الحرارية التي طورتها شركات مثل جوجل ممارسة معيارية عبر الصناعة، مما يدفع الابتكار في تصميم أنظمة التبريد والإجراءات التشغيلية.

الآثار الاستراتيجية لمقدمي خدمات GPU السحابية

بالنسبة للشركات التي تدير منصات GPU-as-a-Service، تقدم ابتكارات التبريد السائل من جوجل فرصاً وتحديات يمكن أن تؤثر بشكل كبير على موقعهم التنافسي واستراتيجياتهم التشغيلية. تشير مزايا الكفاءة المُثبتة لأنظمة التبريد السائل إلى أن مقدمي الخدمات السحابية الذين يستثمرون في بنية الإدارة الحرارية المتقدمة قد يكونوا قادرين على تقديم نسب أداء-سعر فائقة مقارنة بالمنافسين الذين يعتمدون على نهج التبريد الهوائي التقليدي. يمكن أن ينترجم التقليل بنسبة 95% في استهلاك طاقة التبريد الذي حققته أنظمة التبريد السائل من جوجل مباشرة إلى تكاليف تشغيل أقل وهوامش ربح محسنة لخدمات GPU السحابية.

توفر مزايا القابلية للتوسع التي أظهرتها بنية CDU من جوجل مخططاً لكيفية تعامل مقدمي GPU السحابي مع التحديات الحرارية المرتبطة بنشر GPU الكثيف. مع استمرار مجموعات GPU في النمو في الحجم وكثافة الطاقة، تصبح القدرة على الحفاظ على درجات حرارة التشغيل المثلى مع تقليل استهلاك الطاقة المتعلق بالتبريد مهمة بشكل متزايد للحفاظ على التكاليف التشغيلية التنافسية. قد يجد مقدمو الخدمات السحابية الذين يستثمرون بشكل استباقي في بنية التبريد السائل أنفسهم في موقع أفضل للتعامل مع المطالب الحرارية لأجيال GPU التالية.

تقدم بروتوكولات الصيانة والموثوقية التي طورتها جوجل رؤى قيمة لمقدمي GPU السحابي الذين يسعون للحفاظ على توفر خدمة عالي أثناء تشغيل أنظمة التبريد السائل المعقدة. يمكن تكييف استراتيجيات التكرار ونهج الصيانة الوقائية التي أظهرتها جوجل مع بيئات GPU السحابية، مما قد يمكن معدلات استخدام أعلى وانقطاعات خدمة مقللة. بالنسبة لمقدمي الخدمات السحابية، تمثل القدرة على تنفيذ عمليات الصيانة دون إزالة موارد GPU من الخط ميزة تنافسية كبيرة من ناحية موثوقية الخدمة ورضا العملاء.

تمثل الخبرة التشغيلية المطلوبة لنشر وصيانة أنظمة التبريد السائل على نطاق مراكز البيانات بنجاح كلاً من حاجز دخول وخندق تنافسي محتمل لمقدمي الخدمات السحابية. قد تجد الشركات التي تطور هذه الخبرة بنجاح نفسها قادرة على تقديم خدمات GPU بأداء حراري وكفاءة طاقة فائقة، بينما يمكن أن تثني تعقيدات أنظمة التبريد السائل المنافسين الأصغر عن دخول السوق. يمكن أن يؤدي هذا التحول التقني إلى مزيد من التوحيد في سوق خدمات GPU السحابية، مع حصول المقدمين الأكبر الذين لديهم الموارد للاستثمار في بنية التبريد المتقدمة على مزايا على المنافسين الأصغر.

الخلاصة: مستقبل الإدارة الحرارية لمراكز البيانات

يقدم عرض جوجل في Hot Chips 2025 دليلاً مقنعاً على أن التبريد السائل قد تطور من تقنية تجريبية إلى حل جاهز للإنتاج لمعالجة التحديات الحرارية لبنية الذكاء الاصطناعي الحديثة. يُظهر نهجهم المنهجي لتطوير حلول التبريد على نطاق مراكز البيانات التطور الهندسي المطلوب لنشر التبريد السائل بنجاح على النطاق المؤسسي، بينما توفر خبرتهم التشغيلية رؤى قيمة حول اعتبارات الصيانة والموثوقية التي يجب معالجتها.

يشير التبني الأوسع للصناعة لتقنية التبريد السائل المرئي في Hot Chips 2025 إلى أن نهج الإدارة الحرارية هذا سيصبح بشكل متزايد معياراً لتطبيقات الحوسبة عالية الأداء. مع استمرار أحمال عمل الذكاء الاصطناعي في قيادة الزيادات في الكثافة الحاسوبية واستهلاك الطاقة، من المرجح أن تصبح استراتيجيات الإدارة الحرارية التي ريادتها جوجل وقادة الصناعة الآخرون مكونات أساسية لبنية مراكز البيانات التنافسية.

بالنسبة لصناعة خدمات GPU السحابية، تمتد آثار هذه التطورات في تقنية التبريد بعيداً عن الإدارة الحرارية، مما يعيد تشكيل ديناميكيات المنافسة والاستراتيجيات التشغيلية في جميع أنحاء القطاع. قد تجد الشركات التي تستثمر بشكل استباقي في بنية التبريد المتقدمة نفسها في موقع أفضل للاستفادة من النمو المستمر لأحمال عمل الذكاء الاصطناعي، بينما قد تواجه تلك التي تؤخر تبني تقنية التبريد السائل تحديات متزايدة في الحفاظ على نسب أداء-سعر تنافسية.

يبدو أن مستقبل الإدارة الحرارية لمراكز البيانات سيصبح بشكل متزايد قائماً على الماء، مع أنظمة التبريد السائل التي تقدم مزايا الكفاءة والقابلية للتوسع الضرورية لدعم التطور المستمر لبنية الذكاء الاصطناعي. توفر تجربة جوجل خريطة طريق لكيفية نجاح المنظمات في التنقل في هذا التحول التقني، بينما يؤكد التبني الأوسع للصناعة المرئي في Hot Chips 2025 أن التبريد السائل أصبح تقنية أساسية لعصر الذكاء الاصطناعي.


المصدر: Chips and Cheese - Google’s Liquid Cooling at Hot Chips 2025