<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-07-05T21:19:08+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ar"><title type="html">عصر المحركات البخارية في انتظار كارنو: العقلية التي يحتاجها العلم الآن</title><link href="https://thakicloud.github.io/ar/culture/waiting-for-carnot/" rel="alternate" type="text/html" title="عصر المحركات البخارية في انتظار كارنو: العقلية التي يحتاجها العلم الآن" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/culture/waiting-for-carnot</id><content type="html" xml:base="https://thakicloud.github.io/ar/culture/waiting-for-carnot/"><![CDATA[<p><img src="/assets/images/waiting-for-carnot-hero.webp" alt="صورة تجريدية لبخار وطاقة موجية تتقاطع في أنماط تداخل" /></p>

<h2 id="سؤال-العشرين-واط">سؤال العشرين واط</h2>

<p>لديّ عادة قديمة. كلما صادفت ظاهرة ما، أحاول أولا إعادة كتابتها بلغة الطاقة. الضوء والصوت كلاهما موجات، والموجة هي الطريقة التي تعبر بها الطاقة الفضاء. الاتصالات فن تحميل المعلومات على تلك الطاقة، والبرمجيات هي النظام الشكلي الذي يعالج تلك المعلومات. أكثر من عشرين عاما من كتابة الكود لم تشفني من هذه العادة، بل عمقتها.</p>

<p>انظر إلى الذكاء الاصطناعي اليوم من خلال هذه العادة وسيعلق رقم واحد في حلقك. يعمل الدماغ البشري بنحو عشرين واطا فقط. بطاقة أقل من مصباح متوهج نتعلم اللغات ونتعرف على الوجوه، وأحيانا نتخيل نظريات فيزيائية جديدة. في المقابل، تُدرَّب النماذج الكبيرة اليوم في مراكز بيانات تبتلع طاقة مدينة صغيرة. نظامان يحلان مسائل متشابهة، والطاقة التي ينفقانها تختلف بمراتب عديدة، وليست مرتبة أو مرتبتين.</p>

<p>لا أقرأ هذه الفجوة كمشكلة أداء، بل كمشكلة فهم. الحضارة التي تفهم مهمة من حيث المبدأ تنجزها بطاقة أقل فأقل مع الوقت. أما الحضارة التي تقلد النتيجة فقط فتصب الطاقة لسد الفجوة. حقيقة أننا نقلد عشرين واطا بالجيجاواط تبدو لي أصدق دليل كمي على أننا لا نعرف بعد مبادئ الذكاء.</p>

<h2 id="نصف-القرن-الذي-سبق-كارنو">نصف القرن الذي سبق كارنو</h2>

<p>لسنا هنا لأول مرة. فتاريخ العلم عرض هذا المشهد أكثر من مرة.</p>

<p>بحلول أواخر القرن الثامن عشر كانت المحركات البخارية تدير مناجم أوروبا ومصانعها. حقق محرك وات نجاحا تجاريا، وتنافس المهندسون بشراسة على بنائه أكبر وأدق. ومع ذلك لم يعرف أحد لماذا تعمل هذه المحركات، ولا ما إذا كان هناك حد جوهري لاستخراج الشغل من الحرارة. كانت الآلات تدور، ولم تكن النظرية موجودة.</p>

<p>نشر سادي كارنو ورقته عام 1824 مبينا أن كل محرك حراري يواجه سقف كفاءة تحدده درجات الحرارة وحدها، سقفا لا تكسره أي براعة هندسية. كان ذلك بعد نصف قرن من بدء البخار في تحويل الصناعة. ومن تلك الورقة القصيرة نمت الديناميكا الحرارية. ظهر مفهوم الإنتروبيا، وصيغ قانون حفظ الطاقة، وبدأت سلسلة طويلة وصلت لاحقا إلى الميكانيكا الإحصائية ونظرية المعلومات.</p>

<p>ما يهمني هنا هو ترتيب الأحداث. جاءت الآلة العاملة أولا، وجاء الفهم لاحقا. والقفزة الحقيقية لم تأت ممن بنوا آلات أكبر، بل ممن سأل لماذا تعمل الآلات أصلا. بعد كارنو لم تعد الحضارة مضطرة إلى تكبير الغلايات إلى ما لا نهاية، إذ صار بإمكانها حساب الحد النظري للكفاءة وتصميم طريقها نحوه.</p>

<p>يقف التعلم العميق اليوم تماما حيث وقف المحرك البخاري قبل كارنو. المحركات تعمل بشكل رائع، والصناعة يعاد تنظيمها بالفعل. لكن لا توجد ديناميكا حرارية للذكاء. لماذا يظهر التعميم عند هذا الحجم من البيانات والمعاملات؟ ما الحدود الجوهرية والتكلفة الدنيا للعملية التي نسميها التعلم؟ مثل المهندسين قبل كارنو، لا نعرف هذه الأشياء إلا كقواعد تجريبية.</p>

<h2 id="سحابتا-كلفن">سحابتا كلفن</h2>

<p>في أبريل عام 1900 ألقى اللورد كلفن محاضرة في المؤسسة الملكية عن سحابتين تخيمان على فيزياء عصره. الأولى كانت الفشل في رصد حركة الأرض عبر الأثير، الوسط الذي كان يُعتقد أنه يحمل الضوء. والثانية كانت عجز النظرية الكلاسيكية عن تفسير توزيع طاقة إشعاع الجسم الأسود. في مزاج ذلك العصر بدت المسألتان كلمسات أخيرة على بناء شبه مكتمل.</p>

<p>من هاتين السحابتين خرجت النسبية وميكانيكا الكم. الاستثناءات التي بدت تافهة أجبرت البناء كله على إعادة التشييد.</p>

<p>الدرس المعتاد من هذه القصة يتعلق بتواضع التنبؤ. لكنني أريد وضع التشديد في مكان مختلف قليلا: كانت هناك عيون رأت السحب سحبا. حتى في عصر بدا فيه كل شيء محلولا، رفض بعض الناس كنس البقايا غير المفسرة تحت سجادة الخطأ الطفيف، ومن تلك البقايا بالضبط وُلدت الفيزياء التالية.</p>

<p>للذكاء الاصطناعي اليوم سحبه أيضا. القاعدة التجريبية القائلة إن مزيدا من الحجم يجلب مزيدا من القدرة تعمل جيدا، لكن لا شيء يفسر السبب. تعمم النماذج كثيرا خارج بيانات تدريبها، لكن لا نظرية تتنبأ بموعد انهيار التعميم. والعلاقة بين إنتاج جمل مقنعة وفهم العالم ما زالت ضبابا. إن كنت منتشيا بسرعة صعود درجات الاختبارات المعيارية بدت لك هذه لمسات أخيرة. أما أنا فأراها سحابتين.</p>

<h2 id="الإنجاز-المسمى-التوسيع">الإنجاز المسمى التوسيع</h2>

<p>أريد تجنب سوء فهم: لا أنوي التقليل من شأن التوسيع.</p>

<p>الوصول إلى هنا بحشد القوة الحاسوبية إنجاز يستحق مكانا في تاريخ الهندسة بمعاييري. أنظمة موزعة تربط عشرات آلاف المسرعات في تدريب واحد، وطرق استمثال تتقارب باستقرار فوقها. هذه هندسة دقيقة، ووصفها بالقوة الغاشمة إهانة لمن بنوها. وبصفتي شخصا ظل يبشر بأهمية التعلم العميق قبل أن يصبح رائجا، أعترف بأن مشاهدة النبوءة تتحقق بهذا الحجم تحرك شيئا في داخلي.</p>

<p>المشكلة ليست الإنجاز بل الوهم الذي يخلقه. ما دام منحنى التوسيع يصعد، يبدأ المنحنى نفسه في الظهور كتقدم علمي. لكن صنع محرك أقوى بتكبير الغلاية وتأسيس الديناميكا الحرارية نشاطان مختلفان. الأول ينفذ طريقة معروفة على نطاق أكبر، والثاني يسأل لماذا تنجح الطريقة ويحسب حدودها. نحتاج الاثنين. وحين يبقى الأول وحده يزدهر المجال هندسيا ويتجمد علميا.</p>

<p>يلفتني تباين واحد. في الفترة نفسها سلكت الحوسبة الكمومية والمعلومات الكمومية طريقا آخر. منذ أيام كانت فيها الأجهزة بدائية بنى ذلك المجال نظريته أولا: حدود تصحيح الأخطاء، وتكميم التشابك كمورد، ونظرية تعقيد للمسائل التي تسهل كموميا وتلك التي لا تسهل. إنها حالة نادرة مشى فيها الفهم أمام الآلة. وأظن أن هذا الترتيب بالذات هو سبب صلابة النتائج الأخيرة الخارجة من ذلك المجال.</p>

<h2 id="ثقافة-تستهلك-الصناديق">ثقافة تستهلك الصناديق</h2>

<p>ما يقلقني أكثر من التقنية هو الثقافة.</p>

<p>بالنسبة لكثير من الباحثين والمهندسين الداخلين إلى المجال الآن، النموذج صندوق: يدخل المدخل ويخرج المخرج، ولا حاجة لفتحه ولا جرأة على ذلك. بضعة أسطر من استدعاءات API تنتج منتجات كانت مستحيلة بالأمس، فيبدو فتح الصندوق هواية غير مجدية. أصبح صقل الموجهات وتحديث لوحات الترتيب الحركات الافتراضية للبحث.</p>

<p>التجريد بريء في ذاته. أنا نفسي صعدت السلم من الأسمبلي إلى اللغات العالية والأطر، والتجريد مصدر الإنتاجية، وليس على الجميع فهم الترانزستورات. لكن في تاريخ العلم جاءت قفزة الطبقة التالية دائما ممن نزل تحت حدود التجريد. كثيرون استخدموا المحرك البخاري كصندوق، لكن كارنو رسم تدفق الحرارة داخله. كثيرون استهلكوا اللاسلكي كصندوق عجيب، لكن ماكسويل وهرتز قرآ معادلات الموجات في داخله.</p>

<p>إجادة استخدام الصندوق والجرأة على فتحه عضلتان مختلفتان. ثقافة اليوم تدرب الأولى فقط. أعطها جيلا واحدا وقد نجد أنفسنا في مجال يفيض بمن يديرون المحركات ولا يبقى فيه من يؤسس الديناميكا الحرارية.</p>

<h2 id="الذين-غيروا-الإحداثيات">الذين غيروا الإحداثيات</h2>

<p>فماذا نفعل بعد فتح الصندوق؟ دعوني أستخرج تلميحا من تاريخ العلم: القفزات الكبرى لم تأت من مزيد من الحساب بل من تغيير التمثيل.</p>

<p>أثبت فورييه أن أي إشارة مهما تعقدت يمكن إعادة كتابتها كمجموع موجات بسيطة. الإشارة نفسها لا تتغير، لكن ما إن تتغير إحداثيات النظر إليها حتى تظهر في مجال التردد بنية كانت خفية في مجال الزمن. الاتصالات ومعالجة الإشارات الحديثة كلها تقف على هذا التحول في المنظور. وأعاد شانون كتابة الاتصال من مسألة فولتات ودارات إلى مسألة احتمال وإنتروبيا، فصار السقف النظري لما يمكن لقناة أن تحمله من معلومات قابلا للحساب. حين يتغير التمثيل تظهر الحدود، وحين تظهر الحدود يمكن التصميم نحوها.</p>

<p>وبصفتي من قضى عمره يفكك الضوء والصوت كموجات، أعترف بأنني حين أنظر داخل الشبكات العصبية تلوح لي لغة الموجات باستمرار: تمثيلات تتراكب وتتداخل في فضاءات عالية الأبعاد، ومكونات تُرشَّح وتُضخَّم عبر الطبقات. لا أعرف إن كانت هذه هي اللغة الصحيحة، وربما نحتاج رياضيات مختلفة تماما. لا أدعي أن الموجات هي الجواب. لكن يصعب علي التخلص من الشك في أن ما نحتاجه الآن ليس عنقودا أكبر بقدر ما هو نظام إحداثيات جديد. البنية التي لن تظهر أبدا في إحداثيات منحنيات الخسارة ودرجات المعايير قد تسقط كمتباينة واحدة في تمثيل آخر.</p>

<h2 id="العيش-قبل-ديناميكا-الذكاء-الحرارية">العيش قبل ديناميكا الذكاء الحرارية</h2>

<p>نعود إلى سؤال البداية: أي عقلية يحتاجها العالِم في زمن كهذا؟</p>

<p>أول ما أسميه هو التواضع. ليس إتيكيت خفض الذات، بل دقة الإدراك. الاعتراف الصريح بأننا نملك محركا يعمل ولا نملك نظرية. رفض الخلط بين صعود درجات المعايير ونمو الفهم. إبقاء الفجوة بين عشرين واطا والجيجاواط على رأس قائمة الواجبات. هذا يكفي.</p>

<p>يليه انضباط التحديق في السحب. الصناعة ستتكفل بجعل ما ينجح ينجح أكثر. أما عمل العالِم فهو مواجهة البقايا غير المفسرة بدل تصنيفها خطأ طفيفا. لماذا يعمم؟ متى ينكسر؟ أسئلة كهذه لا تنفع أرباح الربع القادم، وعلم نصف القرن القادم سيولد منها بالضبط.</p>

<p>وتنفع أيضا عادة الشك في التمثيل. نظام الإحداثيات الذي نستخدمه الآن ليس الوحيد. كانت الإشارات موجودة قبل فورييه والاتصال موجودا قبل شانون، وما كان ناقصا هو لغة إعادة الكتابة. التمرن على إعادة كتابة مجالك بلغة غريبة، واستعارة رياضيات من حقل مجاور. معظم هذه المحاولات يفشل، والمحاولة التي تنجح تغير سماء المجال كله.</p>

<p>وأضيف أمرا أخيرا: ليس هذا وقت الإحباط. كان طلاب الفيزياء عام 1900 محظوظين، إذ وُلدوا في عصر ظن أن البناء اكتمل فصاروا الجيل الذي أعاد بناءه. غياب ديناميكا حرارية للذكاء يعني أن موقعها شاغر. ونادرا ما يرسل تاريخ العلم دعوة أكثر إثارة من هذه.</p>

<h2 id="إلى-كارنو-القادم">إلى كارنو القادم</h2>

<p>تبني ThakiCloud عناقيد GPU ومنصات ذكاء اصطناعي. يمكن القول إن حرفتنا بناء غلايات هذا العصر. ولهذا بالذات نكرر على أنفسنا أن الغلايات ليست القصة كلها. البنية التحتية لا تطرح الأسئلة نيابة عنك، فالبنية الجيدة تتيح فقط لصاحب الأسئلة الجيدة أن يجرب أسرع وبتكلفة أقل. وهوسنا بكفاءة المنصة وتكلفة الطاقة يعود في النهاية إلى المكان نفسه: أمام المعيار الذي وضعه دماغ العشرين واط، ما زال على حوسبة اليوم أن تتواضع كثيرا.</p>

<p>انتظر عصر المحركات البخارية كارنو، ولم يكن الانتظار عبثا. في مكان ما الآن شخص يفتح الصندوق ويسأل عن المبادئ بدل المعايير، وربما ما زال طالبا. أرجو أن تصل هذه المقالة إلى كارنو القادم كتشجيع صغير. المحركات تدور بالفعل، وما نحتاجه الآن هو شجاعة السؤال: لماذا تعمل؟</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="culture" /><category term="فلسفة-العلم" /><category term="التعلم-العميق" /><category term="الديناميكا-الحرارية" /><category term="الموجات" /><category term="ثقافة-البحث" /><category term="التواضع" /><summary type="html"><![CDATA[الفجوة بين آلة تعمل ومبدأ نفهمه من أقدم المشاهد في تاريخ العلم. في عصر يحل كل شيء بالقوة الحاسوبية، تعيد هذه المقالة قراءة عصر التعلم العميق بعدسة الطاقة والموجات، وتدعو إلى تواضع العالِم.]]></summary></entry><entry xml:lang="ar"><title type="html">GLM-5.2 بمعدل 2,626 tok/s على AMD MI355X: اقتصاديات الخدمة التي صنعها MXFP4 وSGLang</title><link href="https://thakicloud.github.io/ar/llmops/glm-5-2-amd-mi355x-mxfp4/" rel="alternate" type="text/html" title="GLM-5.2 بمعدل 2,626 tok/s على AMD MI355X: اقتصاديات الخدمة التي صنعها MXFP4 وSGLang" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/glm-5-2-amd-mi355x-mxfp4</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/glm-5-2-amd-mi355x-mxfp4/"><![CDATA[<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-hero.webp" alt="صورة تجريدية تمثل تدفق الحوسبة المتوازية الذي يتم ضغطه على طول خط الأنابيب ليتقارب في نواة واحدة عالية الكفاءة" /></p>

<p>انتشرت نتيجة اختبار أداء بسرعة في تايم لاين المطورين الأسبوع الماضي. كانت تفيد بأن GLM-5.2 تم تشغيله على عقدة واحدة من AMD MI355X بمعدل 2,626 رمزاً (token) في الثانية، وبتكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell. إذا نظرنا إلى الأرقام فقط، يبدو الأمر كدعاية اعتيادية من نوع “عتادنا أسرع”، لكن سبب أهمية هذه الحالة يكمن في مكان آخر. فهي تجمع بين تشغيل نموذج MoE ضخم بحجم 743B على معالج رسوميات من AMD وليس من NVIDIA، مع ضغطه إلى مستوى 4 بت دون فقدان في الدقة.</p>

<p>هذا المقال موجه لقادة الهندسة الذين يدرسون الخدمة المحلية (on-premise) والخدمة متعددة السحابات، وفرق منصات التعلم الآلي التي تفكر في اختيار مورّد وحدات معالجة الرسوميات، وعلماء البيانات الذين يحتاجون إلى تقييم اقتصاديات خدمة النماذج المفتوحة الأوزان الكبيرة. سنتحقق أولاً من المصدر الأصلي لمعرفة ما الذي قاسته هذه النتيجة بالضبط، ثم نحلل لماذا كان تكميم MXFP4 وتوازي MoE في SGLang حاسمين، وأخيراً نوضح أين تقف منصة ai-platform من ThakiCloud ضمن هذا التوجه.</p>

<p>لنبدأ بالخلاصة. الرسالة الحقيقية لهذا الاختبار ليست “AMD أسرع”، بل أن <strong>مكدس الخدمة (صيغة التكميم ومحرك الاستدلال) بدأ يفكّ قفل الاعتماد على مورّد عتاد واحد</strong>. وهذه النقطة التي ينفكّ فيها القفل هي بالضبط سبب وجود منصات الخدمة المحلية.</p>

<h2 id="ما-هي-هذه-التقنية">ما هي هذه التقنية</h2>

<p>هذه نتيجة تلاقي ثلاثة عناصر: النموذج، والعتاد، ومكدس الخدمة الذي يربط بينهما.</p>

<p><strong>النموذج، GLM-5.2.</strong> هو نموذج MoE مفتوح الأوزان أصدرته Z.ai (المعروفة سابقاً باسم Zhipu)، بإجمالي معلمات (parameters) يبلغ نحو 743B، ومعلمات نشطة لكل رمز تبلغ نحو 39B. يصل طول السياق إلى مليون رمز (1M)، ويُعرف بأنه قوي بشكل خاص في مهام برمجة الواجهة الأمامية (frontend). ورغم أن إجمالي معلماته كبير، فإن معلماته النشطة لا تتجاوز 39B بفضل بنية MoE، ما يجعله نموذجاً متفرقاً (sparse) ضخماً نموذجياً من نوع “يُخزَّن بثقل ويُستخدم بخفة”.</p>

<p><strong>العتاد، AMD Instinct MI355X.</strong> هو أحدث مسرّع لمراكز البيانات من AMD، وتكمن قوته في سعة الذاكرة الكبيرة لكل وحدة معالجة رسوميات (GPU)، ما يتيح احتواء نماذج كبيرة على عدد أقل من وحدات المعالجة. تم قياس هذه الحالة على تكوين عقدة واحدة (8 وحدات معالجة رسوميات، مع توازي موتّرات tp=8). وللإشارة، فإن استهلاك الذاكرة لكل وحدة معالجة رسوميات وفق FP8 يبلغ نحو 89 جيجابايت، أي نصف مستوى BF16 البالغ نحو 175 جيجابايت.</p>

<p><strong>مكدس الخدمة، تكميم MXFP4 (عبر AMD Quark) مع SGLang.</strong> هنا يكمن جوهر الموضوع. تم تحويل نموذج GLM-5.2 الأصلي بصيغة BF16 إلى صيغة <strong>MXFP4</strong> (فاصلة عائمة دقيقة التدرج بـ 4 بت) باستخدام أداة التكميم من AMD المسماة <strong>Quark</strong>، ويذكر المصدر الأصلي أن هذا التحويل كان “بلا فقدان” (lossless) في الدقة مقارنة بتكميم FP8 الرسمي. أما محرك الاستدلال المختار فكان <strong>SGLang</strong>. والسبب واضح: من بين الأطر التي جرى اختبارها، كان SGLang الوحيد الذي يدعم MXFP4 بشكل أصلي، واستطاع من خلال خيار <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> توزيع الخبراء (experts) على وحدات المعالجة ثم توجيه الرموز عبر NVLink/NVSwitch، أي تفعيل توازي MoE بالشكل الصحيح.</p>

<p>وفيما يلي ملخص لخط الأنابيب الكامل.</p>

<pre><code class="language-mermaid">flowchart TB
    A[GLM-5.2 الأصلي&lt;br/&gt;BF16 · 743B MoE] --&gt; B[تكميم MXFP4&lt;br/&gt;عبر AMD Quark]
    B --&gt; C{التحقق من الدقة}
    C --&gt;|بلا فقدان مقارنة بـ FP8 الرسمي| D[محرك خدمة SGLang]
    C --&gt;|في حال حدوث فقدان| A
    D --&gt; E[توازي خبراء MoE&lt;br/&gt;--enable-moe-ep]
    E --&gt; F[عقدة MI355X واحدة&lt;br/&gt;8 GPU · tp=8]
    F --&gt; G[تدفق واحد 213 tok/s]
    F --&gt; H[إجمالي العقدة 2,626 tok/s]
</code></pre>

<p>يكمن الاختلاف عن النهج التقليدي في نقطتين. الأولى، أن صيغة التكميم هي MXFP4 وليست FP8. فتقليل عدد البتات عادة ما يؤدي إلى اضطراب الدقة، لكن أسلوب التدرج الدقيق (microscaling) يضع مقياساً منفصلاً لكل كتلة صغيرة، وهو تصميم يهدف إلى الحفاظ على الجودة حتى عند مستوى 4 بت. الثانية، أن كل هذا تم تشغيله خارج نظام CUDA البيئي، أي على AMD ROCm.</p>

<h2 id="نتائج-اختبار-الأداء-الفعلية">نتائج اختبار الأداء الفعلية</h2>

<p>الأرقام التي نشرها المصدر الأصلي (Wafer.ai) تنقسم إلى مسارين. ينبغي النظر إليهما بشكل منفصل لأن ظروف حمل العمل تختلف بينهما.</p>

<p><strong>سيناريو زمن استجابة تدفق واحد.</strong> في طلب واحد بمدخل 10 آلاف رمز ومخرج 1.5 ألف رمز، بلغ المعدل <strong>213 رمزاً في الثانية</strong>. يمثل هذا الرقم حالة مستخدم واحد يُدخل سياقاً طويلاً ويتلقى الإجابة عبر البث المباشر (streaming).</p>

<p><strong>سيناريو الإنتاجية الإجمالية للعقدة.</strong> في ظروف مدخل 20 ألف رمز، ومخرج ألف رمز، ومعدل إصابة ذاكرة تخزين مؤقتة (cache) بنسبة 60%، تمت معالجة 2.4 طلب في الثانية (2.4 rps)، محققةً إنتاجية إجمالية بلغت <strong>2,626 tok/s لكل عقدة</strong>. وفي هذه الحالة، ظل زمن الوصول إلى أول رمز (TTFT) عند 5 ثوانٍ أو أقل. تمثل هذه الظروف حالة قريبة من الخدمة الإنتاجية التي تدفع طلبات متعددة في آن واحد.</p>

<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-results.webp" alt="رسم بياني بالأعمدة يوضح إنتاجية التدفق الواحد وإجمالي العقدة، والتكلفة النسبية مقارنة بـ Blackwell" /></p>

<p>أما فيما يخص التكلفة، فتذكر Wafer.ai أن تكوين MXFP4 هذا يحقق <strong>تكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell</strong>، أي إنتاجية لكل دولار أعلى بأكثر من الضعف. وفي تحليل منفصل، أفادت SemiAnalysis (InferenceX) أن MI355X، ضمن تكوين مختلف يستخدم SGLang وFP8، أرخص بنسبة تصل إلى <strong>40% لكل مليون رمز</strong> مقارنة بـ B200. وبما أن صيغة التكميم وحمل العمل مختلفان بين الرقمين، فمن الأدق عدم مقارنتهما مباشرة، بل قراءتهما على أنهما “مصدران مستقلان يشيران إلى نفس الاتجاه العام”، وهو التنافسية السعرية لـ MI355X. ولا بد من التوضيح أن مؤشر التكلفة في الرسم البياني أعلاه هو تصوير بصري لادعاء Wafer.ai بـ”أكثر من الضعف”، وهو مؤشر نسبي وليس سعراً مطلقاً.</p>

<p>تجدر الإشارة هنا إلى نقطة مهمة. هذه الأرقام ليست نتيجة إعادة إنتاج قمنا بها بأنفسنا بعد الحصول على عقدة MI355X فعلية، بل هي قيم قياس نشرها المصدر الأصلي. ولعدم توفر جهاز MI355X فعلي لدينا، لم نتمكن من إعادة الإنتاج المستقل، وبالتالي فإن جميع الأرقام الواردة في هذا المقال هي قيم مقتبسة. نخطط للتعامل مع إعادة الإنتاج بنفس الظروف بشكل منفصل حالما نحصل على العتاد.</p>

<h2 id="لماذا-كان-mxfp4-وsglang-حاسمين">لماذا كان MXFP4 وSGLang حاسمين</h2>

<p>الأهم من العتاد في هذه النتيجة هو اختيار مكدس الخدمة. وهناك ثلاثة أسباب لذلك.</p>

<p><strong>أولاً، يتيح التكميم بـ 4 بت احتواء نماذج MoE الضخمة على عدد أقل من وحدات المعالجة.</strong> تحميل 743B معلمة بصيغة BF16 يتطلب مئات الجيجابايتات من الذاكرة. وعند خفضها إلى MXFP4، تنخفض ذاكرة الأوزان بشكل كبير، ما يتيح وضع النموذج نفسه في عدد أقل من وحدات المعالجة وضمن عقدة أضيق. وبما أن جزءاً كبيراً من تكلفة الخدمة يتحدد بحسب “عدد وحدات المعالجة اللازمة لاحتواء هذا النموذج”، فإن التكميم بـ 4 بت القريب من عدم الفقدان ينعكس مباشرة على سعر الوحدة.</p>

<p><strong>ثانياً، يجعل توازي MoE عملية الحساب مقتصرة على المعلمات النشطة فقط.</strong> في نماذج MoE، لا يُفعَّل لكل رمز سوى عدد قليل من الخبراء. ويقوم خيار <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> في SGLang بتوزيع الخبراء على وحدات المعالجة وإرسال الرموز إلى الخبير المعني عبر وصلات بينية عالية السرعة. والمفتاح الحقيقي للإنتاجية هو إحياء بنية “حساب 39B النشطة فقط بدل حساب كامل 743B” على مستوى توزيع العتاد.</p>

<p><strong>ثالثاً، تناغم الصيغة مع المحرك يفك قيد الاعتماد على مورّد واحد.</strong> هنا يكمن الاستنتاج الهادئ لهذا الإنجاز. فبمجرد توفر محرك يدعم MXFP4 بشكل أصلي (SGLang) وأداة تحوّل إلى تلك الصيغة بلا فقدان (AMD Quark)، أصبحت الخدمة على مستوى الإنتاج ممكنة على ROCm وليس فقط على CUDA. وكلما زاد توحيد مكدس الخدمة، تحوّل سؤال “أي مورّد لوحدة المعالجة” من مسألة أداء إلى مسألة توفر وسعر. وهذا هو التحول الذي يعيد قوة التفاوض إلى المشتري.</p>

<h2 id="دلالات-التطبيق-على-منتجات-thakicloud">دلالات التطبيق على منتجات ThakiCloud</h2>

<p>ترتبط هذه الحالة ارتباطاً مباشراً باستراتيجية <strong>ai-platform</strong> من ThakiCloud. فمنصة ai-platform هي بنية تحتية لخدمات AI/ML SaaS قائمة على Kubernetes، تقوم بخدمة النماذج في بيئات عملاء متنوعة وجدولة موارد وحدات المعالجة عبر Kueue. ومن هذا المنظور، تحمل هذه النتيجة ثلاث دلالات.</p>

<p><strong>الخدمة متعددة الموردين لم تعد تنازلاً في الأداء.</strong> في الماضي، كان الافتراض القائل بأن “الأداء لا يتحقق إلا مع NVIDIA” يغلق عملياً باب اختيار المورّد. وحالة GLM-5.2 على MI355X دليل على تزعزع هذا الافتراض. فإذا استطاعت ai-platform تجريد vLLM وSGLang كخلفيات خدمة (backends)، وجدولة عقد NVIDIA وAMD معاً فوقها، فسيتمكن العملاء من توجيه طلباتهم إلى أرخص عتاد متاح حسب حمل العمل. وفي عناقيد (clusters) متعددة المستأجرين، هذه المرونة تعني مباشرة تنافسية في سعر الخدمة.</p>

<p><strong>التكميم أصبح شاغلاً من الدرجة الأولى للمنصة.</strong> الصيغ منخفضة البتات القريبة من عدم الفقدان مثل MXFP4 تتيح تحقيق “نفس اتفاقية مستوى الخدمة (SLA) بعدد أقل من وحدات المعالجة”. وبالنسبة للعملاء الذين يعتمدون الخدمة المحلية، خصوصاً في بيئات القطاع العام والمالي المحلية التي تتطلب سيادة البيانات والاستضافة الذاتية (self-hosting)، فإن كمية وحدات المعالجة المتاحة نفسها تشكل قيداً. والتكميم بلا فقدان يتيح تشغيل نماذج أكبر ضمن هذا القيد، لذا فإن استيعاب ai-platform لسلاسل أدوات مثل Quark كخطوة قياسية في خط أنابيب الخدمة يُعد توجهاً طبيعياً.</p>

<p><strong>كفاءة التكلفة هي الحجة الأساسية لعرض الخدمة المحلية.</strong> أكثر سؤال يُطرح على ThakiCloud عند اقتراح الخدمة المحلية والسحابة السيادية هو “إذاً، ما مدى الرخص؟”. واختبارات الأداء المستقلة التي تشير إلى تكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell، وأرخص بنسبة تصل إلى 40% مقارنة بـ B200، يمكن استخدامها كدليل على أن تنويع العتاد فوق مكدس خدمة مناسب يخفض التكلفة الإجمالية للملكية (TCO) فعلياً. وبالطبع فإن هذا يفترض إمكانية إعادة الإنتاج في بيئة العميل، وهذه القدرة على إعادة الإنتاج هي بحد ذاتها القيمة التي تقدمها المنصة.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>من أجل التوازن، نستعرض أسباب عدم المبالغة في الثقة بهذه النتيجة.</p>

<p><strong>أولاً، اختبار الأداء هو لقطة لظروف محددة.</strong> رقم 2,626 tok/s جاء من حمل عمل محدد بمدخل 20 ألف رمز، ومخرج ألف رمز، ومعدل إصابة ذاكرة تخزين مؤقتة 60%. وفي حمل عمل تتركز فيه توليدات طويلة على مطالبات (prompts) قصيرة، أو حيث يكون معدل إصابة الذاكرة المؤقتة منخفضاً، ستختلف الإنتاجية بشكل كبير. والفجوة بين 213 tok/s للتدفق الواحد و2,626 tok/s لإجمالي العقدة تُظهر بالفعل هذه الحساسية.</p>

<p><strong>ثانياً، ادعاء “عدم الفقدان” في MXFP4 محدود بنطاق التحقق.</strong> يذكر المصدر الأصلي أنه بلا فقدان مقارنة بـ FP8 الرسمي، لكن من المرجح أن هذا مبني على مجموعة تقييم محددة. وتأثير التكميم بـ 4 بت قد يختلف حسب المهمة، سواء في البرمجة أو الرياضيات أو السياقات الطويلة، لذا يجب قبل الاعتماد الفعلي قياس تدهور الجودة مباشرة باستخدام مجموعة تقييم خاصة بالشركة.</p>

<p><strong>ثالثاً، لا يزال مستوى نضج تشغيل نظام ROCm البيئي متغيراً غير محسوم.</strong> نجاح اختبار الأداء وثبات التشغيل الموثوق في بيئة الإنتاج أمران مختلفان. فلا تزال هناك فجوة مع نظام CUDA البيئي في توافق برامج التشغيل (drivers) والنواة (kernel) والمكتبات، وفي نضج أدوات التعامل مع الأعطال. والحكم على التكلفة الإجمالية للملكية بالاعتماد فقط على سعر العتاد قد يغفل تكاليف الطاقم التشغيلي وتوقف الخدمة.</p>

<p>ومع ذلك، فإن الاتجاه العام واضح. فتوحيد مكدس الخدمة يوسّع خيارات العتاد المتاحة، والمستفيد من هذا التحول هو منصات الخدمة، وعملاؤها، القادرون على الإفلات من قيد المورّد الواحد واختيار العتاد الأمثل لكل حمل عمل. وهذا بالضبط ما تستهدفه منصة ai-platform من ThakiCloud.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Wafer.ai, “Performance per dollar is getting faster and cheaper”: <a href="https://www.wafer.ai/blog/glm52-amd">https://www.wafer.ai/blog/glm52-amd</a></li>
  <li>SemiAnalysis InferenceX, “AMD MI355X GLM-5 Inference: Up to 40% Cheaper per Million Tokens than B200 on SGLang FP8”: <a href="https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200">https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200</a></li>
  <li>LMSYS, “Win on TCO: How AMD Instinct MI355X Achieves Cost-Competitive Distributed Inference Through SGLang with MoRI”: <a href="https://www.lmsys.org/blog/2026-05-28-mori/">https://www.lmsys.org/blog/2026-05-28-mori/</a></li>
  <li>بطاقة نموذج GLM-5.2 (743B / 39B نشطة · MoE · سياق 1024K): <a href="https://recipes.vllm.ai/zai-org/GLM-5.2">https://recipes.vllm.ai/zai-org/GLM-5.2</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="amd" /><category term="mi355x" /><category term="glm" /><category term="mxfp4" /><category term="quantization" /><category term="sglang" /><category term="vllm" /><category term="self-hosting" /><summary type="html"><![CDATA[نتحقق من حالة خدمة GLM-5.2 743B MoE على عقدة واحدة من AMD MI355X بمعدل 2,626 tok/s لكل عقدة، بتكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell، من زاوية تكميم MXFP4 وتوازي MoE في SGLang، ونربط ذلك باستراتيجية ai-platform من ThakiCloud للخدمة متعددة الموردين.]]></summary></entry><entry xml:lang="ar"><title type="html">لماذا يكون نموذج أكبر بثمانية أضعاف أرخص بخمسة أضعاف: البنية الحقيقية لتكلفة استدلال النماذج اللغوية الكبيرة</title><link href="https://thakicloud.github.io/ar/llmops/llm-inference-economics-kv-cache-moe-roofline/" rel="alternate" type="text/html" title="لماذا يكون نموذج أكبر بثمانية أضعاف أرخص بخمسة أضعاف: البنية الحقيقية لتكلفة استدلال النماذج اللغوية الكبيرة" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/llm-inference-economics-kv-cache-moe-roofline</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/llm-inference-economics-kv-cache-moe-roofline/"><![CDATA[<p><img src="/assets/images/llm-inference-economics-kv-cache-moe-roofline-hero.webp" alt="بنية تكلفة استدلال النماذج اللغوية الكبيرة" /></p>

<h2 id="نظرة-عامة-مفارقة-أن-يكون-نموذج-أكبر-بثمانية-أضعاف-أرخص-بخمسة-أضعاف">نظرة عامة: مفارقة أن يكون نموذج أكبر بثمانية أضعاف أرخص بخمسة أضعاف</h2>

<p>طرح سؤال مثير للاهتمام مؤخراً في مجتمع بنية استدلال النماذج. فـ DeepSeek V4 Flash، وهو نموذج بإجمالي 284 مليار معلمة، يسعّر رموز الإخراج (output) بأرخص بنحو خمسة أضعاف من Qwen3.6-35B-A3B البالغ 35 مليار معلمة. وإذا نظرنا إلى الأسعار الفعلية، نجد أن رموز الإدخال (input) لكلا النموذجين متقاربة عند نحو 0.14 دولار لكل مليون رمز، لكن رموز الإخراج تبلغ 0.18-0.28 دولار لكل مليون رمز في DeepSeek V4 Flash، مقابل 1.00-1.49 دولار لكل مليون رمز في Qwen3.6.</p>

<p>وهناك ما هو أغرب من ذلك. فمن حيث المعلمات النشطة لكل رمز، يستخدم Qwen3.6 نحو 3 مليارات معلمة بينما يستخدم DeepSeek V4 Flash نحو 13 مليار معلمة. أي أن Qwen، من ناحية حجم الحوسبة، أخف بأربعة أضعاف تقريباً، ومع ذلك يسير سعر السوق في الاتجاه المعاكس تماماً. وهكذا تنكسر مرتين متتاليتين الفكرة البديهية القائلة إن عدد المعلمات يساوي التكلفة.</p>

<p>يشرّح هذا المقال تلك المفارقة على ثلاثة مستويات: أولاً، لماذا يكون الحد المهيمن في تكلفة فك الترميز (decode) هو قراءة الذاكرة وليس الحوسبة؛ ثانياً، التوتر البنيوي بين عمق ذاكرة KV المؤقتة والتسعير الثابت؛ وثالثاً، ما الذي يظهر عند حساب صيغة الخدمة المثلى على 8xH100 مباشرة باستخدام نموذج roofline. وبالنسبة لجهة مثل ThakiCloud تقدم خدمة النماذج مباشرة في بيئات العملاء، فإن هذه البنية تتحول مباشرة إلى قدرة تنافسية في التكلفة، لذا نستعرض أيضاً الدلالات العملية لذلك.</p>

<h2 id="التحقق-من-الحقائق-المعمارية-للنموذجين">التحقق من الحقائق المعمارية للنموذجين</h2>

<p>لنبدأ أولاً بتحديد المواصفات بدقة.</p>

<p>DeepSeek V4 Flash هو نموذج MoE بإجمالي 284 مليار معلمة و13 مليار معلمة نشطة. يختار الموجّه (router) أفضل 6 خبراء (top-6) من بين 256 خبيراً موجَّهاً (routed expert) بالإضافة إلى خبير مشترك واحد (shared expert). أما الانتباه (attention) فهو مكدس هجين يجمع بين CSA (الانتباه المتفرق المضغوط) وHCA (الانتباه شديد الضغط)، حيث يقرأ فقط أفضل 1,024 مُدخلاً مضغوطاً من ذاكرة KV المؤقتة في كل تمريرة استعلام. ووفقاً للمصادر الرسمية، عند سياق يبلغ مليون رمز (1M) يخفّض ذلك عمليات الفاصلة العائمة (FLOPs) لكل رمز إلى 27%، وذاكرة KV المؤقتة إلى 10% مقارنة بـ V3.2. أما نقطة التفتيش (checkpoint) فهي بصيغة مختلطة، حيث تكون خبراء MoE بصيغة FP4 والباقي بصيغة FP8.</p>

<p>Qwen3.6-35B-A3B هو نموذج MoE بإجمالي 35 مليار معلمة و3 مليارات معلمة نشطة (256 خبيراً، 8 موجَّهين + خبير مشترك واحد). والانتباه هجين بين طبقات انتباه خطي من نوع Gated DeltaNet وطبقات انتباه كامل (full attention) (برأسي KV اثنين، وبُعد رأس 256). السياق الأصلي يبلغ 262 ألف رمز، ويمتد حتى مليون رمز عبر تقنية YaRN. وعند نقطة تفتيش بصيغة FP8 يبلغ حجمه نحو 35 جيجابايت، ما يجعله يتسع في وحدة H100 واحدة.</p>

<p>وباختصار، كلا النموذجين تصميمان حديثان وموجهان نحو الكفاءة. وما يجعل هذه المقارنة أكثر إثارة هو أن Qwen ليس مكلفاً لأنه مجرد نموذج كثيف (dense) ساذج.</p>

<h2 id="البنية-الحقيقية-لتكلفة-فك-الترميز-نموذج-roofline">البنية الحقيقية لتكلفة فك الترميز: نموذج roofline</h2>

<p>توليد الرموز (فك الترميز) مقيد بعرض النطاق الترددي للذاكرة، لا بالحوسبة. والتقريب من الدرجة الأولى لزمن خطوة فك الترميز هو كالتالي.</p>

<div class="language-text highlighter-rouge"><div class="highlight"><pre class="highlight"><code>T_step = (بايتات الأوزان المطلوب قراءتها + مجموع بايتات قراءة KV لكل طلب) / عرض النطاق الترددي للذاكرة
throughput = حجم الدفعة (batch_size) / T_step
</code></pre></div></div>

<p>وهنا يختلف طابع الحدّين اختلافاً تاماً.</p>

<p>قراءة الأوزان (weight) تتقاسمها الدفعة. فإذا قُرئت الأوزان مرة واحدة في كل خطوة، فإن جميع الطلبات داخل الدفعة تشترك في هذه القراءة. فعند دفعة بحجم 512، تنخفض تكلفة الأوزان لكل رمز إلى 1/512. وهذا هو سبب أن إجمالي معلمات MoE يصبح “شبه مجاني عند الدفعات الكبيرة”.</p>

<p>أما قراءة ذاكرة KV المؤقتة فهي منفصلة لكل طلب. فكل طلب يجب أن يقرأ ذاكرة KV الخاصة بسياقه، وهذه التكلفة لا تتوزع حتى مع تكبير الدفعة. وتزداد خطياً كلما ازداد عمق السياق.</p>

<p>لذلك، عندما تكون الدفعة كبيرة بما يكفي ويطول السياق، يتحول الحد المهيمن في التكلفة من الأوزان إلى قراءة ذاكرة KV. غير أن تسعير واجهة برمجة التطبيقات (API) ثابت لكل رمز بغض النظر عن عمق السياق: فالطلب الذي يحمل تاريخاً بطول 32 ألف رمز والطلب الذي يحمل تاريخاً بطول 500 ألف رمز يدفعان السعر نفسه لكل رمز إخراج. ومن منظور مزوّد الخدمة، فإن النموذج القادر على إبقاء قراءة ذاكرة KV محدودة بغض النظر عن العمق هو الذي يحقق هامش ربح ضمن نظام التسعير الثابت.</p>

<pre><code class="language-mermaid">flowchart TB
    A["تكلفة خطوة فك الترميز"] --&gt; B["قراءة الأوزان"]
    A --&gt; C["قراءة ذاكرة KV المؤقتة"]
    B --&gt; B1["تتقاسمها الدفعة بأكملها&lt;br/&gt;تنقسم إلى 1/512 عند دفعة 512"]
    C --&gt; C1["تحدث لكل طلب على حدة&lt;br/&gt;لا تتوزع مع الدفعة"]
    C1 --&gt; D{"عمق السياق"}
    D --&gt;|"الانتباه القياسي"| E["يزداد بما يتناسب مع العمق&lt;br/&gt;قراءة O(L)"]
    D --&gt;|"الانتباه المتفرق CSA/HCA"| F["1,024 مُدخلاً ثابتاً&lt;br/&gt;ثابت بغض النظر عن العمق"]
    E --&gt; G["انفجار التكلفة&lt;br/&gt;عند السياق الطويل"]
    F --&gt; H["تأمين الهامش&lt;br/&gt;ضمن التسعير الثابت"]
</code></pre>

<h2 id="صيغة-الخدمة-على-8xh100-مقارنة-بالأرقام">صيغة الخدمة على 8xH100: مقارنة بالأرقام</h2>

<p>لننتقل الآن إلى وضع النموذجين فعلياً على 8xH100 (طراز SXM5، بذاكرة 80 جيجابايت HBM3 لكل وحدة، وعرض نطاق 3.35 تيرابايت/ثانية لكل وحدة، بإجمالي 640 جيجابايت، وتجميع إجمالي 26.8 تيرابايت/ثانية). وحددنا التكلفة بالساعة عند نحو 20 دولاراً وفق نموذج الطلب عند الحاجة (on-demand).</p>

<p>وفرضيات النمذجة هي كالتالي: يمتلك Qwen3.6 أوزاناً بصيغة FP8 تبلغ نحو 35 جيجابايت؛ وبافتراض أن 10 من طبقاته الهجينة الأربعين هي طبقات انتباه كامل، فإن ذاكرة KV لكل رمز تبلغ نحو 10 كيلوبايت [تقدير] (رأسا KV اثنان × بُعد 256 × 2 لـ K/V × 10 طبقات × بايت واحد). أما DeepSeek V4 Flash فوزنه الفعلي يبلغ نحو 150 جيجابايت [تقدير] بخبراء بصيغة FP4 وطبقات كثيفة (dense) بصيغة FP8؛ وذاكرة KV المخزَّنة، استناداً إلى الادعاء الرسمي بنسبة 10% مقارنة بـ V3.2، تبلغ نحو 3.5 كيلوبايت لكل رمز [تقدير]، بينما تكون القراءة عند فك الترميز ثابتة عند نحو 4 ميغابايت لكل طلب في كل خطوة عبر أفضل 1,024 مُدخلاً.</p>

<h3 id="صيغة-الخدمة-تختلف-من-الأساس">صيغة الخدمة تختلف من الأساس</h3>

<p>الصيغة المثلى لـ Qwen3.6 هي ثماني نسخ مستقلة (DP8). وبما أن النموذج يتسع في وحدة واحدة، فلا يوجد أي اتصال بين وحدات المعالجة على الإطلاق، ويتبقى نحو 38 جيجابايت من ميزانية ذاكرة KV لكل وحدة. وهذه هي صيغة الخدمة النموذجية للتصميم الموجَّه نحو الاستضافة المحلية.</p>

<p>أما DeepSeek V4 Flash فيتطلب تجميع الوحدات الثماني كلها في مجموعة واحدة من نوع TP/EP. وفي مقابل اتصال all-to-all الذي يفرضه ذلك، تشترك الدفعة بأكملها في ميزانية ذاكرة KV تبلغ نحو 490 جيجابايت.</p>

<h3 id="حسابات-الإنتاجية-حسب-عمق-السياق">حسابات الإنتاجية حسب عمق السياق</h3>

<p>هذه نتائج حسابات roofline (والقيم المتحققة فعلياً عادة ما تكون 50-60% من هذه الأرقام، ولا تشمل اتصال EP ولا مرحلة prefill).</p>

<p>عند سياق 8 آلاف رمز (8K)، تعمل مجموعة Qwen بمعدل نحو 76 ألف رمز/ثانية وDeepSeek V4 Flash بنحو 90 ألف رمز/ثانية، وهما متقاربان. وإذا أُخذ في الحسبان عبء الاتصال، فإن Qwen يصبح في الواقع أفضل. وهذا يعني أنه عند السياق القصير، يكون النموذج الأصغر أرخص من الناحية الحوسبية أو مكافئاً له.</p>

<p>عند 32 ألف رمز (32K) تبدأ الفجوة بالاتساع. إذ ترتفع قراءة ذاكرة KV لكل طلب في Qwen إلى 320 ميغابايت، فينخفض إلى نحو 31 ألف رمز/ثانية، بينما يحافظ DeepSeek V4 Flash على نحو 90 ألف رمز/ثانية لأن قراءة ذاكرة KV لديه لا تزال ثابتة. أي فارق يقارب ثلاثة أضعاف.</p>

<p>عند 256 ألف رمز (256K)، تصل ذاكرة KV لكل طلب في Qwen إلى 2.56 جيجابايت، ويؤدي سقف التخزين إلى تقييد حجم الدفعة لكل وحدة عند 14، فينخفض إلى نحو 5.3 آلاف رمز/ثانية. أما DeepSeek V4 Flash فيعمل بنحو 45 ألف رمز/ثانية، بفارق قدره 8.5 أضعاف.</p>

<p>عند مليون رمز (1M)، يتعين على Qwen قراءة 10 جيجابايت لكل طلب في كل خطوة، فينخفض إلى نحو 1.2 ألف رمز/ثانية بسقف 24 جلسة متزامنة. أما DeepSeek V4 Flash فيعمل بنحو 11 ألف رمز/ثانية مع 64 جلسة متزامنة، بفارق يقترب من عشرة أضعاف.</p>

<p>وبتحويل ذلك إلى دولارات، عند 32K يكون السعر 0.18 دولار لكل مليون رمز لـ Qwen مقابل 0.06 دولار لكل مليون رمز لـ DeepSeek V4 Flash؛ وعند 1M يكون 4.6 دولار لكل مليون رمز لـ Qwen مقابل 0.5 دولار لكل مليون رمز لـ DeepSeek V4 Flash. وفي النطاق من عشرات إلى مئات الآلاف من الرموز، وهو متوسط العمق لأحمال العمل الوكيلية (agentic)، تتسع فجوة التكلفة إلى 3-10 أضعاف، وهو ما يقع بالضبط في نفس رتبة حجم فارق أسعار واجهة برمجة التطبيقات الملحوظ (نحو خمسة أضعاف).</p>

<p><img src="/assets/images/llm-inference-economics-kv-cache-moe-roofline-results.webp" alt="مقارنة الإنتاجية والتكلفة حسب عمق السياق" /></p>

<p>وهناك أمر يجدر الإفصاح عنه بأمانة: يوجد تباين يصل إلى 40 ضعفاً بين المصادر العامة بخصوص ذاكرة KV المخزَّنة لكل رمز في DeepSeek V4 Flash (إذ يتعارض ادعاء وثائق vLLM recipes بنسبة “10% مقارنة بـ V3.2” مع جدول ذاكرة KV في بعض أدلة النشر). وقد اعتمد الحساب أعلاه على الادعاء الأول، الأقرب إلى مصدر أولي، ونشدد على أن الاستنتاج يستند إلى اتجاه التوسع (بنية اتساع الفجوة مع تزايد العمق) لا إلى القيم المطلقة.</p>

<h2 id="ثلاثة-أمور-يكشفها-الحساب">ثلاثة أمور يكشفها الحساب</h2>

<p>أولاً، عنق الزجاجة في Qwen ليس تخزين ذاكرة KV بل قراءتها. فبفضل Gated DeltaNet، التخزين (نحو 10 كيلوبايت لكل رمز) ممتاز بالفعل. المشكلة أن قراءة O(L) في طبقات الانتباه الكامل تتكرر في كل خطوة فك ترميز. أما DeepSeek V4 Flash فتخزينه صغير أيضاً، وقراءته مقيدة بثابت تماماً.</p>

<p>ثانياً، تمتص الدفعة قراءة أوزان MoE البالغة 284 مليار معلمة. فعند دفعة كبيرة، تكون قراءة الأوزان لكل خطوة ثابتة عند نحو 150 جيجابايت، وهو ما يصل إلى 0.3 جيجابايت لكل رمز عند توزيعه على 512 رمزاً. في المقابل، تقرأ كل وحدة في Qwen بنمط DP8 نحو 35 جيجابايت بشكل مستقل، ما يصل إجمالاً إلى 280 جيجابايت لكل خطوة على مستوى العنقود (cluster). وهكذا ينعكس الفارق البالغ ثمانية أضعاف في إجمالي المعلمات عند النظر إلى القراءة الفعلية.</p>

<p>ثالثاً، رغم أن Qwen أرخص من الناحية الحوسبية عند السياق القصير، فإن سعره في السوق أعلى بخمسة أضعاف. وهذا دليل كمّي على أن قائمة الأسعار لا تعكس التكلفة الفعلية. فـ DeepSeek يشغّل واجهة برمجة تطبيقاته الخاصة (1st-party API) بحجم حركة مرور ضخم، وينقل إلى التسعير وفورات التكلفة الناتجة عن تحسينات البنية التحتية، مثل النوى المخصصة (deep_gemm_mega_moe، وذاكرة مؤشر FP4)، وفصل مرحلتي prefill وdecode، وMTP، وخصم بنسبة 98% عند إصابة الذاكرة المؤقتة (cache hit). أما Qwen3.6-35B، الذي صُمم أساساً للاستخدام المحلي أو وحدة معالجة رسوميات واحدة، فإن خدمته عبر واجهة برمجة التطبيقات تتولاها غالباً جهات خارجية باستخدام مكدس vLLM عام؛ وعندما تكون كثافة حركة المرور منخفضة، يتعين إدماج وقت خمول وحدة المعالجة ضمن السعر، ما يرفع السعر المعروض. وسعر السوق دالة على كثافة الطلب ومستوى التحسين، لا على التكلفة الفعلية.</p>

<h2 id="دلالات-التطبيق-على-منتج-thakicloud">دلالات التطبيق على منتج ThakiCloud</h2>

<p>يرتبط هذا التحليل ارتباطاً مباشراً بالقرارات التي تواجهها منصة ai-platform من ThakiCloud يومياً. فعند خدمة النماذج على وحدات معالجة الرسوميات الخاصة بالعملاء في بيئات السحابة المحلية (on-prem) والسحابة السيادية، فإن ما يحدد تكلفة الرمز على العتاد نفسه ليس حجم النموذج بل صيغة الخدمة. وكما توضح الحسابات أعلاه، يمكن أن تختلف الإنتاجية الفعلية بعدة أضعاف على نفس تكوين 8xH100 تبعاً للاختيار بين DP8 ومجموعة TP/EP، ونوع بيانات ذاكرة KV المؤقتة (dtype)، وإعداد max-model-len. وتعتمد ai-platform كإجراء قياسي ضبط معاملات خدمة vLLM، فوق جدولة وحدات معالجة الرسوميات القائمة على K8s وKueue، بما يتناسب مع ملف حمل العمل (متوسط عمق السياق، وعدد الجلسات المتزامنة)، ونموذج roofline في هذا المقال هو نقطة انطلاق ذلك التحجيم (sizing).</p>

<p>وهناك أيضاً بُعد يتعلق بأحمال عمل الوكلاء (agents). ففي Paxis (السحابة الأصيلة للوكلاء من ThakiCloud)، ينتج الوكلاء تاريخاً طويلاً واستدعاءات أدوات (tool call) متكررة، وهذا بالضبط نوع حركة المرور الذي يدفع عمق ذاكرة KV إلى العمق. والاستنتاج العملي لهذا التحليل هو أن الجمع بين نموذج يظل قوياً عند السياق العميق وبنية تحتية للتخزين المؤقت للسوابق (prefix cache) هو ما يحدد اقتصاديات الوكلاء. فتكلفة الخدمة المنخفضة (ai-platform) هي ما ينتج اقتصاديات وحدة الوكيل (Paxis).</p>

<h2 id="القيود-والحجج-المضادة">القيود والحجج المضادة</h2>

<p>لنوضح قيود هذا التحليل صراحة. أولاً، roofline نموذج للحد الأعلى. فالإنتاجية الفعلية عادة ما تكون عند 50-60% من هذه الأرقام بسبب كفاءة النوى (kernels)، واتصال all-to-all في EP، والتداخل بين prefill وdecode، بينما تدفع تقنيات تنبؤية مثل MTP الإنتاجية في الاتجاه المعاكس إلى الأعلى. ثانياً، تتعارض أرقام ذاكرة KV لدى DeepSeek V4 Flash بين المصادر العامة، لذا أبقينا على وسم [تقدير]. ثالثاً، عدد طبقات الانتباه الكامل في Qwen3.6 تقدير مبني على الإعداد (config) العام، وتتغير القيم المطلقة إذا اختلفت نسبة الهجين. رابعاً، الجودة محور منفصل: فـ DeepSeek V4 Flash أضعف من V4 Pro في الاستدلال متعدد الخطوات المعقد، لذا فإن اختيار النموذج بناءً على التكلفة وحدها استنتاج خاطئ. ويجيب هذا التحليل الخاص بالتكلفة فقط على سؤال: أي صيغة خدمة اقتصادية عند مستوى ثابت ومحدد من متطلبات الجودة.</p>

<h2 id="المراجع">المراجع</h2>

<ul>
  <li><a href="https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Flash">vLLM Recipes: DeepSeek-V4-Flash</a></li>
  <li><a href="https://recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B">vLLM Recipes: Qwen3.6-35B-A3B</a></li>
  <li><a href="https://api-docs.deepseek.com/quick_start/pricing">DeepSeek API Docs: Models &amp; Pricing</a></li>
  <li><a href="https://openrouter.ai/deepseek/deepseek-v4-flash">OpenRouter: DeepSeek V4 Flash</a></li>
  <li><a href="https://openrouter.ai/qwen/qwen3.6-35b-a3b">OpenRouter: Qwen3.6 35B A3B</a></li>
  <li><a href="https://qwen.ai/blog?id=qwen3.6-35b-a3b">مدونة Qwen الرسمية: Qwen3.6-35B-A3B</a></li>
  <li><a href="https://www.spheron.network/blog/deploy-deepseek-v4-flash-gpu-cloud/">Spheron: Deploy DeepSeek V4-Flash on GPU Cloud</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="LLM-الاستدلال" /><category term="KV-التخزين-المؤقت" /><category term="MoE" /><category term="vLLM" /><category term="تكلفة-الخدمة" /><category term="DeepSeek" /><category term="Qwen" /><summary type="html"><![CDATA[نحلل، باستخدام نموذج roofline، المفارقة التي تجعل DeepSeek V4 Flash بحجم 284B مليار معلمة يسعّر رموز الإخراج بأرخص بخمسة أضعاف من Qwen3.6 بحجم 35B. من قراءات ذاكرة KV المؤقتة إلى اقتصاديات تجميع الدفعات في MoE وصولاً إلى حسابات صيغة الخدمة على 8xH100، نستعرض البنية الحقيقية لتكلفة الاستدلال بالأرقام.]]></summary></entry><entry xml:lang="ar"><title type="html">هل ماتت عملية الضبط الدقيق فعلا؟ استراتيجية البقاء لعام 2026 عبر إشارات موثّقة من شهر يونيو</title><link href="https://thakicloud.github.io/ar/research/llmops/finetuning-survival-strategy-2026/" rel="alternate" type="text/html" title="هل ماتت عملية الضبط الدقيق فعلا؟ استراتيجية البقاء لعام 2026 عبر إشارات موثّقة من شهر يونيو" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/llmops/finetuning-survival-strategy-2026</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/llmops/finetuning-survival-strategy-2026/"><![CDATA[<p><img src="/assets/images/finetuning-survival-strategy-2026-hero.webp" alt="صورة توضيحية لاستراتيجية بقاء الضبط الدقيق" /></p>

<h2 id="مدخل-ألا-يكفي-الآن-أن-نستغني-عن-الضبط-الدقيق">مدخل: “ألا يكفي الآن أن نستغني عن الضبط الدقيق؟”</h2>

<p>كل من يبني منصة ذكاء اصطناعي أو يبيعها اليوم لا بد أنه سمع هذا السؤال مرة على الأقل. بما أن النماذج الطليعية أصبحت بهذا القدر من الجودة، وبما أنه يمكن حقن المعرفة الخاصة بالمجال عبر المهارات (skills) وسقالات الوكلاء (agentic scaffolding)، فهل يستحق الأمر إنفاق المال والوقت لتدريب نموذج مستقل؟ طرحنا على أنفسنا السؤال ذاته. لذلك تحققنا منه بالاعتماد حصرا على مصادر نُشرت خلال شهر واحد بالضبط، من 5 يونيو إلى 5 يوليو 2026.</p>

<p>المنهجية بسيطة. قسّمنا البحث إلى أربعة محاور: أدلة انتفاء الحاجة إلى الضبط الدقيق، أدلة استمرار بقائه، تحركات السوق والموردين، ونقاشات الممارسين الميدانيين. ثم أعدنا التحقق من ستة ادعاءات محورية تؤثر في اتجاه القرار عبر تدقيق تفنيدي (adversarial) مستقل. من أصل ستة، تأكدت أربعة ادعاءات بالكامل وتأكد ادعاءان جزئيا، ولم يُفنَّد أي منها. هذا المقال مبني حصرا على الحقائق التي اجتازت هذا التحقق.</p>

<p>الخلاصة المسبقة هي التالية: منتج الضبط الدقيق يحتضر بالفعل، لكن الذي يحتضر هو قطاع محدد هو واجهة SFT ذاتية الخدمة، بينما تُعاد صياغة التقنية ذاتها ضمن منتج مختلف تماما هو ملكية النموذج واقتصاديات عمال الوكلاء (agent workers)، بل تزداد قيمتها العلاوية في هذا الاتجاه.</p>

<h2 id="ما-الذي-يموت-فعلا">ما الذي يموت فعلا</h2>

<p>الحدث الأكثر دلالة هو قرار OpenAI. أعلنت الشركة في 7 مايو 2026 حظر إنشاء مهام ضبط دقيق جديدة للمؤسسات الجديدة، وابتداء من 2 يوليو انتقلت إلى مرحلة منع وصول المؤسسات غير النشطة لأكثر من 60 يوما، وفي 6 يناير 2027 ستُنهي بالكامل إمكانية إنشاء مهام ضبط دقيق جديدة حتى للعملاء النشطين الحاليين. يبقى الاستدلال (inference) على النماذج المضبوطة دقيقا سابقا متاحا إلى أن يُلغى النموذج الأساسي، لكن مسار تشغيل تدريب جديد يُغلق.</p>

<p>اللافت هو البند الاستثنائي. الضبط الدقيق القائم على التعلم المعزز، أي RFT، يُفصل في مسار منفصل ويستمر رغم هذا الإغلاق. أوقفت OpenAI الضبط الدقيق المُوجَّه (SFT) بينما أبقت على التخصيص عالي القيمة الذي يمتلك مكافأة قابلة للتحقق. أما Anthropic فلم تفتح أصلا واجهة ضبط دقيق ذاتية الخدمة في واجهتها العامة، وتدفع باتجاه Agent Skills كمسار قياسي يحمّل المعرفة الخاصة بالمجال ديناميكيا من بنية مجلدات. وهكذا فإن أكبر موردَي نماذج يشيران إلى الاتجاه ذاته.</p>

<p>إشارات الأسعار تحمل الرسالة نفسها. منافسة الأسعار على الضبط الدقيق بتقنية LoRA بين Together AI وFireworks AI تعني أن هذا القطاع أصبح سلعة أساسية (commodity) وتقلّصت هوامشه. أصبح تشغيل الضبط الدقيق المُوجَّه بخفة وذاتيا أمرا سهلا تقنيا، وبالتالي فقد جاذبيته كمشروع تجاري.</p>

<h2 id="لكن-لا-يوجد-دليل-على-أن-المهارات-حل-شامل-أيضا">لكن لا يوجد دليل على أن المهارات حل شامل أيضا</h2>

<p>على عكس الشعور السائد، الأدلة الأكاديمية على أن المهارات تحلّ محل الضبط الدقيق بشكل عام لا تزال ضعيفة. أظهرت دراسة SkillJuror، المقدَّمة ضمن هذه النافذة الزمنية، أن تقديم المهارات بصيغة مُهيكَلة يرفع معدل اجتياز التحقق بمقدار 4.1 نقطة مئوية مقارنة بالصيغة المسطّحة. الأثر حقيقي لكنه ليس كبيرا. أما الدراسة الخلفية الأسبق قليلا، SkillsBench، فتحمل نتيجة أكثر إثارة للاهتمام: المهارات المُنسَّقة (curated) بعناية ترفع معدل الاجتياز بمعدل 16.2 نقطة مئوية في المتوسط، لكن التباين بين المجالات متطرف، إذ يتراوح بين سلبي وحتى +51.9 نقطة مئوية، وفي 16 من أصل 84 مهمة تراجع الأداء فعليا. والأهم أن المهارات التي كتبها النموذج بنفسه لم تُحدث أثرا إيجابيا في المتوسط.</p>

<p>بمعنى آخر، فرضية “المهارات تكفي” فرضية مشروطة تصح فقط عند تطبيق مهارات نسّقها إنسان بعناية على المجال المناسب. تكلفة تنسيق المهارات ليست مجانية، ولا يوجد ما يضمن أنها أرخص دائما من الضبط الدقيق. وللإشارة، لم نجد ضمن هذه النافذة الزمنية أي معيار قياس (benchmark) يقارن مباشرة نموذجا مضبوطا دقيقا مقابل نموذج طليعي مزوَّد بمهارات على نفس مجموعة المهام. هذه الفجوة تبقى واجبا معلّقا على الطرفين.</p>

<h2 id="إشارات-معاكسة-تماما-خلال-شهر-يونيو">إشارات معاكسة تماما خلال شهر يونيو</h2>

<p>في الشهر نفسه، تدفقت أيضا إشارات قوية في اتجاه الضبط الدقيق وملكية النموذج. جميعها أحداث تم التحقق منها عبر مصادر مستقلة.</p>

<p>أولا، تحوّلت مخاطر الاعتماد الجيوسياسي على واجهات النماذج الطليعية إلى حدث واقعي مُقاس. في 12 يونيو 2026، وبناء على توجيه من ضوابط التصدير الأمريكية، عطّلت Anthropic نموذجَي Fable 5 وMythos 5 على مستوى العالم بأكمله. تعذّر تطبيق فلترة الجنسية في الزمن الحقيقي، فتأثر عمليا جميع المستخدمين وليس فقط العملاء خارج الولايات المتحدة، واستغرق رفع التعطيل 19 يوما. أي شركة وضعت أعمالها الجوهرية على واجهة نموذج طليعي واحدة، تكون قد تلقّت في يونيو درسا مدته 19 يوما.</p>

<p>ثانيا، منظومة الأوزان المفتوحة تُصمَّم اليوم على أساس الضبط الدقيق. أعلنت NVIDIA في 4 يونيو عن Nemotron 3 Ultra، وهو نموذج خليط خبراء (MoE) بحجم إجمالي 550 مليار معلمة ونشِط منها 55 مليارا، ويأتي مزودا افتراضيا بوصفات LoRA SFT وSFT الكامل وتعلم معزز GRPO. رخصة OpenMDW-1.1 تسمح صراحة بتسويع وإعادة توزيع النماذج المشتقة من الضبط الدقيق. الهدف من تصميم هذه الرخصة هو أن تملك الشركات وتبيع النموذج الذي دربته على بياناتها الخاصة. وفي 29 يونيو، أطلقت Palantir وNVIDIA معا منتجا مدمجا للذكاء الاصطناعي السيادي يتيح ضبط الأوزان المفتوحة دقيقا وتشغيلها داخل بيئة معزولة عن الشبكة (air-gapped). في الاتحاد الأوروبي، طُرح مشروع قانون لتصنيف أحمال العمل العامة وفق درجات ضمان السيادة، وفي كوريا كذلك مشاريع الذكاء الاصطناعي السيادي قيد التنفيذ.</p>

<p>ثالثا، ظهرت حالة انتصار عملي لعامل الضبط الدقيق. في معيار قياس نشرته شركة الذكاء الاصطناعي القانوني Harvey بالتعاون مع Fireworks، حقق نموذج Kimi K2.6 المضبوط بتقنية SFT فقط، ودون أي مساعدة من نموذج طليعي، معدل اجتياز إجمالي بلغ 15% على 100 مهمة، متجاوزا نموذج Claude Opus 4.7 المستقل الذي حقق 14%، وبتكلفة أقل بنحو 11.4 مرة. أما التركيبة الهجينة التي تستدعي نموذجا طليعيا انتقائيا إلى جانب عامل الضبط الدقيق، فحققت أعلى معدل اجتياز عند 18%. رغم أن هذا معيار قياس صادر عن المورّد نفسه، فإنه دليل عملي على أن الجمع بين عامل مضبوط دقيقا وتصعيد انتقائي إلى نموذج طليعي، في مجال ضيق، يحقق الجودة والتكلفة معا.</p>

<p>رابعا، تفوق النماذج الصغيرة في مجالات ضيقة لا يزال يتكرر. في ورقة بحثية نُشرت في 11 يونيو، أظهر نموذج Mistral-7B المضبوط دقيقا بتقنية QLoRA تفوقا في التحقق من الادعاءات الطبية الحيوية على GPT-4o وGPT-5، بفارق يصل إلى 12 نقطة مئوية في مقياس F1. وقد استُخدم لهذا التدريب 1,008 عينة فقط.</p>

<h2 id="السوق-ينقسم-إلى-ثلاثة-مسارات">السوق ينقسم إلى ثلاثة مسارات</h2>

<p>عند تراكب هذه الإشارات معا، يتضح أن السوق لا ينقسم بين “الموت أو البقاء” فحسب، بل ينقسم إلى ثلاثة مسارات.</p>

<pre><code class="language-mermaid">flowchart TB
    A["سوق الضبط الدقيق&lt;br/&gt;إعادة تشكّل 2026"] --&gt; B["المسار 1&lt;br/&gt;واجهة SFT ذاتية الخدمة"]
    A --&gt; C["المسار 2&lt;br/&gt;النموذج السيادي المملوك المخصص"]
    A --&gt; D["المسار 3&lt;br/&gt;الضبط الدقيق بالتعلم المعزز واقتصاديات العمال"]
    B --&gt; B1["مرحلة انكماش&lt;br/&gt;إغلاق تدريجي من OpenAI&lt;br/&gt;تحوّل LoRA إلى سلعة أساسية"]
    C --&gt; C1["ارتفاع علاوة القيمة&lt;br/&gt;منتجات ضبط دقيق معزولة عن الشبكة&lt;br/&gt;مشروع قانون تصنيف السيادة&lt;br/&gt;رخص مصممة على أساس الضبط الدقيق"]
    D --&gt; D1["نمو جديد&lt;br/&gt;RFT يبقى في مسار منفصل&lt;br/&gt;عامل ضبط دقيق + تصعيد لنموذج طليعي"]
    C1 --&gt; E["ملكية النموذج كمنتج"]
    D1 --&gt; E
</code></pre>

<p>المسار الأول، واجهة SFT ذاتية الخدمة، في مرحلة انكماش. طول السياق الكبير للنماذج الطليعية، ودعمها الأصلي لاستدعاء الأدوات، والمخرجات المُهيكَلة، استوعبت جزءا كبيرا من مشكلتَي الالتزام بالصيغة ومفردات المجال، اللتين كانتا سبب وجود الضبط الدقيق في الأصل. المسار الثاني، النموذج المخصص المملوك، يُعاد تشكيله كخدمة علاوية (premium). عصر الضبط الدقيق الخفيف عبر الواجهة البرمجية ينتهي، لكن التخصيص الثقيل الذي تملك فيه الشركة نموذجها وتتحكم فيه يزداد قيمة. المسار الثالث طلب جديد يخلقه عصر الوكلاء. كلما تحسّنت أدوات التنسيق (orchestrators)، تزداد استدعاءات العمال منخفضي التكلفة المسؤولين عن المهام الفرعية المتكررة، ولا يمكن تحمّل استدعاء نموذج طليعي في كل شريحة من هذه الاستدعاءات.</p>

<h2 id="الشروط-الخمسة-التي-يفوز-فيها-الضبط-الدقيق-بوضوح">الشروط الخمسة التي يفوز فيها الضبط الدقيق بوضوح</h2>

<p>عند تلخيص الحالات الموثّقة كنمط، يتضح أن احتمال فوز الضبط الدقيق وعائده على الاستثمار يرتفعان كلما تجمّعت الشروط التالية.</p>

<ol>
  <li>عندما تكون المهمة ضيقة ومتكررة وصيغة المخرجات ثابتة. التصنيف والتحقق والاستخراج المُهيكَل أمثلة نموذجية، والحالة التي حققت تفوقا بـ12 نقطة مئوية بـ1,008 عينة فقط من هذا النوع.</li>
  <li>عندما توجد مكافأة قابلة للتحقق. إذا توفرت تغذية راجعة من البيئة تسمح بتطبيق GRPO أو RFT، فهذا أفضل من التعلم المُوجَّه، وهو السبب الذي جعل OpenAI تُبقي على RFT وحده بعد إيقاف SFT.</li>
  <li>عندما يكون تكرار الاستدعاء مرتفعا والتكلفة والزمن هما القيد المُهيمن. شرائح عمال الوكلاء تندرج هنا، وفارق التكلفة بمقدار 11.4 مرة يصبح حاسما كلما ازداد الحجم.</li>
  <li>عند وجود متطلبات سيادة بيانات أو تنظيم أو شبكة معزولة. المجالات العامة والمالية والدفاعية تكون فيها خيارات الواجهة الخارجية محدودة أصلا.</li>
  <li>عندما تشكّل واجهة النموذج الطليعي نفسها مخاطرة في سلسلة التوريد. كما أظهر حادث التعطيل لمدة 19 يوما، لم تعد ضوابط التصدير وتغيرات السياسات سيناريو افتراضيا.</li>
</ol>

<p>في المقابل، لم نجد ضمن هذه النافذة الزمنية أي دليل على أن النموذج المضبوط دقيقا تفوّق على النموذج الطليعي في الاستدلال المفتوح المجال، أو المعرفة الحديثة، أو معالجة الذيل الطويل (long-tail). في هذه المجالات، التقييم الصادق هو ترك الساحة للمهارات وللنماذج الطليعية.</p>

<h2 id="دلالات-هذا-التحليل-من-منظور-منتجات-thakicloud">دلالات هذا التحليل من منظور منتجات ThakiCloud</h2>

<p>يتقاطع هذا الانقسام تماما مع اتجاه منتجَينا الرئيسيَّين.</p>

<p>من منظور ai-platform، ما يتطلبه المساران 2 و3 هو في النهاية بنية تحتية للتدريب والخدمة تعمل داخل شبكة العميل المعزولة. تُشغّل منصة ai-platform لدى ThakiCloud خمسة أنابيب تدريب هي SFT وCPT وDPO وGRPO وGKD، فوق جدولة وحدات معالجة الرسوميات (GPU) القائمة على Kubernetes وKueue. من المهم بالنسبة لنا أن هذا البحث أكد أن المحورين اللذين بدأ السوق يعترف بعلاوة قيمتهما هما GRPO المبني على مكافأة قابلة للتحقق، والتقطير (distillation) الذي ينقل مخرجات النموذج الطليعي إلى نموذج صغير. وكلما تزايدت متطلبات النشر الداخلي والسيادة، يتحوّل الضبط الدقيق من ميزة في واجهة برمجية إلى قضية قدرة بُنى تحتية، وهذا هو الموقع الذي نقف فيه.</p>

<p>من منظور Paxis، يوضّح هذا الاستنتاج بجلاء تقسيم الأدوار بين المهارات والضبط الدقيق. Paxis هو مستوى التحكم السحابي الأصلي للوكلاء (Agent-Native Cloud) لدى ThakiCloud، يختار من بين أكثر من 960 مهارة عبر خوارزمية BM25 وينفذها داخل صندوق رملي معزول، بحيث يمر كل سلوك عبر بوابات سياسة وسجلات تدقيق. الدرس الذي كشفته معايير قياس المهارات، وهو أن المهارات فعّالة فقط عند تنسيقها بعناية، وأن المهارات ذاتية التوليد غير موثوقة، يؤكد أن استثمار Paxis في تنسيق المهارات وحلقات التحقق كان الاتجاه الصحيح. وفي الوقت ذاته، يوضّح نمط حالة Harvey أن عامل الضبط الدقيق اقتصادي في المهام الفرعية المتكررة لأسطول الوكلاء، وأن التنسيق القائم على المهارات وعمال الضبط الدقيق ليسا في علاقة تنافس، بل طبقتان لبنية واحدة. إنه تصميم لا يتخلى عن النموذج الطليعي بل يستخدمه باقتصاد.</p>

<h2 id="الحدود-وحجج-مضادة">الحدود وحجج مضادة</h2>

<p>يجب أيضا وضع سيناريوهات قد تُبطل هذا التحليل. أقوى حجة مضادة هي سرعة تطور تحسين فضاء النص. صنّفناها كدراسة خلفية، لكن SkillOpt من Microsoft Research حقق تحسنا في الأداء بمقدار 19 إلى 25 نقطة مئوية بالاعتماد فقط على تحسين وثائق المهارات عبر آلية rollout، دون المساس بأوزان النموذج إطلاقا. إذا نضج هذا المسار، فقد يزحف حتى على آخر معاقل الضبط الدقيق، وهي دقة المهام الضيقة. حتى في هذا السيناريو، ما يبقى حيا ليس وظيفة التدريب بل عقد البنية التحتية الخاص بخدمة وتشغيل نموذج مملوك للعميل داخل شبكة معزولة. وقد لوحظ فعلا ضمن إشارات السوق في هذه النافذة الزمنية أن القيمة المضافة تنتقل من طبقة التدريب إلى طبقة الخدمة.</p>

<p>حد آخر يكمن في البيانات ذاتها. معيار قياس Harvey إعلان صادر عن المورّد نفسه، ولم نتمكن من الحصول ضمن هذه النافذة الزمنية على بيانات سوق كمية مباشرة تُظهر تراجع أو ازدياد الطلب على الضبط الدقيق. كما ينبغي التمييز بين قرار OpenAI بإغلاق الخدمة، الذي هو قرار من جانب العرض، وبين أي دليل مباشر على تراجع الطلب.</p>

<h2 id="خاتمة">خاتمة</h2>

<p>الشعور القائل بأن “الضبط الدقيق لم يعد ضروريا” صحيح فقط بنسبة النصف. صحيح أن SFT كسلعة أساسية يتراجع فعلا، لكن الأحداث الموثّقة خلال شهر يونيو 2026 تُظهر أن الضبط الدقيق يُعاد تشكيله في اتجاهين هما ملكية النموذج واقتصاديات عمال الوكلاء. حان وقت تغيير السؤال. لم يعد السؤال “هل نُجري ضبطا دقيقا أم لا”، بل “في أي الشروط نملك النموذج”، وهذا هو السؤال الصحيح للنصف الثاني من عام 2026.</p>

<h2 id="المراجع">المراجع</h2>

<ul>
  <li><a href="https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models">NVIDIA Debuts Nemotron 3 Family of Open Models (NVIDIA Newsroom, 2026-06-04)</a></li>
  <li><a href="https://arxiv.org/pdf/2606.15007">تقرير Nemotron 3 Ultra التقني (arXiv:2606.15007)</a></li>
  <li><a href="https://arxiv.org/abs/2606.12854">Small LLMs for Biomedical Claim Verification (arXiv:2606.12854, 2026-06-11)</a></li>
  <li><a href="https://www.aljazeera.com/news/2026/6/13/us-orders-anthropic-to-disable-ai-models-for-all-foreign-nationals">US orders Anthropic to disable AI models for all foreign nationals (Al Jazeera, 2026-06-13)</a></li>
  <li><a href="https://www.cnbc.com/2026/06/30/anthropic-says-trump-admin-has-lifted-export-controls-on-claude-fable-5-and-mythos-5.html">Anthropic says Trump admin has lifted export controls (CNBC, 2026-06-30)</a></li>
  <li><a href="https://arxiv.org/abs/2606.19659v1">SAGE-OPD: تقطير انتقائي قائم على السياسة (arXiv:2606.19659, 2026-06-17)</a></li>
  <li><a href="https://arxiv.org/abs/2606.11543">SkillJuror (arXiv:2606.11543, 2026-06)</a></li>
  <li><a href="https://fireworks.ai/blog/open-source-agents-frontier-advisors">How Harvey &amp; Fireworks Beat Closed Source on Cost + Quality (Fireworks AI Blog)</a></li>
  <li><a href="https://community.openai.com/t/openai-is-winding-down-the-fine-tuning-api-and-platform-discussion-thread/1380522">OpenAI is winding down the fine-tuning API (OpenAI Developer Community)</a></li>
  <li><a href="https://www.linuxfoundation.org/press/linux-foundation-releases-openmdw-1.1-nvidia-adopts-openmdw-for-cosmos-isaac-gr00t-ising-and-nemotron-ai-model-families">Linux Foundation Releases OpenMDW-1.1 (Linux Foundation, 2026-05-28)</a></li>
  <li><a href="https://arxiv.org/abs/2602.12670">SkillsBench (arXiv:2602.12670, دراسة خلفية)</a></li>
  <li><a href="https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/">SkillOpt: Agent skills as trainable parameters (Microsoft Research, دراسة خلفية)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="llmops" /><category term="fine-tuning" /><category term="slm" /><category term="sovereign-ai" /><category term="grpo" /><category term="distillation" /><category term="agent-skills" /><category term="llmops" /><summary type="html"><![CDATA[كلما تحسّنت النماذج اللغوية الكبيرة ومهارات الوكلاء، ينتشر في الصناعة شعور بأن fine-tuning (الضبط الدقيق) لم يعد ضروريا. بل إن OpenAI بصدد إيقاف واجهة برمجة الضبط الدقيق ذاتية الخدمة فعليا. لكن في الشهر نفسه، تدفقت إشارات معاكسة تماما: توقف نماذج طليعية لمدة 19 يوما، ورخصة أوزان مفتوحة مصممة على أساس الضبط الدقيق، وانتصار عملي لعامل ضبط دقيق أرخص بـ11 مرة من النموذج الطليعي. بالاعتماد فقط على مصادر نُشرت بين 5 يونيو و5 يوليو 2026، نقدّم هنا تحليلا متقاطعا لما يموت فعلا وما يبقى حيا.]]></summary></entry><entry xml:lang="en"><title type="html">The Age of Steam Engines, Waiting for Carnot: The Mindset Science Needs Right Now</title><link href="https://thakicloud.github.io/en/culture/waiting-for-carnot/" rel="alternate" type="text/html" title="The Age of Steam Engines, Waiting for Carnot: The Mindset Science Needs Right Now" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/culture/waiting-for-carnot</id><content type="html" xml:base="https://thakicloud.github.io/en/culture/waiting-for-carnot/"><![CDATA[<p><img src="/assets/images/waiting-for-carnot-hero.webp" alt="Abstract visual of steam and wave energy crossing into interference patterns" /></p>

<h2 id="the-20-watt-question">The 20-Watt Question</h2>

<p>I have an old habit. Whenever I meet a phenomenon, I first try to rewrite it in the language of energy. Light and sound are both waves, and a wave is how energy crosses space. Communication is the art of loading information onto that energy, and software is the formal system that manipulates the information. Twenty-plus years of writing code never cured the habit. If anything, it deepened.</p>

<p>Look at today’s artificial intelligence through that habit and one number sticks in your throat. The human brain runs on roughly 20 watts. On less power than an incandescent bulb, we learn languages and recognize faces. Occasionally we even imagine new theories of physics. Today’s large models, by contrast, are trained in data centers that swallow the power of a small city. Two systems solving broadly similar problems, and the energy they spend differs by many orders of magnitude. Not one or two.</p>

<p>I do not read this gap as a performance problem. I read it as an understanding problem. A civilization that understands a task in principle does it with less and less energy over time. A civilization that only imitates the result pours energy into the gap. The very fact that we are imitating 20 watts with gigawatts strikes me as the most honest quantitative evidence that we do not yet know the principles of intelligence.</p>

<h2 id="the-half-century-before-carnot">The Half Century Before Carnot</h2>

<p>We have been here before. The history of science has staged this scene more than once.</p>

<p>By the late eighteenth century, steam engines were already driving the mines and factories of Europe. Watt’s engine was a commercial success, and engineers competed fiercely to build them bigger and finer. Yet nobody knew why the engines worked, or whether there was a fundamental limit to extracting work from heat. The machines ran. The theory did not exist.</p>

<p>Sadi Carnot published his paper in 1824, showing that every heat engine faces an efficiency ceiling set by temperature alone, a ceiling no engineering cleverness can break. That was half a century after steam power began transforming industry. And from that short paper grew the science of thermodynamics. Entropy emerged, energy conservation was formalized, and a long chain began that eventually reached statistical mechanics and information theory.</p>

<p>What I care about here is the order of events. The working machine came first. Understanding came later. And the real leap came not from the people who built bigger machines but from the person who asked why the machines worked at all. After Carnot, civilization no longer had to grow boilers indefinitely. It could compute the theoretical limit of efficiency and design its way toward it.</p>

<p>Deep learning today sits exactly where the steam engine sat before Carnot. The engines work magnificently. Industry is already being reorganized. But there is no thermodynamics of intelligence. Why does generalization emerge at this scale of data and parameters? What are the fundamental limits and minimum costs of the process we call learning? Like the engineers before Carnot, we know these things only as rules of thumb.</p>

<h2 id="kelvins-two-clouds">Kelvin’s Two Clouds</h2>

<p>In April 1900, Lord Kelvin gave a lecture at the Royal Institution about two clouds hanging over the physics of his day. One was the failure to detect the Earth’s motion through the ether, the medium then believed to carry light. The other was the inability of classical theory to explain the energy distribution of blackbody radiation. In the mood of the time, both looked like minor finishing work on a nearly completed building.</p>

<p>Out of those two clouds came relativity and quantum mechanics. The exceptions that looked trivial forced the whole building to be rebuilt.</p>

<p>The lesson usually drawn from this story is about the humility of prediction. I want to put the emphasis somewhere slightly different. There were eyes that recognized the clouds as clouds. Even in an age when everything seemed solved, some people refused to sweep the unexplained residue under the rug of minor error, and the next physics was born precisely from that residue.</p>

<p>Today’s artificial intelligence has its own clouds. The empirical law that more scale brings more capability works well, but nothing explains why. Models often generalize surprisingly far beyond their training data, yet no theory predicts when generalization will collapse. The relation between producing plausible sentences and understanding the world remains fog. If you are drunk on the speed at which benchmark scores climb, these look like finishing work. To me they look like two clouds.</p>

<h2 id="the-achievement-called-scaling">The Achievement Called Scaling</h2>

<p>I want to avoid a misunderstanding. I have no intention of belittling scaling.</p>

<p>Getting here by concentrating computing power is, by my standards, an achievement that belongs in the history of engineering. Distributed systems that bind tens of thousands of accelerators into a single training run, optimization methods that converge stably on top of them. This is precise engineering. Calling it brute force would be an insult to the engineers who built it. As someone who went around preaching that deep learning would matter long before it was fashionable, I confess that watching the prediction come true at this scale moves me.</p>

<p>The problem is not the achievement but the illusion it creates. While the scaling curve climbs, the curve itself starts to look like scientific progress. But making a stronger engine by enlarging the boiler and founding thermodynamics are different kinds of activity. The former executes a known method at greater scale. The latter asks why the method works and computes its limits. We need both. When only the former survives, a field prospers as engineering and stagnates as science.</p>

<p>One contrast strikes me. Over the same period, quantum computing and quantum information walked a different road. From the days when the hardware was still primitive, that field built its theory first: the limits of error correction, the quantification of entanglement as a resource, a complexity theory of which problems become easy quantumly and which do not. It is a rare case of understanding walking ahead of the machine. I suspect that ordering is exactly why the recent results coming out of that field look so solid.</p>

<h2 id="a-culture-that-consumes-boxes">A Culture That Consumes Boxes</h2>

<p>What worries me more than the technology is the culture.</p>

<p>For many researchers and engineers entering the field now, the model is a box. Input goes in, output comes out, and there is neither need nor courage to open it. A few lines of API calls produce products that were impossible yesterday, so opening the box looks like an inefficient hobby. Polishing prompts and refreshing leaderboards have become the default motions of research.</p>

<p>Abstraction itself is innocent. I climbed the same ladder from assembly through high-level languages and frameworks, and abstraction is where productivity comes from. Not everyone needs to understand transistors. But in the history of science, the leap to the next layer has always come from someone who climbed down below the abstraction boundary. Many people used steam engines as boxes; Carnot drew the flow of heat inside the box. Many people consumed wireless telegraphy as a marvelous box; Maxwell and Hertz read the wave equations inside it.</p>

<p>Using a box well and daring to open it are different muscles. Today’s culture trains only the first one. Give it a generation and we may find ourselves in a field overflowing with people who can run the engines, with no one left who can found the thermodynamics.</p>

<h2 id="the-people-who-changed-coordinates">The People Who Changed Coordinates</h2>

<p>So what should we do after opening the box? Let me pull one hint from the history of science. The great leaps came not from more computation but from a change of representation.</p>

<p>Fourier showed that any signal, however complex, can be rewritten as a sum of simple waves. The signal stays the same, but once the coordinates for viewing it change, structure invisible in the time domain becomes vivid in the frequency domain. All of modern communication and signal processing stands on that shift of perspective. Shannon rewrote communication from a problem of voltages and circuits into a problem of probability and entropy. Suddenly the theoretical ceiling on how much information a channel can carry became computable. When the representation changes, the limits become visible. When the limits are visible, you can design toward them.</p>

<p>As someone who has spent a career unfolding light and sound as waves, I confess that when I look inside neural networks, the language of waves keeps flickering at the edge of my vision. Representations overlapping and interfering in high-dimensional spaces, components filtered and amplified as they pass through layers. I do not know whether this is the right language. Perhaps entirely different mathematics is needed. I make no claim that waves are the answer. But I find it hard to shake the suspicion that what we need now is less a bigger cluster than a new coordinate system. Structure that will never appear in the coordinates of loss curves and benchmark scores may fall out as a single inequality in some other representation.</p>

<h2 id="living-before-the-thermodynamics-of-intelligence">Living Before the Thermodynamics of Intelligence</h2>

<p>Which brings us back to the opening question. In a time like this, what mindset should a scientist hold?</p>

<p>The first thing I would name is humility. Not the etiquette of lowering yourself. The accuracy of your perception. Admitting plainly that we own a working engine but not a theory. Refusing to mistake rising benchmark scores for growing understanding. Keeping the gap between 20 watts and gigawatts at the top of the homework list. That much is enough.</p>

<p>Next is the discipline of staring at clouds. Industry will take care of making what works work better. The scientist’s job is to face the unexplained residue instead of filing it under minor error. Why does it generalize? When does it break? Questions like these do nothing for next quarter’s earnings, and the science of the next half century will be born exactly there.</p>

<p>A habit of doubting the representation also helps. The coordinate system we use now is not the only one. Signals existed before Fourier and communication existed before Shannon. What was missing was the language to rewrite them. Practicing rewriting your own field in an alien language, borrowing mathematics from a neighboring discipline. Most such attempts fail, and the one that succeeds changes the sky over the whole field.</p>

<p>Let me add one last thing. This is not a time for discouragement. The physics students of 1900 were lucky. They were born into an age that believed the building was finished, and they became the generation that rebuilt it. That there is no thermodynamics of intelligence means the site for it is vacant. The history of science rarely sends a more thrilling invitation.</p>

<h2 id="to-the-next-carnot">To the Next Carnot</h2>

<p>ThakiCloud builds GPU clusters and AI platforms. You could say our trade is building the boilers of this era. Which is exactly why we keep telling ourselves that boilers are not the whole story. Infrastructure does not ask the questions for you. Good infrastructure only lets a person with good questions experiment faster and at lower cost. Our obsession with platform efficiency and energy cost returns, in the end, to the same place: measured against the standard set by a 20-watt brain, today’s computing still has a great deal to be humble about.</p>

<p>The age of steam engines waited for Carnot, and the waiting was not in vain. Somewhere right now, someone is prying open the box, asking about principles instead of benchmarks, perhaps still a student. I hope this essay reaches that next Carnot as a small cheer. The engines are already running. What we need now is the courage to ask why they work.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="culture" /><category term="philosophy-of-science" /><category term="deep-learning" /><category term="thermodynamics" /><category term="waves" /><category term="research-culture" /><category term="humility" /><summary type="html"><![CDATA[The gap between a machine that works and a principle we understand is one of the oldest scenes in the history of science. In an era that solves everything with computing power, this essay rereads the deep learning age through the lens of energy and waves, and argues for a scientist's humility.]]></summary></entry><entry xml:lang="en"><title type="html">GLM-5.2 on AMD MI355X at 2,626 tok/s: the serving economics MXFP4 and SGLang built</title><link href="https://thakicloud.github.io/en/llmops/glm-5-2-amd-mi355x-mxfp4/" rel="alternate" type="text/html" title="GLM-5.2 on AMD MI355X at 2,626 tok/s: the serving economics MXFP4 and SGLang built" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/llmops/glm-5-2-amd-mi355x-mxfp4</id><content type="html" xml:base="https://thakicloud.github.io/en/llmops/glm-5-2-amd-mi355x-mxfp4/"><![CDATA[<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-hero.webp" alt="Abstract image depicting parallel computation flows compressing along a pipeline and converging into a single high-efficiency core" /></p>

<p>Last week a benchmark result spread quickly across developer timelines. It claimed that GLM-5.2 was served on a single AMD MI355X node at 2,626 tokens per second, and at a cost more than twice as low as Blackwell. Taken at face value, the numbers sound like the usual “our hardware is fast” marketing, but what makes this case interesting is something else entirely. It is the combination of running a 743B-scale MoE model, not on NVIDIA but on AMD GPUs, compressed down to roughly 4-bit precision without losing accuracy.</p>

<p>This post is written for engineering leaders evaluating on-premises and multi-cloud serving, ML platform teams weighing GPU vendor choices, and data scientists who need to work out the serving economics of large open-weight models. We will first check exactly what the original source measured, then break down why MXFP4 quantization and SGLang’s MoE parallelism were decisive, and finally lay out where ThakiCloud’s ai-platform stands in relation to this trend.</p>

<p>Here is the conclusion up front. The real message of this benchmark is not “AMD is fast.” It is that <strong>the serving stack, the quantization format and the inference engine, is starting to break open the hardware vendor lock-in</strong>. And that exact point where the lock-in breaks open is precisely why on-premises serving platforms exist.</p>

<h2 id="what-this-technology-is">What This Technology Is</h2>

<p>This result comes from three pieces fitting together: the model, the hardware, and the serving stack that bridges the two.</p>

<p><strong>The model: GLM-5.2.</strong> This is an open-weight MoE model released by Z.ai (formerly Zhipu), with roughly 743B total parameters and about 39B parameters active per token. Its context length reaches 1 million tokens (1M), and it is regarded as particularly strong at frontend coding tasks. Because the total parameter count is huge while only 39B parameters are active, it is a textbook example of a large sparse model: heavy to store, light to actually run.</p>

<p><strong>The hardware: AMD Instinct MI355X.</strong> This is AMD’s newest data center accelerator, and its strength is the large memory capacity per GPU, which lets you fit a large model onto fewer GPUs. This case was measured on a single node configuration (8 GPUs, tensor parallelism tp=8). For reference, memory usage per GPU at FP8 is about 89GB, roughly half of the approximately 175GB required at BF16.</p>

<p><strong>The serving stack: MXFP4 quantization (AMD Quark) plus SGLang.</strong> This is where the core of the story lies. The original BF16 GLM-5.2 was converted to the <strong>MXFP4</strong> format (a 4-bit microscaling floating-point format) using AMD’s quantization toolkit, <strong>Quark</strong>, and the original source states that this conversion was lossless relative to the official FP8 quantization, with no accuracy degradation. For the inference engine, they chose <strong>SGLang</strong>. The reason is clear: among the frameworks tested, SGLang was the one that natively supported MXFP4, and it was able to properly drive MoE parallelism, distributing experts across GPUs with the <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> option and routing tokens between them over NVLink/NVSwitch.</p>

<p>The full pipeline looks like this:</p>

<pre><code class="language-mermaid">flowchart TB
    A[GLM-5.2 original&lt;br/&gt;BF16 · 743B MoE] --&gt; B[MXFP4 quantization&lt;br/&gt;via AMD Quark]
    B --&gt; C{Accuracy check}
    C --&gt;|Lossless vs official FP8| D[SGLang serving engine]
    C --&gt;|If degraded| A
    D --&gt; E[MoE expert parallelism&lt;br/&gt;--enable-moe-ep]
    E --&gt; F[MI355X single node&lt;br/&gt;8 GPUs · tp=8]
    F --&gt; G[Single stream 213 tok/s]
    F --&gt; H[Node aggregate 2,626 tok/s]
</code></pre>

<p>There are two ways this differs from the conventional approach. First, the quantization format is MXFP4, not FP8. Cutting bits further usually destabilizes accuracy, but the microscaling approach assigns a separate scale to each small block, which is designed to preserve quality even at roughly 4-bit precision. Second, all of this ran outside the CUDA ecosystem entirely, on AMD ROCm.</p>

<h2 id="the-actual-benchmark-results">The Actual Benchmark Results</h2>

<p>The numbers published by the original source (Wafer.ai) fall into two categories. Since the workload conditions differ, they need to be looked at separately.</p>

<p><strong>Single-stream latency scenario.</strong> For a single request with 10k input tokens and 1.5k output tokens, it produced <strong>213 tokens per second</strong>. This corresponds to the situation of one user feeding in a long context and receiving the answer as a stream.</p>

<p><strong>Node-aggregate throughput scenario.</strong> Under conditions of 20k input tokens, 1k output tokens, and a 60% cache hit rate, it processed 2.4 requests per second (2.4 rps) while delivering an aggregate throughput of <strong>2,626 tok/s per node</strong>. TTFT (time to first token) was kept under 5 seconds throughout. This is closer to the conditions of production serving, where many requests are pushed in concurrently.</p>

<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-results.webp" alt="Bar chart showing single-stream and node-aggregate throughput, and relative cost versus Blackwell" /></p>

<p>The cost claim goes like this. Wafer.ai states that this MXFP4 configuration costs <strong>more than twice as low as Blackwell</strong>, meaning throughput per dollar is more than double. In a separate analysis, SemiAnalysis (InferenceX) reported that, under a different SGLang FP8 configuration, MI355X is <strong>up to 40% cheaper per million tokens</strong> than B200. Since the two figures come from different quantization formats and workloads, it is more accurate to read them not as a direct comparison but as “multiple independent sources pointing in the same direction, namely MI355X’s cost competitiveness.” The cost index in the chart above visualizes Wafer.ai’s “more than 2x” claim, and we note that it is a relative indicator, not an absolute price.</p>

<p>One caveat is needed here. These numbers are not something we reproduced by securing an actual MI355X node ourselves; they are the measurements published by the original source. We do not have physical access to an MI355X, so we were unable to independently reproduce these results, and every figure in this post is therefore a cited value. We plan to cover a same-conditions reproduction separately once we have the hardware.</p>

<h2 id="why-mxfp4-and-sglang-were-decisive">Why MXFP4 and SGLang Were Decisive</h2>

<p>What matters more than the hardware in this result is the choice of serving stack. There are three reasons.</p>

<p><strong>First, 4-bit quantization fits a large MoE model onto fewer GPUs.</strong> Loading 743B parameters at BF16 requires memory on the order of hundreds of GB. Dropping to MXFP4 drastically reduces weight memory, so the same model can fit onto fewer GPUs, into a smaller node. A large share of serving cost is determined by “how many GPUs does it take to hold this model,” so near-lossless 4-bit quantization translates directly into unit cost.</p>

<p><strong>Second, MoE parallelism keeps computation limited to the active parameters.</strong> In an MoE model, only a small number of experts are activated per token. SGLang’s <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> scatters the experts across GPUs and routes each token to the right expert over a high-speed interconnect. The key to throughput is preserving, at the level of hardware placement, a structure that computes only the 39B active parameters rather than the full 743B.</p>

<p><strong>Third, the fit between format and engine is what breaks the vendor lock-in.</strong> This is the quiet conclusion behind this achievement. Once an engine that natively supports MXFP4 (SGLang) and a toolkit that losslessly converts to that format (AMD Quark) were both in place, production-grade serving became viable on ROCm rather than CUDA. As the serving stack becomes more standardized, “which vendor’s GPU” stops being a performance question and becomes a matter of availability and price. This is the shift that hands negotiating power back to the buyer.</p>

<h2 id="implications-for-thakiclouds-products">Implications for ThakiCloud’s Products</h2>

<p>This case connects directly to the strategy behind ThakiCloud’s <strong>ai-platform</strong>. ai-platform is a Kubernetes-based AI/ML SaaS infrastructure that serves models across diverse customer environments and schedules GPU resources through Kueue. From that vantage point, this result carries three implications.</p>

<p><strong>Multi-vendor serving is no longer a performance compromise.</strong> In the past, the assumption that “you cannot get good performance without NVIDIA” effectively foreclosed vendor choice. The GLM-5.2 MI355X case is evidence that assumption is shaking. If ai-platform abstracts vLLM and SGLang as serving backends and can schedule NVIDIA and AMD nodes together on top of that abstraction, customers can route requests to whatever available hardware is cheapest for a given workload. In a multi-tenant cluster, that flexibility translates directly into serving cost competitiveness.</p>

<p><strong>Quantization is a first-class platform concern.</strong> Near-lossless low-bit formats like MXFP4 make it possible to hit the same SLA with fewer GPUs. For on-premises customers, especially domestic public sector and financial environments where data sovereignty and self-hosting are required, the sheer number of GPUs that can be procured is itself a constraint. Lossless quantization lets you run a bigger model within that constraint, so it is a natural direction for ai-platform to absorb toolchains like Quark as a standard stage of its serving pipeline.</p>

<p><strong>Cost efficiency is the core argument for on-premises proposals.</strong> The question ThakiCloud hears most often when proposing on-premises and sovereign cloud deployments is “so how much cheaper is it.” Independent benchmarks showing more than 2x cheaper than Blackwell and up to 40% cheaper than B200 can serve as evidence that hardware diversification, on top of the right serving stack, actually lowers real TCO. Naturally this depends on reproducing the result in the customer’s own environment, and that reproduction capability itself is the value the platform provides.</p>

<h2 id="limitations-and-counterarguments">Limitations and Counterarguments</h2>

<p>For balance, here are the reasons not to over-trust this result.</p>

<p><strong>First, the benchmark is a snapshot of specific conditions.</strong> The 2,626 tok/s figure comes from a specific workload: 20k input, 1k output, 60% cache hit rate. Throughput will change substantially under workloads with short prompts and heavy generation, or with low cache hit rates. The gap between the single-stream 213 tok/s and the node-aggregate 2,626 tok/s already shows that sensitivity.</p>

<p><strong>Second, the MXFP4 “lossless” claim holds only within its tested scope.</strong> The original source says it is lossless relative to official FP8, but this is most likely measured against a specific evaluation set. The impact of 4-bit quantization can differ by task, coding, math, long context, and so on, so before adopting it in production you need to measure quality degradation directly against your own evaluation set.</p>

<p><strong>Third, the operational maturity of the ROCm ecosystem remains a variable.</strong> A benchmark holding up is a different matter from stable production operation. A gap with the CUDA ecosystem still exists in driver, kernel, and library compatibility, and in the maturity of incident-response tooling. Judging total cost of ownership by hardware unit price alone can miss the cost of operational staffing and downtime.</p>

<p>Even so, the direction is clear. Standardization of the serving stack is widening hardware choice, and the beneficiaries of that shift are serving platforms, and their customers, that can escape vendor lock-in and pick the optimal hardware for each workload. ThakiCloud’s ai-platform is aimed at exactly that point.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li>Wafer.ai, “Performance per dollar is getting faster and cheaper”: <a href="https://www.wafer.ai/blog/glm52-amd">https://www.wafer.ai/blog/glm52-amd</a></li>
  <li>SemiAnalysis InferenceX, “AMD MI355X GLM-5 Inference: Up to 40% Cheaper per Million Tokens than B200 on SGLang FP8”: <a href="https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200">https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200</a></li>
  <li>LMSYS, “Win on TCO: How AMD Instinct MI355X Achieves Cost-Competitive Distributed Inference Through SGLang with MoRI”: <a href="https://www.lmsys.org/blog/2026-05-28-mori/">https://www.lmsys.org/blog/2026-05-28-mori/</a></li>
  <li>GLM-5.2 model card (743B / 39B active, MoE, 1024K context): <a href="https://recipes.vllm.ai/zai-org/GLM-5.2">https://recipes.vllm.ai/zai-org/GLM-5.2</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="amd" /><category term="mi355x" /><category term="glm" /><category term="mxfp4" /><category term="quantization" /><category term="sglang" /><category term="vllm" /><category term="self-hosting" /><summary type="html"><![CDATA[We examine a case of serving the GLM-5.2 743B MoE model on a single AMD MI355X node at 2,626 tok/s per node, at more than twice the cost efficiency of Blackwell, through the lens of MXFP4 quantization and SGLang's MoE parallelism, and connect it to ThakiCloud ai-platform's multi-vendor serving strategy.]]></summary></entry><entry xml:lang="en"><title type="html">Why an 8x Larger Model Is 5x Cheaper: The Real Structure of LLM Inference Costs</title><link href="https://thakicloud.github.io/en/llmops/llm-inference-economics-kv-cache-moe-roofline/" rel="alternate" type="text/html" title="Why an 8x Larger Model Is 5x Cheaper: The Real Structure of LLM Inference Costs" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/llmops/llm-inference-economics-kv-cache-moe-roofline</id><content type="html" xml:base="https://thakicloud.github.io/en/llmops/llm-inference-economics-kv-cache-moe-roofline/"><![CDATA[<p><img src="/assets/images/llm-inference-economics-kv-cache-moe-roofline-hero.webp" alt="LLM inference cost structure" /></p>

<h2 id="overview-the-paradox-of-an-8x-larger-model-being-5x-cheaper">Overview: The Paradox of an 8x Larger Model Being 5x Cheaper</h2>

<p>An interesting question has been making the rounds in the inference infrastructure community lately. DeepSeek V4 Flash, a 284B-total-parameter model, prices its output tokens roughly 5x cheaper than the 35B Qwen3.6-35B-A3B. Looking at the actual pricing, input tokens for both sit at a similar level around $0.14/M, but output tokens run $0.18-0.28/M for DeepSeek V4 Flash versus $1.00-1.49/M for Qwen3.6.</p>

<p>There is something even stranger. In terms of active parameters per token, Qwen3.6 uses 3B and DeepSeek V4 Flash uses 13B. By compute alone, Qwen is actually 4x lighter, yet market pricing runs in the opposite direction. The intuition that parameter count equals cost gets broken twice in a row here.</p>

<p>This article dissects that paradox at three levels: first, why the dominant term in decode cost is memory reads rather than compute; second, the structural tension between KV cache depth and flat-rate pricing; and third, what emerges when we directly calculate the optimal serving shape on 8xH100 with a roofline model. For an operator like ThakiCloud that serves models directly in customer environments, this structure translates directly into cost competitiveness, so we also lay out the practical implications.</p>

<h2 id="confirming-the-architecture-facts-of-both-models">Confirming the Architecture Facts of Both Models</h2>

<p>Let’s start by pinning down the specs precisely.</p>

<p>DeepSeek V4 Flash is a 284B-total / 13B-active MoE model. The router selects the top-6 among 256 routed experts plus 1 shared expert. Attention is a hybrid stack combining CSA (Compressed Sparse Attention) and HCA (Heavily Compressed Attention), reading only the top-1,024 compressed KV entries per query pass. According to official materials, at a 1M context this brings inference FLOPs per token down to 27% and KV cache down to 10% compared with V3.2. The checkpoint is a mixed format, with MoE experts in FP4 and the rest in FP8.</p>

<p>Qwen3.6-35B-A3B is a 35B-total / 3B-active MoE model (256 experts, 8 routed + 1 shared). Attention is a hybrid of Gated DeltaNet linear attention layers and full attention layers (2 KV heads, head dim 256). Native context is 262K, extended to 1M via YaRN. At an FP8 checkpoint it comes to roughly 35GB, which fits on a single H100.</p>

<p>In short, both are state-of-the-art, efficiency-oriented designs. What makes this comparison more interesting is that Qwen is not expensive because it is some naive dense model.</p>

<h2 id="the-real-structure-of-decode-cost-a-roofline-model">The Real Structure of Decode Cost: A Roofline Model</h2>

<p>Token generation (decode) is bound by memory bandwidth, not compute. A first-order approximation of decode step time looks like this.</p>

<div class="language-text highlighter-rouge"><div class="highlight"><pre class="highlight"><code>T_step = (bytes of weight to read + Σ per-request KV read bytes) / memory bandwidth
throughput = batch_size / T_step
</code></pre></div></div>

<p>The two terms here have completely different characters.</p>

<p>Weight reads are shared across the batch. Reading the weights once per step is shared by every request in the batch. At a batch size of 512, the per-token weight cost drops to 1/512. This is why MoE’s total parameter count becomes “nearly free at large batch sizes.”</p>

<p>KV reads, by contrast, are per-request. Each request must read its own context’s KV cache, and this cost does not get divided as the batch grows. It scales linearly as context gets deeper.</p>

<p>So once the batch is large enough and context is long enough, the dominant cost term shifts from weight to KV reads. Yet API pricing is flat per token regardless of context depth: a request with 32K of history and one with 500K of history pay the same output price. From a serving operator’s perspective, a model that can keep KV reads bounded regardless of depth is the one that generates margin under a flat-rate regime.</p>

<pre><code class="language-mermaid">flowchart TB
    A["Decode step cost"] --&gt; B["Weight read"]
    A --&gt; C["KV cache read"]
    B --&gt; B1["Shared across whole batch&lt;br/&gt;Split 1/512 at batch 512"]
    C --&gt; C1["Occurs per request&lt;br/&gt;Not divided by batch"]
    C1 --&gt; D{"Context depth"}
    D --&gt;|"Standard attention"| E["Grows in proportion to depth&lt;br/&gt;O(L) read"]
    D --&gt;|"Sparse attention CSA/HCA"| F["Fixed top-1,024 entries&lt;br/&gt;Constant regardless of depth"]
    E --&gt; G["Cost explodes&lt;br/&gt;at long context"]
    F --&gt; H["Margin secured&lt;br/&gt;under flat-rate pricing"]
</code></pre>

<h2 id="8xh100-serving-shape-a-numeric-comparison">8xH100 Serving Shape: A Numeric Comparison</h2>

<p>Let’s now actually put both models on 8xH100 (SXM5, 80GB HBM3 per card, 3.35TB/s per card, 640GB total, 26.8TB/s aggregate). We set the hourly cost at roughly $20 on an on-demand basis.</p>

<p>The modeling assumptions are as follows. Qwen3.6 has roughly 35GB of FP8 weights; assuming 10 of its 40 hybrid layers are full attention layers, per-token KV is about 10KB [Est.] (2 KV heads x 256 dim x 2 for K/V x 10 layers x 1 byte). DeepSeek V4 Flash has an effective weight of roughly 150GB [Est.] with FP4 experts plus FP8 dense; stored KV, based on the official claim of 10% versus V3.2, comes to about 3.5KB per token [Est.], while decode-time reads are a constant roughly 4MB per request per step via the top-1,024 entries.</p>

<h3 id="the-serving-shape-differs-from-the-start">The Serving Shape Differs From the Start</h3>

<p>Qwen3.6’s optimal shape is 8 independent replicas (DP8). Since the model fits on a single card, there is no inter-GPU communication at all, leaving roughly 38GB of KV budget per card. This is the typical serving shape for a design oriented toward local hosting.</p>

<p>DeepSeek V4 Flash requires all 8 cards to be grouped as a single TP/EP unit. In exchange for the all-to-all communication this introduces, roughly 490GB of KV budget is shared across the whole batch.</p>

<h3 id="throughput-calculations-by-context-depth">Throughput Calculations by Context Depth</h3>

<p>Here are the roofline calculation results (actual achieved throughput is typically 50-60% of these figures, and EP communication and prefill are not included).</p>

<p>At 8K context, the Qwen cluster runs about 76k tok/s and DeepSeek V4 Flash about 90k tok/s, roughly comparable. Once communication overhead is factored in, Qwen is effectively ahead. This means at short context, the smaller model is hardware-cheaper or on par.</p>

<p>At 32K the gap starts to open up. Qwen’s per-request KV read grows to 320MB, dropping it to about 31k tok/s, while DeepSeek V4 Flash holds at about 90k tok/s since its KV read is still constant. That’s roughly a 3x difference.</p>

<p>At 256K, Qwen’s per-request KV reaches 2.56GB, and the storage ceiling caps per-card batch size at 14, dropping it to about 5.3k tok/s. DeepSeek V4 Flash runs about 45k tok/s, an 8.5x difference.</p>

<p>At 1M, Qwen must read 10GB per request at every step, dropping it to about 1.2k tok/s with a ceiling of 24 concurrent sessions. DeepSeek V4 Flash runs about 11k tok/s with 64 concurrent sessions, a gap approaching 10x.</p>

<p>Converted to dollars, at 32K it’s Qwen $0.18/M versus DeepSeek V4 Flash $0.06/M; at 1M it’s Qwen $4.6/M versus DeepSeek V4 Flash $0.5/M. Across the tens-to-hundreds-of-K range that is the average depth for agentic workloads, the cost gap widens to 3-10x, which lands in exactly the same order of magnitude as the observed API price difference (roughly 5x).</p>

<p><img src="/assets/images/llm-inference-economics-kv-cache-moe-roofline-results.webp" alt="Throughput and cost comparison by context depth" /></p>

<p>One thing worth stating honestly: there is up to a 40x discrepancy across public sources on DeepSeek V4 Flash’s stored KV per token (the vLLM recipes’ claim of “10% versus V3.2” conflicts with the KV table in some deployment guides). The calculation above adopts the former, which is closer to a primary source, and we want to stress that the conclusion rests on the direction of scaling, the structure by which the gap widens with depth, rather than on the absolute values.</p>

<h2 id="three-things-the-calculation-reveals">Three Things the Calculation Reveals</h2>

<p>First, Qwen’s bottleneck is not KV storage but KV reads. Thanks to Gated DeltaNet, storage (roughly 10KB per token) is already excellent. The problem is that the O(L) reads of the full attention layers repeat at every decode step. DeepSeek V4 Flash keeps storage small and also locks reads down to a constant.</p>

<p>Second, the batch absorbs the weight reads of MoE’s 284B. At a large batch, per-step weight reads are fixed at roughly 150GB, which comes to 0.3GB per token when split across 512 tokens. Qwen’s DP8, by contrast, has each card read its own 35GB independently, aggregating to 280GB per step across the cluster. The 8x difference in total parameters reverses in effective reads.</p>

<p>Third, even though Qwen is hardware-cheaper at short context, its market price is 5x higher. That is quantitative evidence that the price sheet does not reflect physical cost. DeepSeek runs its 1st-party API at massive traffic volume and passes the cost savings from infrastructure optimizations, dedicated kernels (deep_gemm_mega_moe, FP4 indexer cache), prefill/decode disaggregation, MTP, and a 98% cache-hit discount, straight into pricing. Qwen3.6-35B, whose design is itself oriented toward local/single-GPU use, has its API serving mostly handled by third parties running a general-purpose vLLM stack; when traffic density is low, GPU idle time has to get folded into the price, pushing quotes up. Market price is a function of demand density and optimization level, not of physical cost.</p>

<h2 id="implications-for-thakiclouds-product">Implications for ThakiCloud’s Product</h2>

<p>This analysis connects directly to the decisions ThakiCloud’s ai-platform faces every day. When serving models on customer GPUs in on-prem and sovereign cloud environments, what determines per-token cost on the same hardware is not model size but serving shape. As the calculations above show, effective throughput can differ by several multiples on the same 8xH100 depending on the choice between DP8 and a TP/EP group, the KV cache dtype, and the max-model-len setting. ai-platform makes it standard process to configure vLLM serving parameters, on top of K8s- and Kueue-based GPU scheduling, to match the workload profile (average context depth, concurrent session count), and this article’s roofline model is the starting point for that sizing.</p>

<p>There is also an agent-workload angle. In Paxis (ThakiCloud’s Agent-Native Cloud), agents generate long histories and repeated tool calls, which is exactly the kind of traffic that pushes KV depth deep. The practical conclusion of this analysis is that the combination of a model that stays strong at deep context and a prefix-cache infrastructure is what governs agent economics. Low serving cost (ai-platform) is what produces agent unit economics (Paxis).</p>

<h2 id="limitations-and-counterarguments">Limitations and Counterarguments</h2>

<p>Let’s state the limitations of this analysis explicitly. First, roofline is an upper-bound model. Actual throughput typically comes in at 50-60% of these figures due to kernel efficiency, EP all-to-all communication, and interference between prefill and decode, while speculative techniques such as MTP push throughput back up in the other direction. Second, DeepSeek V4 Flash’s KV figures conflict across public sources, so we have kept the [Est.] label. Third, the number of full attention layers in Qwen3.6 is an estimate based on the public config, and the absolute values shift if the hybrid ratio differs. Fourth, quality is a separate axis: DeepSeek V4 Flash trails V4 Pro on complex multi-step reasoning, so choosing a model on cost alone would be the wrong conclusion. This cost analysis only answers the question of which serving shape is economical at a given, fixed level of required quality.</p>

<h2 id="references">References</h2>

<ul>
  <li><a href="https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Flash">vLLM Recipes: DeepSeek-V4-Flash</a></li>
  <li><a href="https://recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B">vLLM Recipes: Qwen3.6-35B-A3B</a></li>
  <li><a href="https://api-docs.deepseek.com/quick_start/pricing">DeepSeek API Docs: Models &amp; Pricing</a></li>
  <li><a href="https://openrouter.ai/deepseek/deepseek-v4-flash">OpenRouter: DeepSeek V4 Flash</a></li>
  <li><a href="https://openrouter.ai/qwen/qwen3.6-35b-a3b">OpenRouter: Qwen3.6 35B A3B</a></li>
  <li><a href="https://qwen.ai/blog?id=qwen3.6-35b-a3b">Qwen Official Blog: Qwen3.6-35B-A3B</a></li>
  <li><a href="https://www.spheron.network/blog/deploy-deepseek-v4-flash-gpu-cloud/">Spheron: Deploy DeepSeek V4-Flash on GPU Cloud</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="LLM-Inference" /><category term="KV-Cache" /><category term="MoE" /><category term="vLLM" /><category term="Serving-Cost" /><category term="DeepSeek" /><category term="Qwen" /><summary type="html"><![CDATA[We dissect, with a roofline model, the paradox that the 284B DeepSeek V4 Flash prices its output tokens 5x cheaper than the 35B Qwen3.6. From KV cache reads to MoE batching economics to 8xH100 serving-shape calculations, we walk through the real structure of inference cost in numbers.]]></summary></entry><entry xml:lang="en"><title type="html">Is Fine-Tuning Really Dead? A Survival Strategy Read from June 2026’s Verified Signals</title><link href="https://thakicloud.github.io/en/research/llmops/finetuning-survival-strategy-2026/" rel="alternate" type="text/html" title="Is Fine-Tuning Really Dead? A Survival Strategy Read from June 2026’s Verified Signals" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/research/llmops/finetuning-survival-strategy-2026</id><content type="html" xml:base="https://thakicloud.github.io/en/research/llmops/finetuning-survival-strategy-2026/"><![CDATA[<p><img src="/assets/images/finetuning-survival-strategy-2026-hero.webp" alt="Fine-tuning survival strategy hero image" /></p>

<h2 id="introduction-dont-we-not-need-fine-tuning-anymore">Introduction: “Don’t we not need fine-tuning anymore?”</h2>

<p>Anyone building or selling an AI platform today has probably heard some version of this question. Frontier models have gotten so good, and skills plus agent scaffolding let you inject domain knowledge on the fly, so why bother spending the money and time to train a separate model at all? We asked ourselves the same question. So we spent one month, from June 5 to July 5, 2026, checking it against sources published in that window only.</p>

<p>The method was simple. We researched four threads: the case against fine-tuning, the case for its survival, market and vendor moves, and practitioner discourse. Then we took six core claims that carry the most weight for our conclusion and re-verified each one with an independent adversarial check. Four of the six came back confirmed, two came back partially confirmed, and none were refuted. This piece is written using only the facts that survived that verification.</p>

<p>The short version: fine-tuning as a product really is dying. But what is dying is a specific segment, the self-serve SFT API. The same underlying technology is being repackaged into two other products, model ownership and agent worker economics, and in those forms it is actually becoming a premium offering.</p>

<h2 id="what-is-actually-dying">What is actually dying</h2>

<p>The most telling event is OpenAI’s decision. OpenAI announced on May 7, 2026 that it would block new fine-tuning job creation for new organizations, moved on July 2 to cut off access for organizations inactive for 60 days or more, and plans to fully end new fine-tuning job creation for all customers, including existing active ones, on January 6, 2027. Inference on models that have already been fine-tuned will keep running until the base model itself is deprecated, but the path to training a new one is closing.</p>

<p>The exception clause is worth noting. RFT, reinforcement-learning-based fine-tuning, is being split off into its own track and kept alive through this shutdown. In other words, OpenAI is winding down supervised fine-tuning while preserving high-value customization built on verifiable rewards. Anthropic never opened self-serve fine-tuning on its public API in the first place, and is instead pushing Agent Skills, which load domain knowledge dynamically from a folder structure, as the standard path. Two of the top-tier model vendors are pointing in the same direction.</p>

<p>Pricing tells the same story. The LoRA fine-tuning price war between Together AI and Fireworks AI signals that this segment has already become commoditized, with thin margins. Running a lightweight supervised fine-tune yourself, self-serve, is no longer technically hard, and that is exactly why it has stopped being an attractive business.</p>

<h2 id="but-skills-arent-a-universal-answer-either">But skills aren’t a universal answer either</h2>

<p>Contrary to the general feeling, the academic evidence that skills universally replace fine-tuning is still thin. Within this window, the SkillJuror study showed that structuring skills, rather than delivering them flat, raises verification pass rates by 4.1 percentage points. The effect is real, but small. An earlier background paper, SkillsBench, has a more interesting result. Well-curated skills raise average pass rates by 16.2 percentage points, but the variance across domains swings from negative to as much as plus 51.9 percentage points, and performance actually dropped in 16 of 84 tasks. Critically, skills the model wrote for itself showed no benefit on average.</p>

<p>In other words, “skills solve everything” only holds as a conditional claim: it works when a human carefully curates a skill and applies it to the right domain. Skill curation is not free, and there is no guarantee it is always cheaper than fine-tuning. For what it’s worth, we could not find a benchmark within this window that directly compares a fine-tuned model against a frontier model equipped with skills on the same task set. That gap remains homework for both camps.</p>

<h2 id="the-months-countersignals">The month’s countersignals</h2>

<p>The same month also produced strong signals pointing toward fine-tuning and model ownership. All of the following are independently cross-verified events.</p>

<p>First, the geopolitical risk of depending on a frontier API stopped being theoretical. On June 12, 2026, a US government export-control order forced Anthropic to disable Fable 5 and Mythos 5 globally. Real-time nationality filtering wasn’t feasible, so essentially every user was affected, not just customers outside the US, and it took 19 days to lift the restriction. Any company that has put core operations on a single frontier API just learned a 19-day lesson in June.</p>

<p>Second, the open-weight ecosystem is being designed around the assumption that customers will fine-tune. NVIDIA Nemotron 3 Ultra, announced on June 4, is a mixture-of-experts model with 550B total parameters and 55B active, and ships with LoRA SFT, full SFT, and GRPO reinforcement-learning recipes out of the box. Its license, OpenMDW-1.1, explicitly permits commercializing and redistributing fine-tuned derivative models. The license’s entire design goal is: own and sell the model you tuned on your own data. On June 29, Palantir and NVIDIA released a sovereign AI bundle built around fine-tuning open weights and operating them inside air-gapped environments. In the EU, legislation has been proposed to grade public-sector workloads with sovereignty-assurance ratings, and domestic sovereign AI projects are similarly underway.</p>

<p>Third, a fine-tuning worker won in production. In a benchmark published by legal AI company Harvey together with Fireworks, a standalone Kimi K2.6 model with only SFT applied hit a 15% overall pass rate across 100 tasks, beating a standalone Claude Opus 4.7 at 14%, at roughly 11.4 times lower cost. A hybrid configuration that selectively escalates to a frontier model from a fine-tuned worker scored highest at 18%. It’s a vendor-run benchmark, so there’s a limit to how far it generalizes, but it’s real-world evidence that combining a fine-tuned worker with selective frontier escalation can win on quality and cost at the same time in a narrow domain.</p>

<p>Fourth, small models still reproduce a domain advantage. In a paper published June 11, a Mistral-7B model fine-tuned with QLoRA showed up to a 12-percentage-point F1 advantage over GPT-4o and GPT-5 on biomedical claim verification. It was trained on just 1,008 samples.</p>

<h2 id="the-market-is-splitting-into-three-tracks">The market is splitting into three tracks</h2>

<p>Layering these signals together, the market isn’t a binary story of dying versus surviving. It’s splitting into three tracks.</p>

<pre><code class="language-mermaid">flowchart TB
    A["Fine-tuning market&lt;br/&gt;2026 realignment"] --&gt; B["Track 1&lt;br/&gt;Self-serve SFT API"]
    A --&gt; C["Track 2&lt;br/&gt;Owned sovereign custom models"]
    A --&gt; D["Track 3&lt;br/&gt;RL fine-tuning and worker economics"]
    B --&gt; B1["In decline&lt;br/&gt;OpenAI phased shutdown&lt;br/&gt;LoRA price commoditization"]
    C --&gt; C1["Going premium&lt;br/&gt;Air-gapped fine-tuning products&lt;br/&gt;Sovereignty-rating legislation&lt;br/&gt;Fine-tuning-first licenses"]
    D --&gt; D1["New growth&lt;br/&gt;RFT kept as separate track&lt;br/&gt;Fine-tuning worker + frontier escalation"]
    C1 --&gt; E["Model ownership becomes the product"]
    D1 --&gt; E
</code></pre>

<p>Track 1, the self-serve SFT API, is in decline. Long context, native tool calling, and structured output from frontier models have absorbed much of what used to justify fine-tuning: format compliance and domain vocabulary. Track 2, owned custom models, is being reorganized as a premium service. The era of lightly tuning a model through an API is ending, but heavy customization where a company owns and controls its own model is actually getting more expensive, not less. Track 3 is new demand created by the agent era. As orchestrators get better, the volume of calls handled by low-cost workers on repetitive subtasks keeps rising, and calling a frontier model for every one of those slots is simply unaffordable.</p>

<h2 id="five-conditions-where-fine-tuning-clearly-wins">Five conditions where fine-tuning clearly wins</h2>

<p>Rolling the verified cases into a pattern, fine-tuning’s odds and its return on investment both rise the more these conditions overlap:</p>

<ol>
  <li>A narrow, repetitive task with a fixed output format. Classification, verification, and structured extraction are the classic cases, and this is exactly the pattern behind the 12-point advantage from just 1,008 samples.</li>
  <li>A verifiable reward exists. If there’s environmental feedback that lets you apply GRPO or RFT, that beats supervised learning, and it’s also why OpenAI kept RFT alive while winding down SFT.</li>
  <li>Call frequency is high and cost and latency are the dominant constraints. Agent worker slots fall squarely here, and an 11.4x cost gap becomes decisive as it scales.</li>
  <li>There are data sovereignty, regulatory, or air-gapped network requirements. Public sector, finance, and defense are constrained to a limited set of external API options from the outset.</li>
  <li>The frontier API itself is a supply risk. As the 19-day shutdown showed, export controls and policy changes are no longer a hypothetical scenario.</li>
</ol>

<p>Conversely, we found no evidence in this window that fine-tuned models beat frontier models on open-domain reasoning, up-to-date knowledge, or long-tail handling. The honest call there is to cede that ground to skills and frontier models.</p>

<h2 id="implications-for-thakiclouds-products">Implications for ThakiCloud’s products</h2>

<p>This realignment lines up precisely with where our two products are headed.</p>

<p>From the ai-platform angle, what tracks 2 and 3 ultimately demand is training and serving infrastructure that runs inside a customer’s air-gapped network. ThakiCloud’s ai-platform runs five training pipelines, SFT, CPT, DPO, GRPO, and GKD, on top of Kubernetes and Kueue-based GPU scheduling. It was an important confirmation for us that the two axes the market is starting to pay a premium for, GRPO built on verifiable rewards and distillation that moves frontier output down into a smaller model, are exactly where we’ve been building. As on-premises and sovereignty requirements grow, fine-tuning stops being an API feature and becomes an infrastructure capability, and that’s precisely where we’re positioned.</p>

<p>From the Paxis angle, this conclusion draws a clean line between the role of skills and the role of fine-tuning. Paxis is ThakiCloud’s control plane for the Agent-Native Cloud, selecting from over 960 skills via BM25, running them in isolated sandboxes, and routing every action through policy gates and audit logging. The lesson from the skills benchmarks, that skills only help when well curated and that self-generated skills can’t be trusted, validates the direction Paxis has been investing in: skill curation and verification loops. At the same time, the Harvey case’s pattern, that a fine-tuned worker is the economical choice for an agent fleet’s repetitive subtasks, shows that skill-based orchestration and fine-tuned workers aren’t competitors, they’re two layers of the same architecture. It’s a design that spends the frontier model sparingly rather than discarding it.</p>

<h2 id="limitations-and-counterarguments">Limitations and counterarguments</h2>

<p>We should also lay out the scenarios where this analysis could be wrong. The strongest counterargument is the pace of progress in text-space optimization. We classified it as background research, but Microsoft Research’s SkillOpt achieved a 19 to 25 percentage point performance gain purely by optimizing skill documents through rollout-based tuning, without touching model weights at all. If this line of work matures, it could erode even fine-tuning’s last stronghold: accuracy on narrow tasks. Even in that scenario, what survives isn’t the training capability itself but the infrastructure contract for serving and operating customer-owned models inside air-gapped networks. In fact, this window’s market signals already show value shifting from the training layer toward the serving layer.</p>

<p>Another limitation is in the data itself. The Harvey benchmark is a vendor’s own announcement, and we couldn’t obtain quantitative market data within this window that directly shows fine-tuning demand rising or falling. It’s also worth distinguishing that OpenAI’s shutdown is a supply-side decision, not direct evidence of falling demand.</p>

<h2 id="closing">Closing</h2>

<p>The feeling that “fine-tuning isn’t necessary anymore” is only half right. Commodity SFT really is fading, but the verified events of June 2026 show fine-tuning being reorganized around two other directions: model ownership and worker economics. It’s time to change the question. Not “should we fine-tune,” but “under what conditions should we own the model” is, we think, the right question for the second half of 2026.</p>

<h2 id="references">References</h2>

<ul>
  <li><a href="https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models">NVIDIA Debuts Nemotron 3 Family of Open Models (NVIDIA Newsroom, 2026-06-04)</a></li>
  <li><a href="https://arxiv.org/pdf/2606.15007">Nemotron 3 Ultra Technical Report (arXiv:2606.15007)</a></li>
  <li><a href="https://arxiv.org/abs/2606.12854">Small LLMs for Biomedical Claim Verification (arXiv:2606.12854, 2026-06-11)</a></li>
  <li><a href="https://www.aljazeera.com/news/2026/6/13/us-orders-anthropic-to-disable-ai-models-for-all-foreign-nationals">US orders Anthropic to disable AI models for all foreign nationals (Al Jazeera, 2026-06-13)</a></li>
  <li><a href="https://www.cnbc.com/2026/06/30/anthropic-says-trump-admin-has-lifted-export-controls-on-claude-fable-5-and-mythos-5.html">Anthropic says Trump admin has lifted export controls (CNBC, 2026-06-30)</a></li>
  <li><a href="https://arxiv.org/abs/2606.19659v1">SAGE-OPD: Selective On-Policy Distillation (arXiv:2606.19659, 2026-06-17)</a></li>
  <li><a href="https://arxiv.org/abs/2606.11543">SkillJuror (arXiv:2606.11543, 2026-06)</a></li>
  <li><a href="https://fireworks.ai/blog/open-source-agents-frontier-advisors">How Harvey &amp; Fireworks Beat Closed Source on Cost + Quality (Fireworks AI Blog)</a></li>
  <li><a href="https://community.openai.com/t/openai-is-winding-down-the-fine-tuning-api-and-platform-discussion-thread/1380522">OpenAI is winding down the fine-tuning API (OpenAI Developer Community)</a></li>
  <li><a href="https://www.linuxfoundation.org/press/linux-foundation-releases-openmdw-1.1-nvidia-adopts-openmdw-for-cosmos-isaac-gr00t-ising-and-nemotron-ai-model-families">Linux Foundation Releases OpenMDW-1.1 (Linux Foundation, 2026-05-28)</a></li>
  <li><a href="https://arxiv.org/abs/2602.12670">SkillsBench (arXiv:2602.12670, background)</a></li>
  <li><a href="https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/">SkillOpt: Agent skills as trainable parameters (Microsoft Research, background)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="llmops" /><category term="fine-tuning" /><category term="slm" /><category term="sovereign-ai" /><category term="grpo" /><category term="distillation" /><category term="agent-skills" /><category term="llmops" /><summary type="html"><![CDATA[As frontier LLMs and agent skills keep improving, the industry has started to feel that fine-tuning is no longer necessary. OpenAI is, in fact, winding down its self-serve fine-tuning API. Yet the very same month produced signals pointing the opposite direction: a 19-day frontier model shutdown, an open-weight license built around the assumption that customers will fine-tune, and a fine-tuning worker beating a frontier model in production at 11 times lower cost. Using only sources published between June 5 and July 5, 2026, we cross-checked what is actually dying and what is actually surviving.]]></summary></entry><entry xml:lang="ko"><title type="html">모델을 국산화해도 주권은 오지 않습니다: 오늘 뉴스가 가리키는 ‘실행 계층</title><link href="https://thakicloud.github.io/ko/agentops/sovereign-ai-execution-layer/" rel="alternate" type="text/html" title="모델을 국산화해도 주권은 오지 않습니다: 오늘 뉴스가 가리키는 ‘실행 계층" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/agentops/sovereign-ai-execution-layer</id><content type="html" xml:base="https://thakicloud.github.io/ko/agentops/sovereign-ai-execution-layer/"><![CDATA[<p>한 인터뷰의 문장 하나가 오늘 아침 다이제스트 전체를 다시 읽게 만들었습니다. 고려대와 경기대에서 강의하는 최윤성 겸임교수는 앤트로픽의 차세대 모델 ‘미토스’를 예로 들며, AI가 전략 자산이 되는 순간 동맹국이라도 모델 접근권이 언제든 끊길 수 있다고 지적했습니다. 그리고 이렇게 정리했습니다. “통제 가능한 것은 남의 모델이 아니라, 어떤 모델을 쓰든 공급망을 검증하고 차단할 수 있는 인프라다.”</p>

<p>이 한 문장이 왜 오늘의 뉴스 묶음을 관통하는지, 지금부터 하나씩 풀어보겠습니다.</p>

<h2 id="우리-모델이라는-착시">“우리 모델”이라는 착시</h2>

<p>소버린 AI라고 하면 대부분 같은 그림을 떠올립니다. 우리 손으로 만든 파운데이션 모델입니다. 실제로 정부는 5,300억 원 규모의 독자 파운데이션 모델 사업을 추진하고 있습니다. LG AI연구원, SK텔레콤, 업스테이지, 모티프테크놀로지스 네 팀이 6개월 단위로 경쟁하고, 8월 2차 평가를 거쳐 오픈소스로 전면 공개될 예정입니다. 목표는 2027년까지 세계 10위권 모델을 확보하는 것입니다.</p>

<p>여기까지만 보면 주권의 문제는 곧 모델의 문제처럼 보입니다. 그런데 오늘 다이제스트는 정반대 방향을 가리킵니다. 최 교수의 진단이 날카로운 지점이 바로 여기입니다. 모델을 국산화해도, 그 모델을 돌리는 학습 데이터와 GPU, 클라우드, 에이전트 도구가 전부 외부 생태계에 묶여 있다면 주권은 절반짜리라는 것입니다. 그는 기존 SBOM이나 SCA 같은 보안 도구가 모델 가중치처럼 코드가 아닌 자산을 읽지 못하는 가시성 공백을 지적하면서, 가중치와 학습 데이터셋, 하이퍼파라미터, 에이전트 도구 명세까지 담는 AI 자재명세서(AIBOM)를 대안으로 제시했습니다.</p>

<p>정리하면 이렇습니다. 모델은 화려한 간판이지만, 주권이 실제로 결정되는 곳은 그 모델이 살아 움직이는 바탕, 즉 실행 계층입니다. 오늘 뉴스에 등장한 여러 기업의 선택이 약속이라도 한 듯 이 지점을 향합니다.</p>

<h2 id="한컴은-왜-모델이-아니라-os라고-말했나">한컴은 왜 ‘모델’이 아니라 ‘OS’라고 말했나</h2>

<p>가장 상징적인 사건은 한컴입니다. 창립 36년 만인 지난 7월 2일 임시 주주총회에서 ‘한글과컴퓨터’라는 이름을 ‘한컴’으로 바꾸는 정관 개정안을 의결했습니다. 단순한 리브랜딩이 아닙니다. 문서 소프트웨어 회사에서 여러 AI 에이전트를 하나의 환경에서 연결하고 통제하는 ‘소버린 에이전틱 OS’ 기업으로 정체성을 옮기겠다는 선언이었습니다.</p>

<p>주목할 단어는 ‘OS’입니다. 한컴은 자기들이 만들 것을 ‘모델’이라 부르지 않았습니다. 운영체제라고 불렀습니다. 여러 에이전트를 안전하게 구동하고 통제하는 바탕을 겨냥한다는 뜻입니다. 하반기 베타를 예고했고, 폴란드 국가공인 연구센터와 유럽 현지화 공동연구에도 착수했습니다. 이 전환은 숫자로도 뒷받침됩니다. 지난해 89억 원으로 전체 매출의 5% 수준이던 AI 패키지 매출이 올해 1분기에는 52억 원, 비중 11.52%로 뛰었습니다.</p>

<p>같은 결의 움직임이 KT에서도 보입니다. KT는 서빙 로봇 약 4,000대를 통째로 매각하고 재임대하는 구조로 바꾸며 하드웨어 소유에서 손을 뗐습니다. 대신 제조사가 다른 로봇들을 한 화면에서 통합 제어하는 클라우드 운영 플랫폼에 베팅했습니다. 로봇을 파는 대신, 로봇들이 함께 돌아가는 바탕을 장악하겠다는 계산입니다. 파는 물건은 다르지만 방향은 같습니다. 개별 제품이 아니라 오케스트레이션 계층에서 가치가 나온다고 본 것입니다.</p>

<h2 id="모델은-들어왔는데-왜-여전히-불안한가">모델은 들어왔는데, 왜 여전히 불안한가</h2>

<p>바탕이 왜 중요한지는 그 바탕이 흔들릴 때 가장 선명해집니다. 오늘 다이제스트의 두 기사가 그 장면을 보여줍니다.</p>

<p>먼저 금융권입니다. 지난해 은행권 금융사고 규모는 4,318억 원으로 역대 최고를 기록했습니다. 부천의 한 새마을금고에서는 242억 원 규모 불법 대출이 수년간 잡히지 않았습니다. 그래서 은행들은 앞다퉈 AI 이상거래탐지시스템을 도입하고 있습니다. 카카오뱅크는 시퀀스 탐지 모델을 적용한 뒤 금융사기 예방 건수가 월평균 4.4배 늘었다고 합니다. 여기까지는 성공담입니다.</p>

<p>문제는 그다음입니다. 국내 금융사 중 AI 모델을 자체 개발한 곳은 10%에 불과하고, 그중 다시 3분의 1은 클라우드 인프라와 모델, 데이터를 전부 외부 공급자에 의존합니다. 민감한 거래 데이터를 다루는 이상탐지 시스템이 정작 남의 바탕 위에서 돌아가는 셈입니다. 모델을 도입하는 것과 그 모델을 내 통제 아래 두는 것은 전혀 다른 문제입니다.</p>

<p>애플 협력사 사고는 이 불안의 극단을 보여줍니다. 아이폰 협력사 타타 일렉트로닉스가 랜섬웨어 공격을 받아 630GB, 20만여 개 파일이 다크웹에 공개됐습니다. 아이폰 신제품 공급업체 목록과 프로토타입 시험 사진까지 포함됐다고 합니다. 인도 정부의 침해대응팀이 조사에 착수했습니다. 눈여겨볼 대목은 이 패턴이 처음이 아니라는 점입니다. 2023년 TSMC의 IT 협력사, 2022년 도요타의 부품 협력사가 똑같이 뚫렸습니다. 본사가 아니라 협력사가 통로가 됩니다. 데이터가 여러 곳에 흩어져 협업 시스템에 얹혀 있는 한, 아무리 좋은 모델을 국산으로 만들어도 정보는 가장 약한 연결 고리에서 새어 나갑니다. 상반기 가상자산 해킹 피해의 66%가 북한 소행이었다는 오늘의 또 다른 기사는, 실행 계층의 취약성이 이미 국가 단위 위협의 표적이 되었음을 확인해 줍니다.</p>

<h2 id="통제할-수-있는-것은-바탕뿐입니다">통제할 수 있는 것은 바탕뿐입니다</h2>

<p>이 지점에서 최 교수의 문장으로 돌아가 봅니다. 통제 가능한 것은 남의 모델이 아니라, 어떤 모델을 쓰든 공급망을 검증하고 차단할 수 있는 인프라입니다. 뉴스가 던진 기업의 통증을 정리하면 네 가지로 좁혀집니다. 무엇이 실행되는지 감사할 수 있는가, 데이터와 실행을 내 주권 아래 둘 수 있는가, 한 곳이 뚫려도 전체로 번지지 않게 격리되는가, 그리고 이 모든 것을 감당 가능한 비용으로 운영할 수 있는가.</p>

<p>ThakiCloud가 Paxis를 Agent-Native Cloud로 설계한 이유가 바로 이 네 가지 질문에 있습니다. Paxis는 스킬과 도구, 정책, 감사 로그를 일급 리소스로 다룹니다. 에이전트가 무엇을 실행하는지 정책 게이트가 사전에 거르고, 실제로 무엇을 했는지 감사 로그가 사후에 남깁니다. 최 교수가 말한 AIBOM식 공급망 투명성이 지향하는 그림과 같은 방향입니다. 에이전트의 자율도를 L0에서 L3까지 등급으로 나눠 거버넌스를 거는 구조는, 금융권이 요구하는 통제 가능성을 계층 그 자체로 구현한 것입니다. 협업 워크로드를 격리 샌드박스에서 실행하는 방식은 애플 협력사 사고 같은 연쇄 유출을 물리적으로 끊어냅니다. 그리고 소버린 온프렘 쿠버네티스 위에서 돌아가기에, 민감 데이터를 외부 네트워크로 내보내지 않고 폐쇄망 안에 둘 수 있습니다. 작업마다 최적의 모델을 고르는 비용 라우팅은 네 번째 질문, 즉 지속 가능성에 대한 답입니다.</p>

<p>한컴이 굳이 사명을 바꿔가며 ‘OS’라는 단어를 고른 것도, KT가 로봇을 팔지 않고 플랫폼에 건 것도 결국 같은 통찰의 다른 표현입니다. 에이전트 시대의 가치는 개별 모델이 아니라, 에이전트가 살고 일하는 바탕에서 나옵니다. Paxis는 그 바탕을 감사 가능하고 주권적인 형태로 제공하는 제품입니다.</p>

<h2 id="화려한-것은-모델-결정되는-것은-바탕">화려한 것은 모델, 결정되는 것은 바탕</h2>

<p>오늘 하루에도 D램 슈퍼사이클과 1천조 원 데이터센터 전쟁, 빅테크의 자체 칩 경쟁 같은 굵직한 뉴스가 쏟아졌습니다. 헤드라인은 언제나 모델과 칩이 가져갑니다. 그러나 기업의 실무자가 밤에 잠 못 이루는 이유는 조금 다릅니다. 우리 에이전트가 지금 무엇을 하고 있는지 설명할 수 있는가, 사고가 나면 어디서 시작됐는지 추적할 수 있는가, 이 데이터가 정말 우리 손 안에 있는가 하는 질문입니다.</p>

<p>주권은 선언으로 완성되지 않습니다. 우리 모델을 만들었다는 사실만으로도 완성되지 않습니다. 그 모델이 어디서 실행되고, 무엇을 하도록 허락받았으며, 무슨 일을 했는지 언제든 열어볼 수 있을 때 비로소 주권이라 부를 수 있습니다. 오늘 뉴스가 조용히 가리키는 곳은 화려한 모델이 아니라, 그 아래 놓인 바탕입니다. 그리고 그 바탕을 먼저 다지는 쪽이 다음 라운드의 주도권을 쥐게 될 것입니다.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="agentops" /><category term="agentops" /><category term="paxis" /><category term="enterprise-ai" /><category term="thakicloud" /><summary type="html"><![CDATA[독파모부터 한컴의 사명 변경까지, 2026년 7월 5일 아침 뉴스는 하나의 방향을 가리킵니다. 소버린 AI의 승부처는 '어떤 모델을 만드느냐'가 아니라 '그 모델을 어디서 어떻게 실행하고 감사하느냐'로 이미 옮겨갔습니다.]]></summary></entry><entry xml:lang="ko"><title type="html">증기기관의 시대, 카르노를 기다리며: 지금 과학자에게 필요한 마음가짐</title><link href="https://thakicloud.github.io/ko/culture/waiting-for-carnot/" rel="alternate" type="text/html" title="증기기관의 시대, 카르노를 기다리며: 지금 과학자에게 필요한 마음가짐" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/culture/waiting-for-carnot</id><content type="html" xml:base="https://thakicloud.github.io/ko/culture/waiting-for-carnot/"><![CDATA[<p><img src="/assets/images/waiting-for-carnot-hero.webp" alt="증기와 파동, 에너지의 흐름이 교차하는 추상 비주얼" /></p>

<h2 id="20와트의-질문">20와트의 질문</h2>

<p>저는 오래된 버릇이 하나 있습니다. 어떤 현상을 만나든 먼저 에너지의 관점에서 다시 써 보는 것입니다. 빛도 소리도 결국 파동이고, 파동은 에너지가 공간을 건너가는 방식입니다. 통신은 그 에너지에 정보를 실어 보내는 기술이고, 소프트웨어는 그 정보를 다루는 형식 체계입니다. 20년 넘게 코드를 짜면서도 이 버릇은 사라지지 않았습니다. 오히려 깊어졌습니다.</p>

<p>그 버릇으로 지금의 인공지능을 바라보면 하나의 숫자가 목에 걸립니다. 사람의 뇌는 대략 20와트로 동작합니다. 백열전구 하나에도 못 미치는 전력으로 우리는 언어를 배우고 얼굴을 알아봅니다. 가끔은 새로운 물리 이론도 상상해 냅니다. 반면 오늘의 대규모 모델은 도시 하나가 쓸 법한 전력을 삼키는 데이터센터에서 학습됩니다. 두 시스템이 비슷한 과제를 푸는데, 쓰는 에너지의 자릿수가 다릅니다. 그것도 한두 자리가 아닙니다.</p>

<p>이 격차를 저는 성능의 문제로 읽지 않습니다. 이해의 문제로 읽습니다. 어떤 일을 원리로 이해한 문명은 그 일을 점점 적은 에너지로 해냅니다. 원리를 모른 채 결과만 흉내 내는 문명은 에너지를 쏟아부어 간극을 메웁니다. 지금 우리가 기가와트로 20와트를 흉내 내고 있다는 사실 자체가, 우리가 지능의 원리를 아직 모른다는 가장 정직한 정량적 증거라고 생각합니다.</p>

<h2 id="카르노-이전의-반세기">카르노 이전의 반세기</h2>

<p>이런 상황이 처음은 아닙니다. 과학사는 비슷한 장면을 여러 번 보여 줬습니다.</p>

<p>18세기 말, 증기기관은 이미 유럽의 광산과 공장을 돌리고 있었습니다. 와트의 기관은 상업적으로 성공했고, 기관을 더 크게 더 정교하게 만드는 기술자들의 경쟁도 치열했습니다. 그런데 정작 그 기관이 왜 작동하는지, 열에서 일을 뽑아내는 데 근본적인 한계가 있는지 없는지는 아무도 몰랐습니다. 기관은 굴러갔고, 이론은 없었습니다.</p>

<p>사디 카르노가 열기관의 효율에는 온도만으로 정해지는 넘을 수 없는 상한이 있다는 것을 보인 논문을 낸 때가 1824년입니다. 증기기관이 산업을 바꾸기 시작한 지 반세기가 지난 뒤였습니다. 그리고 그 짧은 논문에서 열역학이라는 학문이 자라났습니다. 엔트로피 개념이 나왔고, 에너지 보존 법칙이 정식화됐고, 훗날 통계역학과 정보 이론까지 이어지는 긴 사슬이 시작됐습니다.</p>

<p>여기서 제가 주목하는 것은 순서입니다. 작동하는 기계가 먼저 왔고, 이해는 나중에 왔습니다. 그리고 진짜 도약은 기계를 더 크게 만든 사람이 아니라 기계가 왜 작동하는지 물은 사람에게서 나왔습니다. 카르노 이후의 문명은 보일러를 무한정 키우는 대신 효율의 이론적 한계를 계산하고, 그 한계에 다가가는 길을 설계할 수 있게 됐습니다.</p>

<p>지금의 딥러닝은 정확히 카르노 이전의 증기기관 단계에 있다고 저는 봅니다. 기관은 훌륭하게 작동합니다. 산업도 이미 바뀌고 있습니다. 그러나 지능의 열역학은 아직 없습니다. 왜 이만큼의 데이터와 이만큼의 파라미터에서 일반화가 일어나는지, 학습이라는 과정의 근본적인 한계와 최소 비용이 무엇인지, 우리는 카르노 이전의 기술자들처럼 경험 법칙으로만 알고 있습니다.</p>

<h2 id="켈빈의-두-조각-구름">켈빈의 두 조각 구름</h2>

<p>1900년 4월, 켈빈 경은 왕립연구소 강연에서 당시 물리학의 하늘에 떠 있는 두 조각 구름을 이야기했습니다. 하나는 빛을 전달한다고 믿었던 에테르 속에서 지구의 운동을 검출하지 못한 문제였고, 다른 하나는 흑체 복사의 에너지 분포를 고전 이론이 설명하지 못하는 문제였습니다. 당시 분위기에서 이 둘은 거의 완성된 건물에 남은 사소한 마무리 작업처럼 보였습니다.</p>

<p>그 두 조각 구름에서 상대성이론과 양자역학이 나왔습니다. 사소해 보였던 예외가 건물 전체를 다시 짓게 만든 것입니다.</p>

<p>이 일화에서 자주 인용되는 교훈은 예측의 겸손함입니다만, 저는 조금 다른 데에 방점을 찍고 싶습니다. 구름을 구름으로 알아본 눈이 있었다는 사실입니다. 다 풀린 것처럼 보이는 시대에도 설명되지 않는 잔여물을 사소한 오차로 치우지 않고 정면으로 바라본 사람들이 있었고, 다음 물리학은 정확히 그 잔여물에서 태어났습니다.</p>

<p>오늘의 인공지능에도 구름은 떠 있습니다. 스케일을 키우면 성능이 좋아진다는 경험 법칙은 잘 작동하지만, 왜 그런지는 설명하지 못합니다. 모델은 훈련 데이터 밖에서도 종종 놀랍게 일반화하지만, 언제 일반화가 무너지는지 예측하는 이론은 없습니다. 그럴듯한 문장을 만드는 능력과 세계를 이해하는 능력 사이의 관계도 여전히 안개 속입니다. 벤치마크 점수가 올라가는 속도에 취해 있으면 이것들이 마무리 작업처럼 보입니다. 저에게는 이것들이 두 조각 구름으로 보입니다.</p>

<h2 id="스케일링이라는-성취">스케일링이라는 성취</h2>

<p>오해를 피하고 싶습니다. 저는 스케일링을 폄하할 생각이 없습니다.</p>

<p>컴퓨팅 파워를 집적해서 여기까지 온 것은, 제 기준에서는 공학의 역사에 남을 성취입니다. 수만 개의 가속기를 하나의 학습으로 묶어내는 분산 시스템, 그 위에서 안정적으로 수렴하는 최적화 기법. 이것들은 정교한 공학입니다. 힘자랑이라고 부르면 그쪽 엔지니어들에게 실례가 됩니다. 딥러닝이 이만큼 중요해질 것이라고 오래전부터 떠들고 다녔던 저로서는, 그 예감이 이런 규모로 실현되는 것을 지켜보는 일이 감격스럽기도 합니다.</p>

<p>문제는 성취 그 자체보다 성취가 만들어 낸 착시입니다. 스케일링 곡선이 잘 올라가는 동안에는 그 곡선이 곧 과학의 진보처럼 보입니다. 그러나 보일러를 키워서 더 센 기관을 만드는 일과 열역학을 세우는 일은 다른 종류의 활동입니다. 전자는 이미 아는 방법을 더 크게 실행하는 것이고, 후자는 방법이 왜 통하는지를 묻고 그 한계를 계산하는 것입니다. 둘 다 필요합니다. 다만 전자만 남고 후자가 사라질 때, 그 분야는 공학으로서는 번창하되 과학으로서는 정체합니다.</p>

<p>한 가지 대조가 저에게는 인상적입니다. 같은 시기에 양자 계산과 양자 정보 분야는 다른 길을 걸어 왔습니다. 그쪽은 하드웨어가 아직 초라하던 시절부터 오류 정정의 이론적 한계, 얽힘이라는 자원의 정량화, 어떤 문제가 양자적으로 쉬워지는지에 대한 복잡도 이론을 먼저 쌓았습니다. 이해가 기계를 앞서 걸어간 드문 사례입니다. 최근 그 분야에서 나오는 성과들이 단단해 보이는 이유가 저는 그 순서에 있다고 생각합니다.</p>

<h2 id="박스를-소비하는-문화">박스를 소비하는 문화</h2>

<p>더 걱정되는 것은 기술이 아니라 문화입니다.</p>

<p>지금 이 분야에 들어오는 많은 연구자와 엔지니어에게 모델은 박스입니다. 입력을 넣으면 출력이 나오는, 열어 볼 필요도 없고 열어 볼 엄두도 나지 않는 박스. API 호출 몇 줄이면 어제까지 불가능했던 제품이 만들어지니, 박스를 여는 일은 비효율적인 취미처럼 보입니다. 프롬프트를 다듬고 순위표를 갱신하는 일이 연구의 기본 동작이 됐습니다.</p>

<p>추상화 자체는 죄가 없습니다. 저도 어셈블리에서 시작해 고수준 언어와 프레임워크의 사다리를 타고 올라온 사람입니다. 추상화는 생산성의 원천이고, 모두가 트랜지스터를 이해할 필요는 없습니다. 그러나 과학의 역사에서 다음 층의 도약은 언제나 추상화 경계 아래로 내려가 본 사람에게서 나왔습니다. 증기기관을 박스로 쓰는 사람은 많았지만 카르노는 박스 안의 열의 흐름을 그렸습니다. 무선 통신을 신기한 박스로 소비하는 사람은 많았지만 맥스웰과 헤르츠는 그 박스 안에서 파동 방정식을 읽어 냈습니다.</p>

<p>박스를 잘 쓰는 능력과 박스를 열어 보는 용기는 다른 근육입니다. 지금의 문화는 앞의 근육만 단련시키고 있습니다. 이대로 한 세대가 지나면, 기관을 굴릴 줄 아는 사람은 넘치는데 열역학을 세울 사람은 없는 분야가 될지도 모릅니다.</p>

<h2 id="좌표를-바꾼-사람들">좌표를 바꾼 사람들</h2>

<p>그러면 박스를 열고 무엇을 해야 할까요. 과학사에서 힌트를 하나 꺼내고 싶습니다. 큰 도약은 계산량의 증가가 아니라 표현의 전환에서 왔다는 것입니다.</p>

<p>푸리에는 아무리 복잡한 신호도 단순한 파동들의 합으로 다시 쓸 수 있음을 보였습니다. 신호 자체는 그대로인데 그것을 바라보는 좌표가 바뀌자, 시간 영역에서는 보이지 않던 구조가 주파수 영역에서 선명하게 드러났습니다. 오늘의 통신과 신호 처리 전체가 이 관점 전환 위에 서 있습니다. 섀넌은 통신을 전압과 회로의 문제에서 확률과 엔트로피의 문제로 다시 썼습니다. 그러자 어떤 채널로 얼마나 많은 정보를 보낼 수 있는지, 그 이론적 상한이 계산 가능해졌습니다. 표현이 바뀌면 한계가 보입니다. 한계가 보이면 그 한계에 다가가는 설계가 가능해집니다.</p>

<p>빛과 소리를 파동으로 풀어 온 사람으로서 고백하자면, 저는 신경망을 들여다볼 때에도 자꾸 파동의 언어가 어른거립니다. 고차원 공간에서 겹치고 간섭하는 표현들, 층을 지나며 걸러지고 증폭되는 성분들. 이것이 올바른 언어인지는 아직 모릅니다. 어쩌면 전혀 다른 수학이 필요할 수도 있습니다. 파동이 정답이라고 주장할 생각은 없습니다. 다만 지금 우리에게 필요한 것이 더 큰 클러스터보다는 새로운 좌표계 쪽일 수 있다는 의심은 버리기 어렵습니다. 손실 곡선과 벤치마크 점수라는 좌표에서는 영원히 보이지 않는 구조가, 어떤 다른 표현에서는 한 줄의 부등식으로 떨어질지도 모릅니다.</p>

<h2 id="지능의-열역학-이전-시대를-사는-법">지능의 열역학 이전 시대를 사는 법</h2>

<p>이제 처음의 질문으로 돌아옵니다. 이런 시대에 과학자는 어떤 마음가짐을 가져야 할까요.</p>

<p>가장 먼저 꼽고 싶은 것은 겸손입니다. 자세를 낮추는 예절 이야기가 아닙니다. 인식의 정확성 이야기입니다. 우리는 작동하는 기관을 가졌지만 이론은 갖지 못했다는 사실을 있는 그대로 인정하는 것. 벤치마크 점수의 상승을 이해의 증가로 착각하지 않는 것. 20와트와 기가와트 사이의 간극을 숙제 목록 맨 위에 올려 두는 것. 이 정도면 충분합니다.</p>

<p>다음은 구름을 응시하는 태도입니다. 잘 되는 것을 더 잘 되게 하는 일은 산업이 알아서 합니다. 과학자의 일은 설명되지 않는 잔여물을 사소한 오차로 치우지 않고 정면으로 바라보는 것입니다. 왜 일반화되는가. 언제 무너지는가. 이런 질문은 다음 분기 실적에 도움이 되지 않지만, 다음 반세기의 과학은 정확히 여기서 태어날 것입니다.</p>

<p>표현을 의심하는 습관도 필요합니다. 지금 쓰는 좌표계가 유일한 좌표계는 아닙니다. 푸리에 이전에도 신호는 있었고 섀넌 이전에도 통신은 있었습니다. 다만 그것을 다시 쓸 언어가 없었을 뿐입니다. 자신의 분야를 전혀 다른 언어로 다시 써 보는 훈련, 이웃 분야의 수학을 빌려와 보는 시도. 이런 일은 대부분 실패하지만, 성공하는 하나가 분야 전체의 하늘을 바꿉니다.</p>

<p>끝으로 하나만 덧붙이면, 지금은 좌절할 때가 아닙니다. 1900년의 물리학도들은 운이 좋았습니다. 건물이 완성된 줄 알았던 시대에 태어나, 건물을 다시 짓는 세대가 됐으니까요. 지능의 열역학이 없다는 것은 그것을 세울 자리가 비어 있다는 뜻입니다. 과학의 역사에서 이보다 설레는 초대장은 흔치 않습니다.</p>

<h2 id="다음-카르노에게">다음 카르노에게</h2>

<p>ThakiCloud는 GPU 클러스터와 AI 플랫폼을 만드는 회사입니다. 말하자면 이 시대의 보일러를 짓는 일을 업으로 삼고 있습니다. 그래서 더욱, 보일러가 전부가 아니라는 이야기를 우리 스스로에게 자주 합니다. 인프라는 질문을 대신해 주지 않습니다. 좋은 인프라는 좋은 질문을 가진 사람이 더 빨리, 더 적은 비용으로 실험하게 해 줄 뿐입니다. 우리가 플랫폼의 효율과 에너지 비용에 집착하는 이유도 결국 같은 자리로 돌아옵니다. 20와트의 뇌가 세운 기준 앞에서 지금의 컴퓨팅은 아직 한참 겸손해야 하기 때문입니다.</p>

<p>증기기관의 시대는 카르노를 기다렸고, 기다림은 헛되지 않았습니다. 지금 어딘가에서 박스를 열어 보고 있을, 벤치마크 대신 원리를 묻고 있을, 어쩌면 아직 학생일 다음 카르노에게 이 글이 작은 응원이 되면 좋겠습니다. 기관은 이미 굴러가고 있습니다. 이제 필요한 것은 그 기관이 왜 작동하는지 묻는 용기입니다.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="culture" /><category term="과학철학" /><category term="딥러닝" /><category term="열역학" /><category term="파동" /><category term="연구문화" /><category term="겸손" /><summary type="html"><![CDATA[작동하는 기계와 이해한 원리 사이의 간극은 과학사에서 늘 반복된 장면입니다. 컴퓨팅 파워로 모든 것을 밀어붙이는 지금, 에너지와 파동의 눈으로 딥러닝 시대를 다시 읽고 과학자가 가져야 할 겸손을 이야기합니다.]]></summary></entry></feed>