<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-06-30T17:05:23+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ar"><title type="html">Samsung وSK Hynix تُعلنان استثمارات محلية بقيمة 4,755 تريليون وون خلال عشر سنوات: من مصانع الذاكرة في هونام إلى مراكز بيانات الذكاء الاصطناعي بطاقة 15 غيغاواط</title><link href="https://thakicloud.github.io/ar/news/samsung-skhynix-ai-memory-mega-investment/" rel="alternate" type="text/html" title="Samsung وSK Hynix تُعلنان استثمارات محلية بقيمة 4,755 تريليون وون خلال عشر سنوات: من مصانع الذاكرة في هونام إلى مراكز بيانات الذكاء الاصطناعي بطاقة 15 غيغاواط" /><published>2026-06-30T00:00:00+09:00</published><updated>2026-06-30T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/news/samsung-skhynix-ai-memory-mega-investment</id><content type="html" xml:base="https://thakicloud.github.io/ar/news/samsung-skhynix-ai-memory-mega-investment/"><![CDATA[<p>في 29 يونيو 2026، صدر إعلان ضخم من قصر الضيافة في الرئاسة الكورية. أعلنت شركتا Samsung Electronics وSK hynix عن خطط لاستثمار ما مجموعه 4,755 تريليون وون داخل كوريا خلال السنوات العشر المقبلة. جاء هذا الإعلان في اجتماع “التقرير الوطني الشعبي للمشاريع الثلاثة الكبرى للقفزة الكبرى في كوريا” الذي ترأسه الرئيس لي جيه-مونغ، وأعلن فيه الرئيسان التنفيذيان لي جيه-يونغ وتشوي تاي-وون عن هذا الالتزام مباشرة.</p>

<p>يستعرض هذا المقال تفاصيل ما أُعلن في ذلك اليوم بشكل منهجي: ما الذي سيُبنى، وأين، وبأي تكلفة، وما السياق الصناعي والسياسي وراء ذلك، وما الذي يعنيه هذا لمشغلي البنية التحتية للذكاء الاصطناعي.</p>

<p><img src="/assets/images/samsung-skhynix-ai-memory-mega-investment-results-en.png" alt="رسم بياني مقارن بين حجم الاستثمارات المحلية لـSamsung وSK على مدى عشر سنوات والميزانية السنوية الحكومية" /></p>

<h2 id="ما-الذي-أُعلن">ما الذي أُعلن؟</h2>

<p>لم يكن الإعلان مجرد تقرير مستقل من الشركتين، بل كان إعلاناً عن مشروع وطني ضخم وصفه الرئيس بـ”الثورة الصناعية للذكاء الاصطناعي على النمط الكوري”. الجهتان المستثمرتان: مجموعة Samsung بمبلغ 2,655 تريليون وون، ومجموعة SK بمبلغ 2,100 تريليون وون، على مدى عشر سنوات داخل كوريا، ليبلغ المجموع 4,755 تريليون وون، أي ما يعادل 6.5 أضعاف الميزانية الحكومية السنوية (نحو 728 تريليون وون).</p>

<p>أشار الرئيس التنفيذي لي جيه-يونغ إلى مدينة غوانغجو مباشرة بوصفها الموقع المرشح لمجمع أشباه الموصلات الجديد، قائلاً: “نخطط لاتخاذ غوانغجو موقعاً مرشحاً حيث نتطلع إلى الحصول على دعم حوافز”. وأكد الرئيس التنفيذي تشوي تاي-وون أن الهدف هو تحويل كوريا من “دولة تستهلك الذكاء الاصطناعي إلى دولة تصدّره”. كما طالب الرئيس التنفيذي لـSK hynix غوانغ نو-جيونغ بتطبيق قانون أشباه الموصلات الخاص على مجمع Yongin وبتحسين ظروف المعيشة في المناطق.</p>

<p>تجدر الإشارة إلى أن مبلغ 4,755 تريليون وون يمثل إجمالي المبالغ المخططة للتنفيذ على مدى عشر سنوات أو أكثر، وليس نفقات سنوية. يبلغ إجمالي الإنفاق الرأسمالي السنوي للشركتين حالياً نحو 70 تريليون وون (نحو 41 تريليون لـSamsung DS ونحو 29 تريليون لـSK hynix). ينبغي التمييز بين حجم الإعلان ووتيرة التنفيذ السنوية.</p>

<blockquote>
  <p>ملاحظة حول التحويل إلى الدولار: أفادت وسائل الإعلام الدولية بأرقام متباينة كـ880 مليار دولار و1.3 تريليون دولار و520 مليار دولار، وذلك بسبب اختلاف نطاقات الاحتساب وأسعار صرف العملات المعتمدة. المرجع الأوضح هو الرقم بالوون الكوري، وإذا أريد التحويل فإن 4,755 تريليون وون تعادل نحو 3.4 تريليون دولار بسعر 1,380 وون للدولار.</p>
</blockquote>

<h2 id="هيكل-الاستثمار-800-تريليون-وون-لمصانع-المنطقة-الجنوبية-الغربية-و15-غيغاواط-لمراكز-البيانات">هيكل الاستثمار: 800 تريليون وون لمصانع المنطقة الجنوبية الغربية و15 غيغاواط لمراكز البيانات</h2>

<p>أكثر الالتزامات إلزامية ضمن إجمالي 4,755 تريليون وون هي مصانع الذاكرة في المنطقة الجنوبية الغربية (هونام). ستضخ كل من Samsung وSK hynix 400 تريليون وون، ليبلغ مجموع استثمارهما 800 تريليون وون لإنشاء أربعة مصانع ذاكرة (مصنعان لكل شركة). وتنظر Samsung في غوانغجو موقعاً مرشحاً. وتوزعت بقية البنود على النحو التالي:</p>

<pre><code class="language-mermaid">flowchart TB
    A["Samsung + SK hynix&lt;br/&gt;استثمارات محلية لعشر سنوات&lt;br/&gt;4,755 تريليون وون"] --&gt; B["Samsung Electronics&lt;br/&gt;2,655 تريليون"]
    A --&gt; C["SK Group&lt;br/&gt;2,100 تريليون"]
    B --&gt; B1["أشباه الموصلات&lt;br/&gt;Pyeongtaek + Yongin&lt;br/&gt;~2,030 تريليون"]
    B --&gt; B2["تغليف HBM&lt;br/&gt;تشونغتشيونغ&lt;br/&gt;140 تريليون"]
    C --&gt; C1["مراكز بيانات AI&lt;br/&gt;1,000 تريليون - 15GW"]
    C --&gt; C2["أشباه الموصلات&lt;br/&gt;Yongin&lt;br/&gt;600 تريليون"]
    C --&gt; C3["زيادة إنتاج NAND&lt;br/&gt;Cheongju&lt;br/&gt;100 تريليون"]
    B --&gt; D["مصانع الذاكرة في المنطقة الجنوبية الغربية&lt;br/&gt;4 مصانع - 800 تريليون&lt;br/&gt;مشترك بين الشركتين"]
    C --&gt; D
</code></pre>

<p>يستحق الاهتمام بند مراكز بيانات الذكاء الاصطناعي من جانب SK، إذ تقود SKT مشروعاً بقيمة 1,000 تريليون وون لإنشاء مراكز بيانات ذكاء اصطناعي بسعة 15 غيغاواط على المستوى الوطني بحلول عام 2035. ونظراً إلى أن تكلفة إنشاء غيغاواط واحد من مراكز البيانات تتراوح عادةً بين مليار وثلاثة مليارات دولار، فإن هذا الحجم يبدو منطقياً مع ما يُخصص لـ15 غيغاواط. يُضاف إلى ذلك استثمار SK hynix المنفصل بقيمة 100 تريليون وون لزيادة إنتاج NAND Flash في Cheongju. وخصصت Samsung نحو 2,030 تريليون وون لأشباه الموصلات في Pyeongtaek وYongin، و140 تريليون وون لتغليف HBM في تشونغتشيونغ.</p>

<h2 id="لماذا-الآن-ولماذا-بهذا-الحجم-دورة-hbm-الفائقة">لماذا الآن؟ ولماذا بهذا الحجم؟ دورة HBM الفائقة</h2>

<p>تتمحور القوة الدافعة وراء هذه الأرقام الضخمة حول عامل واحد: طلب HBM، أي ذاكرة النطاق الترددي العالي. تُعدّ HBM ذاكرة فائقة القيمة تُكدَّس على مسرّعات الذكاء الاصطناعي، وتبلغ قيمتها بين خمسة وسبعة أضعاف DRAM العادية. ومن المتوقع أن ينمو سوق HBM العالمي من نحو 35 مليار دولار عام 2025 إلى نحو 54.6 إلى 58 مليار دولار عام 2026، أي بنسبة نمو تتجاوز 58%.</p>

<p>جذور الطلب هي إنفاق مشغلي الخدمات السحابية الكبار. تجاوز إنفاق Amazon وMicrosoft وGoogle وMeta وOracle الرأسمالي على البنية التحتية للذكاء الاصطناعي عام 2026 حاجز 600 مليار دولار، وارتفعت حصة الذاكرة منه إلى نحو 30% بعد أن كانت 8% بين عامَي 2023 و2024. ويمثل طلب Blackwell وRubin من NVIDIA وحده مئات المليارات من الدولارات في قوائم الطلبيات، وقد بيعت مسبقاً إنتاج عام 2026 لموردي HBM الثلاثة: SK hynix وMicron وSamsung.</p>

<p>الجوهر هنا أن هذه الاختناقات تنشأ من شح الطاقة الإنتاجية لا من شح رأس المال. فالمشكلة ليست نقص الأموال بل نقص المصانع. ولهذا السبب تتجه الشركتان في آنٍ واحد نحو توسع ضخم في الطاقة الإنتاجية. سجّلت SK hynix هامش ربح تشغيلي بلغ 47% في الربع الثالث من عام 2025، وهو ما أتاح دورة إعادة استثمار هذه الأرباح في منشآت Yongin وCheongju.</p>

<h2 id="دعم-السياسات-قانون-أشباه-الموصلات-الخاص">دعم السياسات: قانون أشباه الموصلات الخاص</h2>

<p>اعتمدت كوريا تاريخياً على الإعفاءات الضريبية لدعم قطاع أشباه الموصلات بدلاً من منح الدعم النقدي المباشر كما تفعل الولايات المتحدة وأوروبا. رفع قانون K-Chips الصادر في فبراير 2025 معدل الإعفاء الضريبي على استثمارات المنشآت للشركات الكبرى من 15% إلى 20%، ومدّد إعفاءات البحث والتطوير حتى عام 2031. ويُقدَّر الأثر الضريبي المشترك للشركتين بنحو 6 تريليونات وون.</p>

<p>يُضاف إلى ذلك قانون أشباه الموصلات الخاص الذي صدر في يناير 2026، والذي يتيح للدولة والسلطات المحلية دعم البنية التحتية الصناعية كالكهرباء والمياه والطرق. ومن المقرر تطبيقه في الربع الثالث من 2026. إن تشغيل مصانع هونام البالغة قيمتها 800 تريليون وون يتوقف توقفاً حاسماً على توفير البنية التحتية للكهرباء والمياه في الوقت المناسب وفق هذا القانون. ولهذا السبب طالب الرئيس التنفيذي غوانغ علناً بتطبيق القانون على مجمع Yongin.</p>

<h2 id="المنافسة-العالمية-التوسع-المتزامن-لموردي-hbm-الثلاثة">المنافسة العالمية: التوسع المتزامن لموردي HBM الثلاثة</h2>

<table>
  <thead>
    <tr>
      <th>الشركة</th>
      <th>الموقع</th>
      <th>الاستثمارات الأخيرة</th>
      <th>وضع HBM</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>SK hynix</td>
      <td>المرتبة الأولى في الذاكرة</td>
      <td>600 تريليون وون في Yongin وغيرها</td>
      <td>حصة سوقية ~57% في HBM، إمداد أولوي لـHBM4</td>
    </tr>
    <tr>
      <td>Samsung Electronics</td>
      <td>منافس في الذاكرة</td>
      <td>~2,030 تريليون وون في Pyeongtaek وYongin</td>
      <td>حصة سوقية ~35% في HBM، توسع 50% في 2026</td>
    </tr>
    <tr>
      <td>Micron</td>
      <td>المرتبة الثالثة في الذاكرة</td>
      <td>~20 مليار دولار في السنة المالية 2026</td>
      <td>مبيعات HBM لعام 2026 مكتملة، بدء إنتاج HBM4 في الربع الثاني</td>
    </tr>
    <tr>
      <td>TSMC</td>
      <td>التصنيع بالعقد</td>
      <td>165 مليار دولار في أريزونا</td>
      <td>طاقة تغليف CoWoS محجوزة بالكامل حتى 2026</td>
    </tr>
  </tbody>
</table>

<p>بيعت مخزونات إنتاج HBM لعام 2026 لدى الموردين الثلاثة بالكامل. التحدي الحقيقي يكمن في عامَي 2027 و2028: إن لم تكن المصانع الكورية كافية عندئذٍ، فقد تذهب الحصة السوقية من طلب HBM4 وHBM5 إلى Micron. وعلى صعيد التصنيع، خصصت TSMC 165 مليار دولار في أريزونا وحدها لاستيعاب طاقة تغليف CoWoS حتى 2026، فيما انسحبت Intel فعلياً من منافسة HBM في سياق إعادة هيكلة أعمال التصنيع.</p>

<h2 id="الكهرباء-هي-الاختناق-الحقيقي-التنافس-على-مواقع-مراكز-البيانات">الكهرباء هي الاختناق الحقيقي: التنافس على مواقع مراكز البيانات</h2>

<p>منذ الربع الأول من 2026، انتقل الاختناق الرئيسي في البنية التحتية للذكاء الاصطناعي من الرقائق إلى الكهرباء. تأخرت أو أُلغيت مشاريع مراكز بيانات بسعة نحو 7 غيغاواط في الولايات المتحدة بسبب نقص الكهرباء. ومفارقةً، يرفع هذا من جاذبية المنطقة الجنوبية الغربية الكورية والشرق الأوسط كمواقع يمكن فيها تأمين الكهرباء والأراضي.</p>

<p>خطة SK لبناء مراكز بيانات ذكاء اصطناعي بسعة 15 غيغاواط بقيمة 1,000 تريليون وون بحلول 2035 ليست مجرد استثمار عقاري. فحين يبني مصنّع الذاكرة مراكز البيانات التي يُورّد إليها HBM مباشرةً، يتمكن من خلق طلبه الخاص واستعادة قوته التفاوضية في سلسلة التوريد التي تُحدد فيها NVIDIA ومشغلو الخدمات السحابية الكبار المواصفات. وتسير Samsung في الاتجاه ذاته نحو التكامل الرأسي من خلال مركز بيانات الذكاء الاصطناعي في Haenam ومصنع لوحات خوادم الذكاء الاصطناعي في Sejong.</p>

<h2 id="ردود-فعل-السوق">ردود فعل السوق</h2>

<p>عقب الإعلان مباشرةً، أغلق سهم Samsung Electronics بعد تذبذب عند 323,000 وون، واستعادت SK hynix المرتبة الأولى من حيث القيمة السوقية في بورصة كوسبي متجاوزةً Samsung Electronics في 30 يونيو. قارن بعض المحللين هذا التطور بتجاوز Microsoft لـCisco إبان فقاعة الدوت كوم عام 2000 واعتبروه إشارةً محتملة إلى ذروة السوق، غير أن غالبية المحللين أحجموا عن الحكم بالمبالغة في التقييم معربين عن رغبتهم في متابعة الأداء الفعلي والظروف الاقتصادية الكلية. وثمة وجهة نظر ترى أن التحول في القيمة السوقية مبالغ فيه، إذ تبقى تقديرات الأرباح التشغيلية لـSamsung لعام 2026 أعلى (361 تريليون وون) مقارنةً بـSK hynix (262 تريليون وون).</p>

<h2 id="منظور-thakicloud-كلما-توسعت-الأجهزة-ازداد-الدور-الحاسم-لطبقة-البرمجيات">منظور ThakiCloud: كلما توسعت الأجهزة، ازداد الدور الحاسم لطبقة البرمجيات</h2>

<p>جوهر هذا الإعلان هو أن كوريا تندمج رأسياً في البنية التحتية للذكاء الاصطناعي على المستوى الوطني، وهو ما يتقاطع مباشرةً مع أعمال ThakiCloud في منصة ai-platform.</p>

<p>مع توسع مراكز بيانات الذكاء الاصطناعي المحلية إلى سعة 15 غيغاواط، يتنامى الطلب على البنية التحتية متعددة المستأجرين لتدريب النماذج وخدمتها. تستهدف ThakiCloud هذه الطبقة تحديداً من خلال جدولة GPU المبنية على Kubernetes وKueue وخدمة النماذج عبر vLLM. حين توفر المصانع ومراكز البيانات الأجهزة، تصبح ثمة حاجة إلى مستوى تحكم يشغّل أحمال عمل العملاء المتعددين بشكل معزول وآمن.</p>

<p>طبيعة الطلب أيضاً في صالحنا. كثيراً ما يتعين على الصناعات الوطنية الاستراتيجية والقطاع العام تشغيل النماذج داخل مراكز البيانات الخاصة بها بدلاً من الاعتماد على السحابة الخارجية، ولا سيما في البيئات ذات الاشتراطات الأمنية الصارمة. تلبّي قدرات ThakiCloud في الاستضافة الذاتية وعزل المستأجرين المتعددين وخدمة النماذج بكفاءة عالية هذا الطلب السيادي على الذكاء الاصطناعي بدقة.</p>

<p>والأهم من ذلك: كلما زادت وفرة HBM وحسّاب الأداء العالي، انتقل محور المنافسة من “كم حجم ما اشتريته” إلى “كم كفاءة تشغيله”. تُقرر إدارة دورة حياة GPU والجدولة في نهاية المطاف مستوى التكلفة. هنا تحديداً تكمن قيمة ThakiCloud: طبقة البرمجيات التي تُشغّل الأجهزة التي ستُنتجها هذه الاستثمارات البالغة 4,755 تريليون وون بكفاءة قصوى.</p>

<h2 id="المحاذير-والحجج-المضادة-التفاؤل-المطلق-سابق-لأوانه">المحاذير والحجج المضادة: التفاؤل المطلق سابق لأوانه</h2>

<p>قراءة هذا الإعلان بوصفه خبراً إيجابياً حصراً ينطوي على مخاطر. إليك الحجج الصادقة في الاتجاه المعاكس.</p>

<p>أولاً، يمثل مبلغ 4,755 تريليون وون “خطة” تراكمية لعشر سنوات وليس إنفاقاً سنوياً موثقاً. الطابع الحكومي للمناسبة قد يضخ انحيازاً تصاعدياً في الأرقام، وقد عانى مجمع Yongin البالغ قيمته 622 تريليون وون الذي أُعلن عنه عام 2024 من تأخيرات في الجدول الزمني. ثمة دوماً فجوة بين الإعلان والتنفيذ.</p>

<p>ثانياً، إن انتهت دورة HBM الفائقة، تحولت عمليات التوسع الراهنة إلى طاقة فائضة مستقبلية. قطاع الذاكرة شهد تاريخياً دورات حادة التذبذب. إن كان الإنفاق الرأسمالي على الذكاء الاصطناعي مبالغاً فيه وفق بعض التحليلات، فقد تتزامن المصانع التي ستبدأ الإنتاج بين عامَي 2027 و2028 مع مرحلة تباطؤ الطلب.</p>

<p>ثالثاً، إن لم تُوفَّر البنية التحتية للكهرباء والمياه في الوقت المناسب، فقد تتأخر بداية تشغيل المصانع رغم الاستثمار البالغ 800 تريليون وون. وكون الكهرباء السبب الرئيسي في تأخر مراكز البيانات عالمياً يجعل هذه المخاوف حقيقية لا نظرية.</p>

<p>أخيراً، تبرز تحذيرات من أن التقييمات السوقية تجاوزت الأداء الفعلي. الحجم الإعلاني لا يضمن بالضرورة نتائج الأعمال.</p>

<h2 id="الخلاصة">الخلاصة</h2>

<p>إطار إعلان 29 يونيو 2026 واضح: Samsung وSK hynix ستستثمران 4,755 تريليون وون محلياً خلال عشر سنوات، يتمحور في جوهره حول أربعة مصانع ذاكرة في المنطقة الجنوبية الغربية بقيمة 800 تريليون وون ومراكز بيانات ذكاء اصطناعي بسعة 15 غيغاواط من SK بقيمة 1,000 تريليون وون. المحرك لكل هذا هو دورة HBM الفائقة، ونجاح المشروع مرتبط بسرعة توفير البنية التحتية للكهرباء والمياه.</p>

<p>بينما تبني كوريا أجهزة الذكاء الاصطناعي على المستوى الوطني، تتنامى معها قيمة طبقة البرمجيات التي تُشغّل هذه الأجهزة بكفاءة. وفي هذا التقاطع تحديداً، تُرسّخ ThakiCloud موقعها من خلال خدمة النماذج المبنية على Kubernetes وKueue والبنية التحتية السيادية.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Financial News، أربعة مصانع في المنطقة الجنوبية الغربية، Samsung وSK بـ4,755 تريليون وون (2026-06-29): <a href="https://www.fnnews.com/news/202606291837098645">https://www.fnnews.com/news/202606291837098645</a></li>
  <li>Newsis، Samsung وSK: 800 تريليون وون لمحور أشباه الموصلات في هونام (2026-06-29): <a href="https://www.newsis.com/view/NISX20260629_0003687807">https://www.newsis.com/view/NISX20260629_0003687807</a></li>
  <li>Aju News، مراكز بيانات الذكاء الاصطناعي بـ15 غيغاواط من SKT (2026-06-29): <a href="https://www.ajunews.com/view/20260629171803513">https://www.ajunews.com/view/20260629171803513</a></li>
  <li>Hankyung، 600 تريليون وون لـYongin و100 تريليون وون لـCheongju (2026-06-29): <a href="https://www.hankyung.com/article/2026062943107">https://www.hankyung.com/article/2026062943107</a></li>
  <li>CNBC، South Korea Samsung SK Hynix mega-projects (2026-06-29): <a href="https://www.cnbc.com/2026/06/29/samsung-sk-hynix-reported-1point3-reported-trillion-spending-plans.html">https://www.cnbc.com/2026/06/29/samsung-sk-hynix-reported-1point3-reported-trillion-spending-plans.html</a></li>
  <li>SK hynix، توقعات السوق لعام 2026 (دورة HBM الفائقة): <a href="https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/">https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/</a></li>
  <li>TrendForce، Micron ترفع الإنفاق الرأسمالي إلى 20 مليار دولار مع بيع HBM لعام 2026 بالكامل (2025-12-18): <a href="https://www.trendforce.com/news/2025/12/18/news-micron-hikes-capex-to-20b-with-2026-hbm-supply-fully-booked-hbm4-ramps-2q26/">https://www.trendforce.com/news/2025/12/18/news-micron-hikes-capex-to-20b-with-2026-hbm-supply-fully-booked-hbm4-ramps-2q26/</a></li>
  <li>Korea Policy Briefing، قانون أشباه الموصلات الخاص يُقرّ في البرلمان (2026-01-30): <a href="https://www.korea.kr/briefing/pressReleaseView.do?newsId=156742072">https://www.korea.kr/briefing/pressReleaseView.do?newsId=156742072</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="samsung" /><category term="sk-hynix" /><category term="hbm" /><category term="ai-memory" /><category term="semiconductor" /><category term="data-center" /><category term="sovereign-ai" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[في 29 يونيو 2026، أعلنت شركتا Samsung Electronics وSK hynix عن خطط استثمارية محلية مشتركة بقيمة 4,755 تريليون وون على مدى عشر سنوات. نستعرض تفاصيل الإعلان الذي يتمحور حول أربعة مصانع ذاكرة في المنطقة الجنوبية الغربية (800 تريليون وون) ومراكز بيانات الذكاء الاصطناعي بسعة 15 غيغاواط (1,000 تريليون وون)، ونحلل دورة HBM الفائقة والبيئة السياسية وانعكاسات النمو على منصة ThakiCloud المبنية على Kubernetes وKueue.]]></summary></entry><entry xml:lang="en"><title type="html">Samsung &amp;amp; SK’s 4,755 Trillion KRW 10-Year Domestic Investment: Honam Memory Fabs to 15GW AI Data Centers</title><link href="https://thakicloud.github.io/en/news/samsung-skhynix-ai-memory-mega-investment/" rel="alternate" type="text/html" title="Samsung &amp;amp; SK’s 4,755 Trillion KRW 10-Year Domestic Investment: Honam Memory Fabs to 15GW AI Data Centers" /><published>2026-06-30T00:00:00+09:00</published><updated>2026-06-30T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/news/samsung-skhynix-ai-memory-mega-investment</id><content type="html" xml:base="https://thakicloud.github.io/en/news/samsung-skhynix-ai-memory-mega-investment/"><![CDATA[<p>On June 29, 2026, a landmark figure emerged at the Cheongwadae State Guest House. Samsung Electronics and SK hynix announced plans to invest a combined 4,755 trillion KRW domestically over the next 10 years. The declaration was made in person by Samsung Chairman Lee Jae-yong and SK Group Chairman Chey Tae-won at the “Republic of Korea Great Leap, Three National Mega-Projects Public Briefing” presided over by President Lee Jae-myung.</p>

<p>This post calmly unpacks what was announced that day: what will be built, where, and at what scale; the industrial trends and policies behind the numbers; and what it all means for operators of AI infrastructure.</p>

<p><img src="/assets/images/samsung-skhynix-ai-memory-mega-investment-results-en.png" alt="Bar chart comparing Samsung and SK's 10-year domestic investment plan against the government's annual budget" /></p>

<h2 id="what-was-announced">What Was Announced</h2>

<p>The announcement was not a standalone corporate IR event. It was a declaration of a national mega-project, which President Lee framed as a “Korean-style AI industrial revolution.” Two groups are investing: Samsung Group pledged 2,655 trillion KRW and SK Group pledged 2,100 trillion KRW in domestic investment over 10 years, for a combined total of 4,755 trillion KRW, roughly 6.5 times the government’s annual budget of approximately 728 trillion KRW.</p>

<p>Chairman Lee Jae-yong named Gwangju as a candidate site for the new semiconductor complex, stating: “We are considering Gwangju as a candidate site where incentive support is expected.” Chairman Chey Tae-won emphasized his intention to transform Korea “from a country that consumes AI into a country that exports it.” SK hynix CEO Kwak Noh-jung specifically requested the application of the Semiconductor Special Act to the Yongin cluster and improvements to regional living conditions.</p>

<p>One important context: 4,755 trillion KRW represents a cumulative planned figure spread over more than 10 years, not a near-term commitment. The two companies’ current combined annual capital expenditure runs at roughly 70 trillion KRW (Samsung DS approximately 41 trillion, SK hynix approximately 29 trillion). Announcement scale and annual execution pace should be read separately.</p>

<blockquote>
  <p>USD conversion note: International media reported this announcement using figures ranging from “$880 billion,” “$1.3 trillion,” and “$520 billion.” The discrepancies stem from different scope definitions and exchange rates applied. The most reliable reference is the Korean won original. For those who require a conversion, 4,755 trillion KRW at 1 USD = 1,380 KRW implies approximately $3.44 trillion.</p>
</blockquote>

<h2 id="investment-structure-800-trillion-krw-southwestern-fabs-and-15gw-data-centers">Investment Structure: 800 Trillion KRW Southwestern Fabs and 15GW Data Centers</h2>

<p>Within the 4,755 trillion KRW total, the most binding commitment is the southwestern (Honam) memory fab plan. Samsung and SK will each contribute 400 trillion KRW, 800 trillion KRW in total, to build four new memory fabs (two per company). Samsung is considering Gwangju as its site. The remaining components break down as follows.</p>

<pre><code class="language-mermaid">flowchart TB
    A["Samsung &amp; SK 10-Year Domestic Investment&lt;br/&gt;4,755 Trillion KRW"] --&gt; B["Samsung Electronics&lt;br/&gt;2,655 Trillion"]
    A --&gt; C["SK Group&lt;br/&gt;2,100 Trillion"]
    B --&gt; B1["Pyeongtaek &amp; Yongin Semiconductors&lt;br/&gt;approx. 2,030 Trillion"]
    B --&gt; B2["Chungcheong HBM Packaging&lt;br/&gt;140 Trillion"]
    C --&gt; C1["AI Data Centers&lt;br/&gt;1,000 Trillion · 15GW"]
    C --&gt; C2["Yongin Semiconductors&lt;br/&gt;600 Trillion"]
    C --&gt; C3["Cheongju NAND Capacity Expansion&lt;br/&gt;100 Trillion"]
    B --&gt; D["Southwestern Memory Fabs (4 fabs)&lt;br/&gt;800 Trillion · Joint Samsung &amp; SK"]
    C --&gt; D
</code></pre>

<p>The most notable item on the SK side is the AI data center plan. Led by SKT, the group intends to spend 1,000 trillion KRW by 2035 to build 15GW of AI data centers nationwide. Given that typical capex for a 1GW data center runs roughly $1 to $3 billion, a 1,000 trillion KRW figure for 15GW is broadly consistent. In addition, SK hynix will separately invest 100 trillion KRW in expanding NAND flash capacity at its Cheongju facility. Samsung has allocated approximately 2,030 trillion KRW to Pyeongtaek and Yongin semiconductor operations and 140 trillion KRW to HBM packaging in the Chungcheong region.</p>

<h2 id="why-now-why-this-scale-the-hbm-supercycle">Why Now, Why This Scale: The HBM Supercycle</h2>

<p>The driving force behind these enormous numbers converges on a single technology: HBM, or High Bandwidth Memory. HBM is a high-value memory stacked directly onto AI accelerators, commanding a unit price five to seven times that of conventional DRAM. The global HBM market is forecast to grow from approximately $35 billion in 2025 to $54.6 to $58 billion in 2026, a jump of more than 58%.</p>

<p>The root of that demand lies in hyperscaler spending. Amazon, Microsoft, Google, Meta, and Oracle together exceeded $600 billion in AI infrastructure capex in 2026, with memory’s share of that spending rising to approximately 30%, roughly four times the 8% share seen in 2023 to 2024. Backlog from NVIDIA Blackwell and Rubin demand alone has reached hundreds of billions of dollars, and the 2026 production output of the three HBM suppliers, SK hynix, Micron, and Samsung, is effectively sold out.</p>

<p>The critical insight is that the bottleneck is capacity, not capital. The constraint is not a lack of money to build; it is a lack of fabs to build in. That is why both companies are moving toward large-scale expansion simultaneously. SK hynix posted an operating margin of 47% in Q3 2025, and that profitability is now being recycled into Yongin and Cheongju facilities, creating a virtuous cycle.</p>

<h2 id="policy-backing-the-semiconductor-special-act">Policy Backing: The Semiconductor Special Act</h2>

<p>Korea has historically supported its semiconductor industry through tax credits rather than direct cash subsidies as seen in the United States or Europe. The K-Chips Act passed in February 2025 raised the facility investment tax credit rate for large corporations from 15% to 20% and extended R&amp;D credits through 2031. The combined tax benefit for the two companies is estimated at approximately 6 trillion KRW.</p>

<p>Layered on top is the Semiconductor Special Act, passed in January 2026. This legislation creates a legal basis for the state and local governments to directly support the construction of critical industrial infrastructure including power, water, and roads. Implementation is scheduled for Q3 2026. For the 800 trillion KRW Honam fabs to actually come online, the timely delivery of power and water infrastructure under this Special Act will be the decisive variable. CEO Kwak Noh-jung’s direct request at the announcement for the Special Act to be applied to the Yongin cluster reflects exactly this concern.</p>

<h2 id="global-competition-three-hbm-suppliers-expanding-simultaneously">Global Competition: Three HBM Suppliers Expanding Simultaneously</h2>

<table>
  <thead>
    <tr>
      <th>Company</th>
      <th>Position</th>
      <th>Recent Investment</th>
      <th>HBM Status</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>SK hynix</td>
      <td>Memory No. 1</td>
      <td>Yongin 600 trillion KRW, etc.</td>
      <td>HBM share approx. 57%, HBM4 priority supply</td>
    </tr>
    <tr>
      <td>Samsung Electronics</td>
      <td>Memory challenger</td>
      <td>Pyeongtaek &amp; Yongin approx. 2,030 trillion KRW</td>
      <td>HBM share approx. 35%, 50% capacity expansion in 2026</td>
    </tr>
    <tr>
      <td>Micron</td>
      <td>Memory No. 3</td>
      <td>FY26 approx. $20 billion</td>
      <td>2026 HBM fully booked, HBM4 mass production in Q2</td>
    </tr>
    <tr>
      <td>TSMC</td>
      <td>Foundry</td>
      <td>Arizona $165 billion</td>
      <td>CoWoS packaging sold out through 2026</td>
    </tr>
  </tbody>
</table>

<p>All three HBM suppliers have their 2026 output sold out. The real question is 2027 to 2028. If sufficient Korean fab capacity is not online by then, the incremental demand for HBM4 and HBM5 could shift to Micron. On the foundry side, TSMC is committing $165 billion to Arizona alone, filling its CoWoS packaging capacity through 2026, while Intel has effectively withdrawn from HBM competition through its foundry restructuring.</p>

<h2 id="power-as-the-real-bottleneck-data-center-location-competition">Power as the Real Bottleneck: Data Center Location Competition</h2>

<p>Since Q1 2026, the primary bottleneck for AI infrastructure has shifted from chips to power. In the United States, approximately 7GW of data center projects have been delayed or cancelled due to power constraints. Paradoxically, this makes Korea’s southwestern region and parts of the Middle East, where power and land remain available, increasingly attractive.</p>

<p>SK’s plan to build 15GW of AI data centers nationwide for 1,000 trillion KRW by 2035 is not simply a real estate bet. When a memory manufacturer directly builds the data centers that will consume its HBM output, it can create its own demand and recover bargaining power in a supply chain where NVIDIA and hyperscalers currently set the terms. Samsung is moving in the same direction of vertical integration, with AI data center projects in Haenam and an AI server substrate factory in Sejong.</p>

<h2 id="market-reaction">Market Reaction</h2>

<p>Immediately following the announcement, Samsung Electronics shares closed at 323,000 KRW after volatile trading, and on June 30 SK hynix reclaimed the top position in KOSPI market capitalization from Samsung Electronics. Some analysts drew parallels to the Cisco-Microsoft reversal during the 2000 dot-com bubble and raised concerns about a market peak. However, the majority of analysts withheld judgment on simple overheating, noting that “actual earnings and the macro environment need more observation.” There is also a view that the valuation reversal is excessive, given that Samsung’s 2026 operating profit estimate (361 trillion KRW) remains higher than SK hynix’s (262 trillion KRW).</p>

<h2 id="thakicloud-perspective-the-more-hardware-scales-the-more-the-software-layer-matters">ThakiCloud Perspective: The More Hardware Scales, the More the Software Layer Matters</h2>

<p>The essence of this announcement is that Korea is vertically integrating AI infrastructure at the national level, and that connects directly to ThakiCloud’s ai-platform business.</p>

<p>As domestic AI data centers expand to 15GW, the demand for multi-tenant infrastructure to train and serve models on top of that hardware grows with it. ThakiCloud targets exactly this layer with Kubernetes and Kueue-based GPU scheduling and vLLM serving. When fabs and data centers supply the hardware, a control plane is needed to safely isolate and run multiple customers’ workloads on top of it.</p>

<p>The nature of the demand also works in our favor. National critical industries and public sector entities frequently need to operate models inside their own data centers rather than relying on external clouds, especially in security-sensitive environments. ThakiCloud’s self-hosting, multi-tenant isolation, and cost-efficient serving align precisely with this sovereign AI demand.</p>

<p>And the most important shift is this: as HBM and high-performance GPUs proliferate, the axis of competition moves from “how much did you buy” to “how efficiently can you run it.” GPU lifecycle management and queuing that prevents expensive accelerators from sitting idle ultimately determines cost. The software layer that runs the hardware created by 4,755 trillion KRW efficiently, that is exactly where ThakiCloud’s value lies.</p>

<h2 id="caveats-and-counterarguments-too-early-for-pure-optimism">Caveats and Counterarguments: Too Early for Pure Optimism</h2>

<p>Reading this announcement as unambiguously positive would be a mistake. The counterarguments deserve an honest look.</p>

<p>First, 4,755 trillion KRW is a 10-year cumulative “plan,” not an annualized figure with verified execution. The government event context may introduce upward bias, and the Yongin 622 trillion KRW cluster announced in 2024 has already experienced schedule delays. There is always a gap between announcement and execution.</p>

<p>Second, if the HBM supercycle reverses, today’s expansion becomes tomorrow’s oversupply. Memory is historically a sharply cyclical industry. If AI capex proves to be overinvestment as some analysts contend, the fabs coming online in 2027 to 2028 could coincide with a period of softening demand.</p>

<p>Third, if power and water infrastructure is not delivered on schedule, even an 800 trillion KRW fab investment will be delayed. Power is the leading cause of global data center delays, making this a concrete rather than abstract risk.</p>

<p>Finally, the valuation reversal has prompted warnings that market prices are running ahead of fundamentals. Announcement scale does not guarantee earnings.</p>

<h2 id="summary">Summary</h2>

<p>The framework of the June 29, 2026 announcement is clear. Samsung and SK will invest 4,755 trillion KRW domestically over 10 years, anchored by 800 trillion KRW in southwestern memory fabs and SK’s 15GW AI data centers. The HBM supercycle is the engine driving all of it, and success will depend on the speed of power and water infrastructure delivery.</p>

<p>As Korea builds AI hardware at national scale, the value of the software layer that runs that hardware efficiently grows alongside it. ThakiCloud is positioning itself at exactly that intersection, with K8s- and Kueue-based serving and sovereign infrastructure.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li>Financial News, Southwestern Fabs Samsung &amp; SK 4,755 Trillion (2026-06-29): <a href="https://www.fnnews.com/news/202606291837098645">https://www.fnnews.com/news/202606291837098645</a></li>
  <li>Newsis, Samsung &amp; SK 800 Trillion Honam Semiconductor Hub (2026-06-29): <a href="https://www.newsis.com/view/NISX20260629_0003687807">https://www.newsis.com/view/NISX20260629_0003687807</a></li>
  <li>Aju News, SKT 15GW AI Data Centers (2026-06-29): <a href="https://www.ajunews.com/view/20260629171803513">https://www.ajunews.com/view/20260629171803513</a></li>
  <li>Hankyung, Yongin 600 Trillion &amp; Cheongju 100 Trillion (2026-06-29): <a href="https://www.hankyung.com/article/2026062943107">https://www.hankyung.com/article/2026062943107</a></li>
  <li>CNBC, South Korea Samsung SK Hynix mega-projects (2026-06-29): <a href="https://www.cnbc.com/2026/06/29/samsung-sk-hynix-reported-1point3-reported-trillion-spending-plans.html">https://www.cnbc.com/2026/06/29/samsung-sk-hynix-reported-1point3-reported-trillion-spending-plans.html</a></li>
  <li>SK hynix, 2026 Market Outlook (HBM Supercycle): <a href="https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/">https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/</a></li>
  <li>TrendForce, Micron CapEx $20B &amp; 2026 HBM booked (2025-12-18): <a href="https://www.trendforce.com/news/2025/12/18/news-micron-hikes-capex-to-20b-with-2026-hbm-supply-fully-booked-hbm4-ramps-2q26/">https://www.trendforce.com/news/2025/12/18/news-micron-hikes-capex-to-20b-with-2026-hbm-supply-fully-booked-hbm4-ramps-2q26/</a></li>
  <li>Policy Briefing, Semiconductor Special Act Passed by National Assembly (2026-01-30): <a href="https://www.korea.kr/briefing/pressReleaseView.do?newsId=156742072">https://www.korea.kr/briefing/pressReleaseView.do?newsId=156742072</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="samsung" /><category term="sk-hynix" /><category term="hbm" /><category term="ai-memory" /><category term="semiconductor" /><category term="data-center" /><category term="sovereign-ai" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[On June 29, 2026, Samsung Electronics and SK hynix announced a combined 4,755 trillion KRW domestic investment over the next 10 years. Centered on four memory fabs in the southwestern region (800 trillion KRW) and SK's 15GW AI data center plan (1,000 trillion KRW), this post breaks down the announcement, examines the HBM supercycle and policy environment, and explores what rapidly expanding domestic AI infrastructure means for ThakiCloud's Kubernetes- and Kueue-based serving platform.]]></summary></entry><entry xml:lang="ko"><title type="html">삼성·SK, 10년간 4,755조 원 국내 투자: 호남 메모리 팹부터 15GW AI 데이터센터까지</title><link href="https://thakicloud.github.io/ko/news/samsung-skhynix-ai-memory-mega-investment/" rel="alternate" type="text/html" title="삼성·SK, 10년간 4,755조 원 국내 투자: 호남 메모리 팹부터 15GW AI 데이터센터까지" /><published>2026-06-30T00:00:00+09:00</published><updated>2026-06-30T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/news/samsung-skhynix-ai-memory-mega-investment</id><content type="html" xml:base="https://thakicloud.github.io/ko/news/samsung-skhynix-ai-memory-mega-investment/"><![CDATA[<p>2026년 6월 29일 청와대 영빈관에서 큰 숫자가 하나 나왔습니다. 삼성전자와 SK하이닉스가 앞으로 10년간 국내에 합산 4,755조 원을 투자하겠다는 계획입니다. 이재명 대통령이 주재한 “대한민국 대도약 3대 메가프로젝트 국민보고회” 자리에서 이재용 회장과 최태원 회장이 직접 선언했습니다.</p>

<p>이 글은 그날 발표된 내용을 차분히 정리합니다. 무엇을, 어디에, 얼마나 짓겠다는 것인지, 그 배경에 어떤 산업 흐름과 정책이 있는지, 그리고 이것이 AI 인프라를 운용하는 사업자에게 무엇을 의미하는지 순서대로 짚겠습니다.</p>

<p><img src="/assets/images/samsung-skhynix-ai-memory-mega-investment-results.png" alt="삼성·SK 10년 국내 투자 계획 규모를 정부 연간 예산과 비교한 막대 그래프" /></p>

<h2 id="무엇을-발표했나">무엇을 발표했나</h2>

<p>발표는 기업 단독 IR이 아니라 대통령이 “한국형 AI 산업혁명”으로 규정한 국가 메가프로젝트 선언이었습니다. 투자 주체는 두 그룹입니다. 삼성그룹이 2,655조 원, SK그룹이 2,100조 원을 향후 10년간 국내에 집행하겠다고 밝혔고, 합치면 4,755조 원입니다. 정부 연간 예산(약 728조 원)의 6.5배에 해당하는 규모입니다.</p>

<p>이재용 회장은 광주를 신규 반도체 단지 후보지로 직접 언급하며 “인센티브 지원이 기대되는 광주를 후보지로 계획 중”이라고 말했습니다. 최태원 회장은 한국을 “AI를 소비하는 나라에서 수출하는 나라로” 전환하겠다고 강조했습니다. 곽노정 SK하이닉스 CEO는 용인 클러스터의 반도체특별법 적용과 지방 정주 여건 개선을 함께 요청했습니다.</p>

<p>다만 4,755조 원은 10년 이상에 걸친 누적 계획 집행액이라는 점을 짚어둘 필요가 있습니다. 두 회사의 현재 연간 설비투자 합계는 약 70조 원대(삼성 DS 약 41조, SK하이닉스 약 29조)입니다. 발표 규모와 연간 집행 속도는 구분해서 봐야 합니다.</p>

<blockquote>
  <p>달러 환산 참고: 외신은 이 발표를 “8,800억 달러”, “1.3조 달러”, “5,200억 달러” 등 서로 다른 숫자로 보도했습니다. 합산 범위와 적용 환율이 제각각이기 때문입니다. 가장 명확한 기준은 원화 원본이며, 굳이 환산한다면 1달러=1,380원 기준으로 4,755조 원은 약 3조 4,000억 달러 규모입니다.</p>
</blockquote>

<h2 id="투자-구조-서남권-800조-팹과-15gw-데이터센터">투자 구조: 서남권 800조 팹과 15GW 데이터센터</h2>

<p>총계 4,755조 원 안에서 가장 구속력 있는 약정은 서남권(호남) 메모리 팹입니다. 삼성과 SK가 각각 400조 원씩, 합쳐서 800조 원을 투입해 메모리 팹 4기(각사 2기)를 신설합니다. 삼성은 광주를 후보지로 보고 있습니다. 나머지 항목은 다음과 같이 구성됩니다.</p>

<pre><code class="language-mermaid">flowchart TB
    A["삼성·SK 10년 국내 투자&lt;br/&gt;4,755조 원"] --&gt; B["삼성전자&lt;br/&gt;2,655조"]
    A --&gt; C["SK그룹&lt;br/&gt;2,100조"]
    B --&gt; B1["평택·용인 반도체&lt;br/&gt;약 2,030조"]
    B --&gt; B2["충청 HBM 패키징&lt;br/&gt;140조"]
    C --&gt; C1["AI 데이터센터&lt;br/&gt;1,000조 · 15GW"]
    C --&gt; C2["용인 반도체&lt;br/&gt;600조"]
    C --&gt; C3["청주 낸드 증산&lt;br/&gt;100조"]
    B --&gt; D["서남권 메모리 팹 4기&lt;br/&gt;800조 · 양사 공동"]
    C --&gt; D
</code></pre>

<p>SK 쪽에서 눈여겨볼 항목은 AI 데이터센터입니다. SKT가 주도해 2035년까지 1,000조 원을 들여 전국 15GW 규모의 AI 데이터센터를 구축하겠다는 계획입니다. 데이터센터 1GW 건설 캐펙스가 통상 10억~30억 달러 수준임을 고려하면, 15GW에 1,000조 원이라는 규모는 대략 정합합니다. 여기에 SK하이닉스의 청주 낸드플래시 증산(100조 원)이 별도로 더해집니다. 삼성은 평택·용인 반도체에 약 2,030조 원, 충청 HBM 패키징에 140조 원을 배정했습니다.</p>

<h2 id="왜-지금-이렇게-큰-규모인가-hbm-슈퍼사이클">왜 지금, 이렇게 큰 규모인가: HBM 슈퍼사이클</h2>

<p>이 거대한 숫자의 동력은 한 가지로 수렴합니다. HBM, 고대역폭메모리 수요입니다. HBM은 AI 가속기에 적층 탑재되는 고부가 메모리로, 일반 DRAM보다 단가가 5~7배 높습니다. 글로벌 HBM 시장은 2025년 약 350억 달러에서 2026년 약 546억~580억 달러로, 58% 이상 성장이 전망됩니다.</p>

<p>수요의 뿌리는 하이퍼스케일러의 지출입니다. 아마존·마이크로소프트·구글·메타·오라클의 2026년 AI 인프라 캐펙스는 6,000억 달러를 넘어섰고, 그중 메모리가 차지하는 비중이 약 30%까지 올라왔습니다. 2023~2024년의 8%에서 약 4배로 뛴 수치입니다. NVIDIA의 Blackwell·Rubin 수요만으로 수천억 달러 규모의 수주 잔고가 쌓였고, 세 HBM 공급사인 SK하이닉스·마이크론·삼성의 2026년 생산분은 사실상 완판된 상태입니다.</p>

<p>핵심은 이 병목이 자본 부족이 아니라 생산 용량 부족에서 온다는 점입니다. 돈이 없어서 못 만드는 것이 아니라 팹이 부족해서 못 만드는 상황입니다. 그래서 두 회사가 동시에 대규모 증설로 향하는 것입니다. SK하이닉스는 2025년 3분기 영업이익률 47%를 기록했고, 이 수익이 용인·청주 설비로 재투입되는 선순환 구조를 만들었습니다.</p>

<h2 id="정책이-받쳐주는-구조-반도체-특별법">정책이 받쳐주는 구조: 반도체 특별법</h2>

<p>한국은 미국이나 유럽처럼 현금 보조금을 직접 주는 대신 세액공제 중심으로 반도체를 지원해왔습니다. 2025년 2월 통과된 K-칩스법은 대기업 시설투자 세액공제율을 15%에서 20%로 올렸고, R&amp;D 공제를 2031년까지 연장했습니다. 두 회사 합산 약 6조 원의 감세 효과로 추산됩니다.</p>

<p>여기에 2026년 1월 통과된 반도체 특별법이 더해졌습니다. 이 법은 전력·용수·도로 같은 산업기반시설 조성에 국가와 지자체가 직접 지원할 근거를 마련했습니다. 시행은 2026년 3분기 예정입니다. 이번 800조 원 호남 팹이 실제로 가동되려면 이 특별법에 따른 전력·용수 인프라의 적기 공급이 결정적 변수입니다. 곽노정 CEO가 발표 자리에서 용인 클러스터의 특별법 적용을 직접 요청한 것도 이 때문입니다.</p>

<h2 id="글로벌-경쟁-세-hbm-공급사의-동시-증설">글로벌 경쟁: 세 HBM 공급사의 동시 증설</h2>

<table>
  <thead>
    <tr>
      <th>기업</th>
      <th>위치</th>
      <th>최근 투자</th>
      <th>HBM 상황</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>SK하이닉스</td>
      <td>메모리 1위</td>
      <td>용인 600조 등</td>
      <td>HBM 점유 약 57%, HBM4 우선공급</td>
    </tr>
    <tr>
      <td>삼성전자</td>
      <td>메모리 추격</td>
      <td>평택·용인 약 2,030조</td>
      <td>HBM 점유 약 35%, 2026년 50% 증설</td>
    </tr>
    <tr>
      <td>마이크론</td>
      <td>메모리 3위</td>
      <td>FY26 약 200억 달러</td>
      <td>2026년 HBM 완판, HBM4 2분기 양산</td>
    </tr>
    <tr>
      <td>TSMC</td>
      <td>파운드리</td>
      <td>애리조나 1,650억 달러</td>
      <td>CoWoS 패키징 2026년 매진</td>
    </tr>
  </tbody>
</table>

<p>세 HBM 공급사 모두 2026년 생산분이 매진된 상황입니다. 문제는 2027~2028년입니다. 이때 가동될 한국 팹이 충분하지 않으면 HBM4·HBM5 수요 증가분을 마이크론에 내줄 수 있습니다. 파운드리 쪽에서는 TSMC가 애리조나에만 1,650억 달러를 투입하며 CoWoS 패키징 용량을 2026년까지 매진시켰고, 인텔은 파운드리 구조조정으로 HBM 경쟁에서 사실상 이탈했습니다.</p>

<h2 id="전력이-진짜-병목-데이터센터의-입지-경쟁">전력이 진짜 병목: 데이터센터의 입지 경쟁</h2>

<p>2026년 1분기부터 AI 인프라의 핵심 병목은 칩이 아니라 전력으로 이동했습니다. 미국에서는 약 7GW 규모의 데이터센터 프로젝트가 전력 부족으로 지연되거나 취소됐습니다. 역설적으로 이는 전력과 토지를 확보할 수 있는 한국 서남권과 중동의 입지 매력을 높입니다.</p>

<p>SK가 2035년까지 1,000조 원을 들여 전국 15GW급 AI 데이터센터를 짓겠다는 것은 단순한 부동산 투자가 아닙니다. 메모리 제조사가 자신이 HBM을 납품하는 데이터센터를 직접 구축하면, 수요를 스스로 창출하고 NVIDIA와 하이퍼스케일러가 사양을 결정하는 공급망 구조에서 협상력을 회복할 수 있습니다. 삼성도 해남 AI 데이터센터, 세종 AI 서버 기판 공장 등으로 같은 수직통합 방향을 향하고 있습니다.</p>

<h2 id="시장-반응">시장 반응</h2>

<p>발표 직후 삼성전자 주가는 등락 끝에 323,000원에 마감했고, 6월 30일에는 SK하이닉스가 삼성전자를 제치고 코스피 시총 1위를 탈환했습니다. 일부 전문가는 2000년 닷컴 버블 당시 시스코-마이크로소프트 역전과 비교하며 고점 신호를 거론했으나, 다수 애널리스트는 “실적과 매크로를 더 지켜봐야 한다”며 단순 과열 판단을 유보했습니다. 삼성의 2026년 영업이익 추정치(361조 원)가 SK하이닉스(262조 원)보다 높아 밸류에이션 역전이 과도하다는 시각도 있습니다.</p>

<h2 id="thakicloud-관점-하드웨어가-늘수록-소프트웨어-계층이-중요해집니다">ThakiCloud 관점: 하드웨어가 늘수록 소프트웨어 계층이 중요해집니다</h2>

<p>이 발표의 본질은 한국이 AI 인프라를 국가 차원에서 수직통합한다는 것이며, 이는 ThakiCloud의 ai-platform 사업과 직접 맞닿습니다.</p>

<p>국내 AI 데이터센터가 15GW 규모로 확장되면 그 위에서 모델을 학습하고 서빙할 멀티테넌트 인프라 수요가 함께 커집니다. ThakiCloud는 Kubernetes와 Kueue 기반 GPU 스케줄링, vLLM 서빙으로 바로 이 계층을 겨냥합니다. 팹과 데이터센터가 하드웨어를 공급하면, 그 위에서 여러 고객의 워크로드를 안전하게 격리하며 굴리는 제어 평면이 필요해집니다.</p>

<p>수요의 성격도 우리에게 유리합니다. 국가 기간산업과 공공 영역은 외부 클라우드가 아니라 자체 데이터센터 안에서 모델을 운용해야 하는 경우가 많습니다. 보안 요구가 까다로운 환경일수록 그렇습니다. ThakiCloud의 self-hosting, 멀티테넌트 격리, 비용효율 서빙은 이 소버린 AI 수요에 정확히 부합합니다.</p>

<p>그리고 가장 중요한 변화가 있습니다. HBM과 고성능 GPU가 늘어날수록 경쟁의 축은 “얼마나 많이 샀는가”에서 “얼마나 효율적으로 굴리는가”로 옮겨갑니다. 값비싼 가속기를 놀리지 않게 하는 GPU 라이프사이클 관리와 큐잉이 결국 비용을 좌우합니다. 4,755조 원이 만들어낼 하드웨어를 효율적으로 굴리는 소프트웨어 계층, 바로 그곳에 ThakiCloud가 제공하는 가치가 있습니다.</p>

<h2 id="한계와-반론-낙관만-하기엔-이릅니다">한계와 반론: 낙관만 하기엔 이릅니다</h2>

<p>이 발표를 무조건 호재로만 읽는 것은 위험합니다. 반대 방향의 근거를 정직하게 짚겠습니다.</p>

<p>먼저 4,755조 원은 10년 누적 “계획”이며 연간 집행이 검증된 숫자가 아닙니다. 정부 행사라는 특성상 상향 편향이 있을 수 있고, 과거 2024년에 발표된 용인 622조 클러스터도 일정 지연을 겪었습니다. 발표와 집행 사이에는 늘 간극이 있습니다.</p>

<p>다음으로 HBM 슈퍼사이클이 꺾이면 오늘의 증설은 내일의 공급과잉이 됩니다. 메모리는 역사적으로 사이클이 가파른 산업입니다. AI 캐펙스가 일부 분석대로 과투자라면, 2027~2028년 가동될 팹이 하필 수요 둔화기와 겹칠 수 있습니다.</p>

<p>전력·용수 인프라가 제때 공급되지 않으면 800조 원을 들인 팹도 가동이 미뤄집니다. 글로벌 데이터센터 지연의 주원인이 전력인 만큼 이는 추상적 우려가 아니라 실질적 리스크입니다.</p>

<p>마지막으로 시총 역전을 두고 밸류에이션이 실적을 앞서간다는 경고가 나옵니다. 발표의 규모가 곧 실적을 보장하지는 않습니다.</p>

<h2 id="정리">정리</h2>

<p>2026년 6월 29일 발표의 골격은 명확합니다. 삼성과 SK가 10년간 4,755조 원을 국내에 투자하며, 그 중심에는 서남권 800조 메모리 팹과 SK의 15GW AI 데이터센터가 있습니다. 이 모든 것을 끌어가는 동력은 HBM 슈퍼사이클이고, 성패는 전력·용수 인프라의 속도에 달려 있습니다.</p>

<p>한국이 AI 하드웨어를 국가 규모로 짓는 동안, 그 하드웨어를 효율적으로 굴리는 소프트웨어 계층의 가치는 함께 커집니다. ThakiCloud는 바로 그 지점에서 K8s·Kueue 기반 서빙과 소버린 인프라로 자리를 잡아가고 있습니다.</p>

<h2 id="출처">출처</h2>

<ul>
  <li>파이낸셜뉴스, 서남권 팹 4기 삼성·SK 4,755조 (2026-06-29): <a href="https://www.fnnews.com/news/202606291837098645">https://www.fnnews.com/news/202606291837098645</a></li>
  <li>뉴시스, 삼성·SK 800조 호남 반도체 허브 (2026-06-29): <a href="https://www.newsis.com/view/NISX20260629_0003687807">https://www.newsis.com/view/NISX20260629_0003687807</a></li>
  <li>아주경제, SKT 15GW AI 데이터센터 (2026-06-29): <a href="https://www.ajunews.com/view/20260629171803513">https://www.ajunews.com/view/20260629171803513</a></li>
  <li>한국경제, 용인 600조·청주 100조 (2026-06-29): <a href="https://www.hankyung.com/article/2026062943107">https://www.hankyung.com/article/2026062943107</a></li>
  <li>CNBC, South Korea Samsung SK Hynix mega-projects (2026-06-29): <a href="https://www.cnbc.com/2026/06/29/samsung-sk-hynix-reported-1point3-reported-trillion-spending-plans.html">https://www.cnbc.com/2026/06/29/samsung-sk-hynix-reported-1point3-reported-trillion-spending-plans.html</a></li>
  <li>SK hynix, 2026 Market Outlook (HBM Supercycle): <a href="https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/">https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/</a></li>
  <li>TrendForce, Micron CapEx $20B·2026 HBM booked (2025-12-18): <a href="https://www.trendforce.com/news/2025/12/18/news-micron-hikes-capex-to-20b-with-2026-hbm-supply-fully-booked-hbm4-ramps-2q26/">https://www.trendforce.com/news/2025/12/18/news-micron-hikes-capex-to-20b-with-2026-hbm-supply-fully-booked-hbm4-ramps-2q26/</a></li>
  <li>정책브리핑, 반도체 특별법 국회 통과 (2026-01-30): <a href="https://www.korea.kr/briefing/pressReleaseView.do?newsId=156742072">https://www.korea.kr/briefing/pressReleaseView.do?newsId=156742072</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="samsung" /><category term="sk-hynix" /><category term="hbm" /><category term="ai-memory" /><category term="semiconductor" /><category term="data-center" /><category term="sovereign-ai" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[2026년 6월 29일 삼성전자와 SK하이닉스가 향후 10년간 국내에 합산 4,755조 원을 투자한다고 발표했습니다. 서남권 메모리 팹 4기(800조), SK의 15GW AI 데이터센터(1,000조)를 중심으로 발표 내용을 정리하고, HBM 슈퍼사이클과 정책 환경, 그리고 국내 AI 인프라 수요가 ThakiCloud의 K8s·Kueue 기반 서빙 플랫폼에 무엇을 의미하는지 살펴봅니다.]]></summary></entry><entry xml:lang="ar"><title type="html">عام اللحاق: حين تقترب النماذج مفتوحة الأوزان من الحدود الأمامية وتصبح اقتصاديات self-hosting هي معركة الحسم</title><link href="https://thakicloud.github.io/ar/llmops/open-weight-self-hosting-economics-2026/" rel="alternate" type="text/html" title="عام اللحاق: حين تقترب النماذج مفتوحة الأوزان من الحدود الأمامية وتصبح اقتصاديات self-hosting هي معركة الحسم" /><published>2026-06-29T00:00:00+09:00</published><updated>2026-06-29T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/open-weight-self-hosting-economics-2026</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/open-weight-self-hosting-economics-2026/"><![CDATA[<p><img src="/assets/images/open-weight-self-hosting-economics-2026-hero.png" alt="صورة تجريدية تعبر عن النماذج مفتوحة الأوزان واقتصاديات self-hosting" /></p>

<p>يمكن تلخيص مشهد النماذج مفتوحة الأوزان في منتصف 2026 بجملة واحدة: <strong>الفجوة ضاقت، ولم تتسع من جديد.</strong> يرى التقرير الذي أصدره OpenRouter في يونيو أن النماذج مفتوحة الأوزان باتت تحافظ على فجوة قدرة لا تتجاوز ثلاثة إلى ستة أشهر عن مختبرات الحدود الأمامية، دون أن تتسع. إذا صح هذا الافتراض، فالقرار الحقيقي الذي يجب على المؤسسات اتخاذه لم يعد “أي النماذج أذكى؟”، بل أصبح “أين نشغّل هذا الحِمل، وبأي تكلفة؟”</p>

<p>نحن في ThakiCloud نتعامل مع خدمة النماذج عبر منصة AI/ML SaaS المبنية على K8s. لذا نقرأ هذا التحول من زاوية <strong>اقتصاديات self-hosting</strong> لا من قائمة النماذج. حين يرتقي مفتوح الأوزان إلى مستوى الحدود الأمامية، لا يعود self-hosting مثالية رومانسية، بل يصير مسألة حساب تكلفة. في هذا المقال نستعرض أبرز النماذج مفتوحة الأوزان في منتصف 2026 لتحديد أين تتشكل نقطة التعادل في التكلفة، وكيف تجعل K8s هذا القرار قابلا للتشغيل.</p>

<h2 id="الفجوة-لا-تتسع-مشهد-النماذج-مفتوحة-الأوزان-في-منتصف-2026">الفجوة لا تتسع: مشهد النماذج مفتوحة الأوزان في منتصف 2026</h2>

<p>نبدأ بالحقائق. النماذج الأربعة أدناه مستخلصة من مصادر مستقلة متعددة (Artificial Analysis، بطاقات نماذج Hugging Face، إعلانات المختبرات)، ولم نعتمد على مرجع معياري واحد.</p>

<table>
  <thead>
    <tr>
      <th>النموذج</th>
      <th>الحجم (إجمالي/نشط)</th>
      <th>الرخصة</th>
      <th>مؤشر AA الذكائي</th>
      <th>ملاحظات</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>DeepSeek V4 Flash</td>
      <td>284B / 13B (MoE)</td>
      <td>MIT</td>
      <td>~40</td>
      <td>SWE-bench Verified 79.0%، سياق 1M</td>
    </tr>
    <tr>
      <td>GLM-5.2 (Z AI)</td>
      <td>753B</td>
      <td>MIT</td>
      <td>51</td>
      <td>الأول بين مفتوحة الأوزان، ضمن المراتب الأربع الأولى عالميا</td>
    </tr>
    <tr>
      <td>MiniMax M3</td>
      <td>428B / 23B (MoE)</td>
      <td>رخصة مجتمعية</td>
      <td>44</td>
      <td>متعدد الوسائط أصيل، سياق 1M</td>
    </tr>
    <tr>
      <td>NVIDIA Nemotron 3 Ultra</td>
      <td>550B / 55B (MoE)</td>
      <td>OpenMDW</td>
      <td>48</td>
      <td>نموذج أمريكي مفتوح، أكثر من 300 tok/s</td>
    </tr>
  </tbody>
</table>

<p>تبرز عدة نقاط. <strong>GLM-5.2</strong> حقق 51 نقطة في مؤشر Artificial Analysis الذكائي ليتصدر قائمة النماذج مفتوحة الأوزان، ويحتل موقعا بين المراتب العليا حتى عند إدراج النماذج المغلقة. ما يلفت الانتباه أن النماذج المغلقة الأعلى مرتبة (Fable 5 وOpus 4.8 وGPT-5.5) لا تزال تتصدر القائمة. بمعنى أن القول بأن “مفتوح الأوزان تجاوز الحدود الأمامية” مبالغة لا تصح. العبارة الدقيقة هي أن <strong>الحدود الأمامية لم تستطع الفرار</strong>، أي أن المُطارِد اقترب كفاية دون أن يكون المُطارَد قد توقف.</p>

<p><strong>DeepSeek V4 Flash</strong> يُعدّ أول نموذج مفتوح الأوزان يصلح للتضمين المباشر في أنابيب عوامل البرمجة. SWE-bench Verified 79.0% يقل عن النسخة Pro من نفس العائلة بفارق 1.6 نقطة فحسب، فيما يبلغ سعره نحو 0.14 دولار إدخالا و0.28 دولار إخراجا لكل مليون رمز. <strong>MiniMax M3</strong> هو النموذج الوحيد في هذه المجموعة الذي يوفر دعما أصيلا متعدد الوسائط (صورة وفيديو)، مما يمنحه ميزة في أحمال عمل مثل أتمتة واجهة المستخدم وتحويل لقطات الشاشة إلى كود. <strong>Nemotron 3 Ultra</strong> هو النموذج الأمريكي المفتوح الذي أعلنت عنه NVIDIA في Computex 2026، ويتميز بمعدل أكثر من 300 tok/s ورخصة صديقة للمؤسسات.</p>

<p>ملاحظة ضرورية: تضمّن المصدر الأصلي لـ OpenRouter ادعاءا جيوسياسيا مفاده أن GLM-5.2 برز بسبب تعطّل بعض النماذج المغلقة جراء قيود تصدير أمريكية. غير أن تصنيفات المعايير المستقلة المتاحة للعموم في الفترة ذاتها تُظهر تلك النماذج في المراتب العليا، مما يجعل هذه العلاقة السببية غير مؤكدة. لذا نكتفي في هذا المقال بالحقائق الموثقة المتعلقة بالنماذج والأداء والتسعير، ونتجنب تفسيرات الأسباب والنتائج غير المثبتة.</p>

<h2 id="إعادة-حساب-التكلفة-ليست-سعر-الرمز-بل-التكلفة-الإجمالية-للتشغيل">إعادة حساب التكلفة: ليست سعر الرمز، بل التكلفة الإجمالية للتشغيل</h2>

<p>حين يرتقي مفتوح الأوزان إلى مستوى الحدود الأمامية، يتبدل محور نقاش التكلفة. كان السؤال سابقا: “كم من الأداء نتنازل عنه لتوفير التكلفة؟”، أما الآن فصار: <strong>“من أين نحصل على الذكاء ذاته بأقل سعر؟”</strong> وإجابة هذا السؤال لا تنبثق من جدول أسعار الرموز وحده.</p>

<p>ثمة ثلاثة أنماط تكلفة ينبغي التمييز بينها.</p>

<p>أولا، <strong>واجهة برمجة التطبيقات المغلقة</strong>. لا تكاليف تشغيلية، وإمكانية وصول فورية لأعلى أداء، لكن التكلفة المتغيرة تتناسب طرديا مع الاستخدام وتخرج البيانات إلى الخارج. هذا النمط مناسب لأحمال العمل ذات الحجم المنخفض أو غير المنتظم أو التي تستلزم الأداء الأقصى.</p>

<p>ثانيا، <strong>مفتوح الأوزان مع استضافة طرف ثالث</strong>. الأوزان متاحة للعموم لكن التشغيل يتم عبر مزود استدلال خارجي. سعر الرمز أقل بكثير من النماذج المغلقة، وهو ما تُبرزه تقارير النماذج مفتوحة الأوزان، غير أن الفوترة لا تزال قائمة على الاستخدام وحوكمة البيانات رهينة بالمزود.</p>

<p>ثالثا، <strong>مفتوح الأوزان مع self-hosting</strong>. يُنزَّل الأوزان ويُشغَّل على معدات GPU الخاصة بالمؤسسة أو على بنيتها التحتية الداخلية. يتحول هيكل التكلفة من متغير إلى <strong>ثابت (إهلاك GPU + تشغيل)</strong>. الجوهر هنا نقطة التعادل: حين يكفل معدل المعالجة المستمر قسمة التكلفة الثابتة على عدد كافٍ من الرموز، يصبح سعر الرمز الفعلي أدنى من أي خيار API. وعدم خروج البيانات خارج الحدود يُعدّ، في البيئات ذات المتطلبات التنظيمية والسيادية، شرطا أساسيا لا عاملا تكلفة.</p>

<pre><code class="language-mermaid">flowchart TD
    A["تعريف حمل العمل&lt;br/&gt;(الإنتاجية·الكمون·حساسية البيانات)"] --&gt; B{"هل هي إنتاجية عالية مستمرة؟"}
    B --&gt;|"لا (متقطع·حجم صغير)"| C["API مملوكة&lt;br/&gt;أو استضافة طرف ثالث"]
    B --&gt;|"نعم"| D{"هل هناك متطلبات سيادة البيانات أو تنظيمية؟"}
    D --&gt;|"نعم"| E["self-hosting مفتوح الأوزان&lt;br/&gt;(داخلي/مجموعة خاصة)"]
    D --&gt;|"لا"| F{"هل يتجاوز نقطة التعادل الفعلية لتكلفة الرمز؟"}
    F --&gt;|"يتجاوز"| E
    F --&gt;|"لا يتجاوز"| C
    E --&gt; G["تشغيل خدمة K8s GPU&lt;br/&gt;(الجدولة·التعدد·المراقبة)"]
    C --&gt; H["مراقبة التكاليف المتغيرة"]
</code></pre>

<p>أكثر الأخطاء شيوعا في هذا المسار القراري هو <strong>الحكم على المرحلتين الثانية والثالثة بسطر واحد من جدول أسعار الرموز</strong>. التكلفة الحقيقية لـ self-hosting ليست في الأوزان (متاحة مجانا)، بل في توفير GPU وحزمة الخدمة والجدولة والمراقبة وكوادر التشغيل. لذا فإن عبارة “مفتوح الأوزان مجاني” صحيحة إلى النصف فحسب: النموذج مجاني، <strong>أما التشغيل فليس كذلك.</strong> مدى كفاءة هذا التشغيل وثباته هو ما تدور حوله اقتصاديات self-hosting في جوهرها.</p>

<h2 id="دلالات-تطبيقية-لمنتجات-thakicloud">دلالات تطبيقية لمنتجات ThakiCloud</h2>

<p>اقتصاديات self-hosting للنماذج مفتوحة الأوزان هي بالضبط المسألة التي تعالجها ThakiCloud بمنتجين اثنين.</p>

<p><strong>منظور ai-platform (البنية التحتية والخدمة).</strong> منصة ai-platform من ThakiCloud تُشغّل خدمة النماذج على K8s. ما يُقرّب نقطة التعادل في self-hosting فعليا هو كفاءة البنية التحتية. جدولة مهام GPU المبنية على Kueue تُقلّل تعطّل المعجّلات الباهظة، ومحركات الخدمة عالية الإنتاجية كـ vLLM مع التكميم (FP8 وNVFP4) تستخرج رموزا أكثر من نفس المعدات، مما يخفض نقطة التعادل حتى في مستويات معالجة أقل. البنية متعددة المستأجرين تُتيح توزيع أحمال العمل على مجموعة GPU مشتركة، مما يوزع التكاليف الثابتة. أما نشر النماذج داخليا أو في بيئات سيادية فيُلبّي متطلبات سيادة البيانات دون عقوبة تكلفة، وهو أمر بالغ الأهمية في السياقات ذات المتطلبات التنظيمية والأمنية الصارمة. باختصار، ai-platform يُسوّق المرحلة الأخيرة من المخطط أعلاه، وهي <strong>تشغيل خدمة GPU على K8s</strong>.</p>

<p><strong>منظور Paxis (اقتصادية العوامل).</strong> الخدمة منخفضة التكلفة لا تنتهي عند ذاتها، بل تُوجد اقتصادية عوامل. حين يتاح الأداء الحدودي في البرمجة كـ DeepSeek V4 Flash بعشرات السنتات لكل مليون رمز، تصبح تكلفة الرموز في سير عمل العوامل متعددة الخطوات قابلة للاحتمال. Paxis من ThakiCloud هو مستوى تحكم Agent-Native Cloud يعمل فوق ai-platform، يختار من أكثر من 960 مهارة عبر BM25 وينفذها في بيئات معزولة، مع تمرير كل إجراء عبر بوابات سياسية وسجلات تدقيق. حين تخفض الخدمة الرخيصة من ai-platform تكلفة استدعاء العوامل، يتسع هامش تصميم تنسيق العوامل متعددة المراحل في نفس الميزانية. بمعنى أن اقتصاديات self-hosting لا تنحصر في توفير البنية التحتية، بل تُوسّع هامش التصميم لطبقة العوامل التي تعمل فوقها مباشرة.</p>

<h2 id="القيود-والاعتراضات-المضادة">القيود والاعتراضات المضادة</h2>

<p>دعونا نُفنّد تفاؤل هذا المقال من الداخل.</p>

<p>أولا، self-hosting ليس دائما الأرخص. نقطة التعادل تفترض معدل معالجة مرتفعا ومستمرا. إن كان حجم المرور منخفضا أو غير منتظم، لن تُستهلك التكاليف الثابتة وتبقى API الخيار الأوفر. إغفال إهلاك GPU والطاقة والتبريد وكوادر التشغيل يجعل self-hosting يبدو أرخص مما هو عليه.</p>

<p>ثانيا، أرقام المعايير لها فترات ثقة. مؤشر AA الذكائي ودرجات SWE-bench المستشهد بها هي قياسات في بيئات تقييم محددة، ولا تطابق بالضرورة أداء أحمال العمل الحقيقية. بعض المعايير لنماذج حديثة العهد قد لا تتوفر إعادة إنتاج مستقلة كافية في المراحل الأولى من الإطلاق، مما يستوجب التقييم المباشر على أحمال عمل المؤسسة قبل الاعتماد.</p>

<p>ثالثا، الرخصة والمصدر يستحقان التدقيق. “مفتوح الأوزان” ليس مصطلحا متجانسا. MIT (DeepSeek وGLM) والرخصة المجتمعية (MiniMax) وOpenMDW (Nemotron) تختلف في حقوق إعادة التوزيع التجاري والضبط الدقيق. كذلك قد يُحدّد بلد منشأ النموذج وسياسات بياناته مدى إمكانية اعتماده في ظل بيئات تنظيمية بعينها.</p>

<p>رابعا، مشهد النماذج يتقادم بسرعة. الجدول أعلاه لقطة من منتصف 2026 وقابل للتغيير خلال أشهر. لذا فإن الجوهر ليس في أسماء النماذج، بل في المبدأ الثابت: <strong>ما إن تبلغ النماذج مفتوحة الأوزان مستوى الحدود الأمامية، كلما كانت متطلبات التكلفة والسيادة لحِمل العمل أكبر، كلما صارت نقطة التعادل في self-hosting أكثر ملاءمة.</strong> النماذج تتغير، لكن هذا الاتجاه لن يتغير.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/">The Open Weight Models that Matter: June 2026 · OpenRouter Blog</a></li>
  <li><a href="https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index">GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index</a></li>
  <li><a href="https://artificialanalysis.ai/articles/nvidia-nemotron-3-ultra-released">NVIDIA Nemotron 3 Ultra released · Artificial Analysis</a></li>
  <li><a href="https://openrouter.ai/deepseek/deepseek-v4-flash">DeepSeek V4 Flash · OpenRouter</a></li>
  <li><a href="https://simonwillison.net/2026/jun/17/glm-52/">GLM-5.2 is probably the most powerful text-only open weights LLM · Simon Willison</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="open-weight" /><category term="self-hosting" /><category term="llm-serving" /><category term="cost-efficiency" /><category term="on-premise" /><category term="vllm" /><summary type="html"><![CDATA[في منتصف عام 2026، باتت النماذج مفتوحة الأوزان على بُعد ثلاثة إلى ستة أشهر من الحدود الأمامية، والفجوة لا تتسع. القرار الحقيقي الآن لم يعد عن أداء النموذج، بل عن مكان التشغيل وطريقته، أي اقتصاديات self-hosting. نستعرض هذا التحول من منظور منصة K8s لدى ThakiCloud.]]></summary></entry><entry xml:lang="en"><title type="html">The Year Open-Weight Models Caught the Frontier: Why Self-Hosting Economics Now Decide the Outcome</title><link href="https://thakicloud.github.io/en/llmops/open-weight-self-hosting-economics-2026/" rel="alternate" type="text/html" title="The Year Open-Weight Models Caught the Frontier: Why Self-Hosting Economics Now Decide the Outcome" /><published>2026-06-29T00:00:00+09:00</published><updated>2026-06-29T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/llmops/open-weight-self-hosting-economics-2026</id><content type="html" xml:base="https://thakicloud.github.io/en/llmops/open-weight-self-hosting-economics-2026/"><![CDATA[<p><img src="/assets/images/open-weight-self-hosting-economics-2026-hero.png" alt="Abstract visual representing open-weight models and self-hosting economics" /></p>

<p>The mid-2026 open-weight landscape can be summarized in a single sentence: <strong>the gap has narrowed, and it is no longer widening.</strong> OpenRouter’s June roundup finds that open-weight models maintain roughly a 3-to-6-month capability lag behind frontier labs, yet that interval is not growing. If that assessment holds, the real organizational decision is no longer “which model is the most capable?” It is “where should this workload run, and at what cost?”</p>

<p>At ThakiCloud we operate model serving on top of a Kubernetes-based AI/ML SaaS platform, so we read this shift through the lens of <strong>self-hosting economics</strong> rather than through a model catalog. Once open-weight quality reaches frontier-grade for a given task, self-hosting stops being an ideological choice and becomes a cost calculation. This post uses the leading open-weight models of mid-2026 to examine where the break-even point forms, and how to make that decision operationally viable on Kubernetes.</p>

<h2 id="the-gap-is-no-longer-widening-the-mid-2026-open-weight-landscape">The Gap Is No Longer Widening: The Mid-2026 Open-Weight Landscape</h2>

<p>The facts first. The four models below are cross-validated across multiple independent sources, including Artificial Analysis, Hugging Face model cards, and each lab’s own announcements. We did not rely on a single benchmark.</p>

<table>
  <thead>
    <tr>
      <th>Model</th>
      <th>Size (total / active)</th>
      <th>License</th>
      <th>AA Intelligence Index</th>
      <th>Notes</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>DeepSeek V4 Flash</td>
      <td>284B / 13B (MoE)</td>
      <td>MIT</td>
      <td>~40</td>
      <td>SWE-bench Verified 79.0%, 1M context</td>
    </tr>
    <tr>
      <td>GLM-5.2 (Z AI)</td>
      <td>753B</td>
      <td>MIT</td>
      <td>51</td>
      <td>Top open-weight, top-4 overall</td>
    </tr>
    <tr>
      <td>MiniMax M3</td>
      <td>428B / 23B (MoE)</td>
      <td>Community license</td>
      <td>44</td>
      <td>Native multimodal, 1M context</td>
    </tr>
    <tr>
      <td>NVIDIA Nemotron 3 Ultra</td>
      <td>550B / 55B (MoE)</td>
      <td>OpenMDW</td>
      <td>48</td>
      <td>US-built open model, 300+ tok/s</td>
    </tr>
  </tbody>
</table>

<p>Several observations stand out. <strong>GLM-5.2</strong> scores 51 on the Artificial Analysis Intelligence Index, placing it first among open-weight models and in the top tier overall including closed models. Notably, the top closed models, Fable 5, Opus 4.8, and GPT-5.5, still occupy the very top positions in the same ranking. This means the claim that “open-weight has surpassed the frontier” is an overstatement. The more precise formulation is that <strong>the frontier has stopped pulling away</strong>. The gap closed not because the leader stopped, but because the challengers got close enough.</p>

<p><strong>DeepSeek V4 Flash</strong> is regarded as the first open-weight model ready to drop directly into coding-agent pipelines. Its SWE-bench Verified score of 79.0% sits just 1.6 points below the Pro variant in the same family, while pricing comes in at approximately $0.14 per million input tokens and $0.28 per million output tokens. <strong>MiniMax M3</strong> is the only model in this group with native multimodal capability (images and video), giving it an edge on workloads such as UI automation and screenshot-to-code. <strong>Nemotron 3 Ultra</strong> is NVIDIA’s US-built open model unveiled at Computex 2026, offering throughput exceeding 300 tok/s alongside an enterprise-friendly license.</p>

<p>One caveat is worth flagging. The OpenRouter source piece includes geopolitical commentary suggesting that US export controls deactivated certain closed models, creating an opening that helped GLM-5.2 rise. However, public benchmark rankings at the same point in time still show those closed models at the top. The causal claim has not been independently verified. This post therefore cites only the verifiable model, performance, and pricing facts, and does not engage with speculative causal interpretations.</p>

<h2 id="recalculating-cost-total-operating-cost-not-cost-per-token">Recalculating Cost: Total Operating Cost, Not Cost per Token</h2>

<p>When open-weight quality reaches frontier grade, the framing of cost conversations changes. The old question was “how much performance do we sacrifice in exchange for lower spend?” The new question is <strong>“where is the cheapest place to obtain the same intelligence?”</strong> And that question cannot be answered by reading a per-token pricing table alone.</p>

<p>Three cost modes need to be distinguished.</p>

<p>First, <strong>proprietary APIs</strong>. These carry no operational burden and provide immediate access to top-tier performance, but the cost is variable and scales linearly with usage, and data leaves your boundary. This model suits low-volume or bursty workloads, or cases where state-of-the-art performance is a hard requirement.</p>

<p>Second, <strong>open-weight models with third-party hosting</strong>. The weights are public, but inference runs on an external provider’s infrastructure. Per-token prices are substantially lower than closed alternatives, which is the primary point the open-weight roundup emphasizes. However, billing is still usage-based and data governance depends on the provider.</p>

<p>Third, <strong>open-weight models with self-hosting</strong>. You pull the weights and serve them on your own (or on-premises) GPUs. The cost structure shifts from variable to <strong>fixed (GPU amortization plus operations)</strong>. The critical variable is the break-even point. Once sustained throughput is high enough, dividing the fixed cost by the token volume yields an effective per-token cost that undercuts any API price point. For organizations with regulatory or data-sovereignty requirements, keeping data inside the boundary is not a cost trade-off but a precondition.</p>

<pre><code class="language-mermaid">flowchart TD
    A["Workload definition&lt;br/&gt;(throughput·latency·data sensitivity)"] --&gt; B{"Is sustained high throughput needed?"}
    B --&gt;|"No (spiky·low volume)"| C["Proprietary API&lt;br/&gt;or third-party hosting"]
    B --&gt;|"Yes"| D{"Are there data sovereignty or regulatory requirements?"}
    D --&gt;|"Yes"| E["Open-weight self-hosting&lt;br/&gt;(on-premises/private cluster)"]
    D --&gt;|"No"| F{"Does effective per-token cost break even?"}
    F --&gt;|"Yes"| E
    F --&gt;|"No"| C
    E --&gt; G["K8s GPU serving operations&lt;br/&gt;(scheduling·multi-tenancy·observability)"]
    C --&gt; H["Variable cost monitoring"]
</code></pre>

<p>The most common mistake in this decision flow is <strong>collapsing stages two and three into a single line from a pricing table</strong>. The real cost of self-hosting is not the weight download fee (which is zero for open-weight models). It is GPU procurement, the serving stack, scheduling, observability, and operational staff. “Open-weight is free” is therefore only half true. The model is free, but <strong>the operations are not.</strong> How cheaply and reliably you can run those operations is the actual substance of self-hosting economics.</p>

<h2 id="product-implications-for-thakicloud">Product Implications for ThakiCloud</h2>

<p>The self-hosting economics of open-weight models are precisely the problem ThakiCloud addresses with two products.</p>

<p><strong>Through the ai-platform lens (infrastructure and serving).</strong> ThakiCloud’s ai-platform manages model serving on Kubernetes. What actually lowers the break-even threshold in practice is infrastructure efficiency. Kueue-based GPU job scheduling reduces idle time on expensive accelerators, while high-throughput serving engines such as vLLM combined with quantization techniques (FP8, NVFP4, and similar) extract more tokens per second from the same hardware. When effective per-token cost drops, the break-even in the decision flow above becomes achievable at lower sustained throughput. A multi-tenant architecture lets multiple workloads share a GPU pool, spreading fixed costs across teams. On-premises and sovereign deployment satisfies data-sovereignty requirements without a cost penalty, which matters particularly in environments with strict domestic compliance or security mandates. In short, ai-platform productizes the rightmost stage of the diagram above: <strong>Kubernetes GPU serving operations</strong>.</p>

<p><strong>Through the Paxis lens (agent economics).</strong> Low-cost serving does not stop at infrastructure savings; it unlocks agent economics. When frontier-grade coding performance becomes available for a few cents per million tokens (as with DeepSeek V4 Flash), the token consumption of multi-step agentic workflows finally becomes affordable. ThakiCloud’s Paxis is an Agent-Native Cloud control plane running on top of ai-platform. It selects from over 960 skills using BM25 retrieval, executes them in isolated sandboxes, and routes every action through policy gates and audit logs. Cheaper serving (ai-platform) lowers the per-call cost of agent invocations, which means the same budget can support deeper DAG-style multi-agent orchestration. Self-hosting economics, in other words, do not just reduce infrastructure spend; they directly expand the design space available to the agent layer running on top.</p>

<h2 id="limitations-and-counterarguments">Limitations and Counterarguments</h2>

<p>The following pushes back against the optimism in this post.</p>

<p>First, self-hosting is not always cheaper. The break-even analysis assumes sustained, high throughput. For low-volume or irregular traffic, fixed costs cannot be recovered and the API is the cheaper option. Any comparison that omits GPU amortization, power, cooling, and staff makes self-hosting look less expensive than it is.</p>

<p>Second, benchmark figures carry uncertainty intervals. The Artificial Analysis Intelligence Index scores and SWE-bench results cited here are measurements from specific evaluation environments and do not map exactly to real-world workload performance. Independent replication of newly released model benchmarks may be limited in the early weeks after an announcement, so direct evaluation on your own workloads before deployment is necessary.</p>

<p>Third, licenses and provenance must be verified. “Open-weight” is not a uniform category. MIT (DeepSeek, GLM), community license (MiniMax), and OpenMDW (Nemotron) carry different rights for commercial redistribution and fine-tuning. The country of origin of a model and its data policy can also determine whether adoption is permissible under a given regulatory environment.</p>

<p>Fourth, the model landscape ages quickly. The table above is a snapshot from mid-2026 and will be outdated within months. The underlying principle, however, does not change with the names. <strong>Now that open-weight models have reached frontier-grade quality, the self-hosting break-even becomes increasingly favorable for workloads with high cost pressure or strong data-sovereignty requirements.</strong> Models change; this direction does not.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li><a href="https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/">The Open Weight Models that Matter: June 2026 - OpenRouter Blog</a></li>
  <li><a href="https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index">GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index</a></li>
  <li><a href="https://artificialanalysis.ai/articles/nvidia-nemotron-3-ultra-released">NVIDIA Nemotron 3 Ultra released - Artificial Analysis</a></li>
  <li><a href="https://openrouter.ai/deepseek/deepseek-v4-flash">DeepSeek V4 Flash - OpenRouter</a></li>
  <li><a href="https://simonwillison.net/2026/jun/17/glm-52/">GLM-5.2 is probably the most powerful text-only open weights LLM - Simon Willison</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="open-weight" /><category term="self-hosting" /><category term="llm-serving" /><category term="cost-efficiency" /><category term="on-premise" /><category term="vllm" /><summary type="html"><![CDATA[By mid-2026, open-weight models had closed to within a 3-to-6-month capability gap of frontier labs, and that gap is no longer widening. The real decision has shifted away from model performance and toward where and how to run workloads, in other words, self-hosting economics. This post examines that shift from ThakiCloud's Kubernetes serving perspective.]]></summary></entry><entry xml:lang="ko"><title type="html">오픈웨이트가 프런티어를 따라잡은 해: 승부처는 self-hosting 경제학</title><link href="https://thakicloud.github.io/ko/llmops/open-weight-self-hosting-economics-2026/" rel="alternate" type="text/html" title="오픈웨이트가 프런티어를 따라잡은 해: 승부처는 self-hosting 경제학" /><published>2026-06-29T00:00:00+09:00</published><updated>2026-06-29T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/llmops/open-weight-self-hosting-economics-2026</id><content type="html" xml:base="https://thakicloud.github.io/ko/llmops/open-weight-self-hosting-economics-2026/"><![CDATA[<p><img src="/assets/images/open-weight-self-hosting-economics-2026-hero.png" alt="오픈웨이트 모델과 self-hosting 경제학을 표현한 추상 비주얼" /></p>

<p>2026년 중반의 오픈웨이트 모델 지형을 한 문장으로 요약하면 이렇습니다. <strong>격차는 좁혀졌고, 더 벌어지지 않고 있습니다.</strong> OpenRouter가 6월에 정리한 라운드업은 오픈웨이트 모델이 프런티어 랩과 3~6개월 정도의 능력 격차를 유지하면서도 그 간격이 확대되지 않는다고 봅니다. 이 명제가 맞다면, 조직이 내려야 할 진짜 결정은 더 이상 “어떤 모델이 가장 똑똑한가”가 아닙니다. “이 워크로드를 어디서, 어떤 비용으로 돌릴 것인가”입니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙을 다룹니다. 그래서 이 변화를 모델 카탈로그가 아니라 <strong>self-hosting 경제학</strong>의 관점에서 읽습니다. 오픈웨이트가 프런티어급으로 올라온 순간, self-hosting은 이상주의가 아니라 비용 계산의 문제가 됩니다. 이 글에서는 2026년 중반의 대표 오픈웨이트 모델을 근거로 그 손익분기가 어디쯤 형성되는지, 그리고 그 결정을 K8s 위에서 어떻게 운영 가능하게 만드는지를 짚어보겠습니다.</p>

<h2 id="격차는-더-벌어지지-않는다-2026년-중반-오픈웨이트-지형">격차는 더 벌어지지 않는다: 2026년 중반 오픈웨이트 지형</h2>

<p>먼저 사실관계입니다. 아래 네 모델은 여러 독립 출처(Artificial Analysis, Hugging Face 모델 카드, 각 랩의 발표)로 교차검증한 수치이며, 단일 벤치 한 곳에만 의존하지 않았습니다.</p>

<table>
  <thead>
    <tr>
      <th>모델</th>
      <th>규모(총/활성)</th>
      <th>라이선스</th>
      <th>AA 지능지수</th>
      <th>비고</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>DeepSeek V4 Flash</td>
      <td>284B / 13B (MoE)</td>
      <td>MIT</td>
      <td>~40</td>
      <td>SWE-bench Verified 79.0%, 1M 컨텍스트</td>
    </tr>
    <tr>
      <td>GLM-5.2 (Z AI)</td>
      <td>753B</td>
      <td>MIT</td>
      <td>51</td>
      <td>오픈웨이트 1위, 전체 4위권</td>
    </tr>
    <tr>
      <td>MiniMax M3</td>
      <td>428B / 23B (MoE)</td>
      <td>커뮤니티 라이선스</td>
      <td>44</td>
      <td>네이티브 멀티모달, 1M 컨텍스트</td>
    </tr>
    <tr>
      <td>NVIDIA Nemotron 3 Ultra</td>
      <td>550B / 55B (MoE)</td>
      <td>OpenMDW</td>
      <td>48</td>
      <td>미국産 오픈모델, 300+ tok/s</td>
    </tr>
  </tbody>
</table>

<p>몇 가지가 눈에 띕니다. <strong>GLM-5.2</strong>는 Artificial Analysis 지능지수에서 51점으로 오픈웨이트 1위에 올랐고, 폐쇄형까지 포함해도 상위권에 자리합니다. 흥미로운 점은 같은 랭킹에서 상위 폐쇄형 모델(Fable 5, Opus 4.8, GPT-5.5)이 여전히 정상에 있다는 사실입니다. 즉 “오픈웨이트가 프런티어를 추월했다”는 과장은 정확하지 않습니다. 정확한 표현은 <strong>“프런티어가 도망가지 못하고 있다”</strong>입니다. 따라잡힌 쪽이 멈춘 게 아니라, 추격하는 쪽이 충분히 가까워졌다는 뜻입니다.</p>

<p><strong>DeepSeek V4 Flash</strong>는 코딩 에이전트 파이프라인에 곧바로 투입할 만한 첫 오픈웨이트로 평가받습니다. SWE-bench Verified 79.0%는 같은 계열 Pro 변형과 1.6점 차이에 불과하면서, 가격은 백만 토큰당 입력 $0.14 / 출력 $0.28 수준입니다. <strong>MiniMax M3</strong>는 이 묶음에서 유일하게 네이티브 멀티모달(이미지·비디오)을 제공해 UI 자동화나 스크린샷-투-코드 같은 워크로드에 강점이 있습니다. <strong>Nemotron 3 Ultra</strong>는 NVIDIA가 Computex 2026에서 공개한 미국産 오픈모델로, 300 tok/s를 넘는 처리량과 엔터프라이즈 친화적 라이선스를 내세웁니다.</p>

<p>여기서 한 가지 단서를 답니다. OpenRouter 원문에는 “미국 수출통제로 특정 폐쇄형 모델이 비활성화되어 그 빈자리에서 GLM-5.2가 부상했다”는 지정학적 서술이 포함되어 있습니다. 그러나 같은 시점의 공개 벤치마크 랭킹에는 해당 폐쇄형 모델들이 여전히 정상에 올라 있어, 이 인과 주장은 교차검증되지 않습니다. 따라서 이 글에서는 검증된 모델·성능·가격 사실만 인용하고, 추측성 인과 해석은 다루지 않습니다.</p>

<h2 id="비용의-재계산-토큰당-단가가-아니라-운영-총비용">비용의 재계산: 토큰당 단가가 아니라 운영 총비용</h2>

<p>오픈웨이트가 프런티어급으로 올라오면 비용 논의의 축이 바뀝니다. 과거에는 “성능을 어디까지 포기하고 비용을 아낄 것인가”였다면, 지금은 <strong>“같은 지능을 가장 싸게 어디서 얻을 것인가”</strong>입니다. 그리고 이 질문의 답은 토큰당 단가표만으로는 나오지 않습니다.</p>

<p>세 가지 비용 모드를 구분해야 합니다.</p>

<p>첫째, <strong>프로프라이어터리 API</strong>입니다. 운영 부담이 없고 즉시 최고 성능에 접근하지만, 사용량에 정비례하는 가변비용이며 데이터가 외부로 나갑니다. 트래픽이 적거나 스파이크성이거나, 최상위 성능이 반드시 필요한 워크로드에 합리적입니다.</p>

<p>둘째, <strong>오픈웨이트 + 서드파티 호스팅</strong>입니다. 가중치는 공개되어 있되 실행은 외부 추론 제공자에 맡깁니다. 토큰 단가는 폐쇄형보다 크게 낮지만(오픈웨이트 라운드업이 강조하는 지점), 여전히 사용량 기반 과금이고 데이터 거버넌스는 제공자에 의존합니다.</p>

<p>셋째, <strong>오픈웨이트 + self-hosting</strong>입니다. 가중치를 직접 받아 자사(또는 온프레미스) GPU에서 서빙합니다. 비용 구조가 가변에서 <strong>고정비(GPU 상각 + 운영)</strong>로 바뀝니다. 핵심은 손익분기입니다. 일정 수준 이상의 지속적 처리량이 나오면, 고정비를 토큰 수로 나눈 실효 단가가 어떤 API 단가보다도 낮아지는 구간이 생깁니다. 데이터가 경계 밖으로 나가지 않는다는 점은 규제·주권 요구가 있는 조직에는 비용이 아니라 전제 조건입니다.</p>

<pre><code class="language-mermaid">flowchart TD
    A["워크로드 정의&lt;br/&gt;(처리량·지연·데이터 민감도)"] --&gt; B{"지속적 고처리량인가?"}
    B --&gt;|"아니오 (스파이크·소량)"| C["프로프라이어터리 API&lt;br/&gt;또는 서드파티 호스팅"]
    B --&gt;|"예"| D{"데이터 주권·규제 요구가 있나?"}
    D --&gt;|"예"| E["오픈웨이트 self-hosting&lt;br/&gt;(온프레미스/사설 클러스터)"]
    D --&gt;|"아니오"| F{"실효 토큰 단가 손익분기를 넘기나?"}
    F --&gt;|"넘김"| E
    F --&gt;|"못 넘김"| C
    E --&gt; G["K8s GPU 서빙 운영&lt;br/&gt;(스케줄링·멀티테넌시·관측)"]
    C --&gt; H["가변비용 모니터링"]
</code></pre>

<p>이 결정 흐름에서 가장 자주 빠지는 함정은 <strong>2단계와 3단계를 토큰 단가표 한 줄로 판단하는 것</strong>입니다. self-hosting의 진짜 비용은 가중치 가격(공개라 0원)이 아니라 GPU 확보·서빙 스택·스케줄링·관측·운영 인력입니다. 그래서 “오픈웨이트는 공짜”라는 문장은 절반만 맞습니다. 모델은 공짜지만 <strong>운영은 공짜가 아닙니다.</strong> 이 운영을 얼마나 싸고 안정적으로 만드느냐가 self-hosting 경제학의 본체입니다.</p>

<h2 id="thakicloud-제품-적용-시사점">ThakiCloud 제품 적용 시사점</h2>

<p>오픈웨이트의 self-hosting 경제학은 ThakiCloud가 두 제품으로 정면으로 다루는 문제입니다.</p>

<p><strong>ai-platform 렌즈 (인프라·서빙).</strong> ThakiCloud의 ai-platform은 K8s 기반에서 모델 서빙을 운영합니다. self-hosting의 손익분기를 실제로 당기는 것은 결국 인프라 효율입니다. Kueue 기반 GPU 잡 스케줄링으로 값비싼 가속기의 유휴를 줄이고, vLLM 같은 고처리량 서빙 엔진과 양자화(예: FP8, NVFP4)로 같은 하드웨어에서 더 많은 토큰을 뽑아내면, 위 결정 흐름의 “실효 토큰 단가 손익분기”가 더 낮은 처리량에서도 충족됩니다. 멀티테넌트 구조는 여러 워크로드가 GPU 풀을 공유하게 해 고정비를 분산시킵니다. 온프레미스·소버린 배포는 데이터 주권 요구를 비용 페널티 없이 충족하는 경로이며, 이는 국내 규제·보안 요건이 강한 환경에서 특히 중요합니다. 요컨대 ai-platform은 위 다이어그램의 가장 오른쪽 단계, <strong>K8s GPU 서빙 운영</strong>을 상품화한 것입니다.</p>

<p><strong>Paxis 렌즈 (에이전트 경제성).</strong> 저비용 서빙은 그 자체로 끝나지 않고 에이전트 경제성을 만듭니다. DeepSeek V4 Flash처럼 프런티어급 코딩 성능을 백만 토큰당 수십 센트에 얻을 수 있게 되면, 다단계 에이전트 워크플로의 토큰 소비가 비로소 감당 가능해집니다. ThakiCloud의 Paxis는 ai-platform 위에서 도는 Agent-Native Cloud 제어 평면으로, 960개 이상의 스킬을 BM25로 선택해 격리된 샌드박스에서 실행하고 모든 행동을 정책 게이트와 감사 로그로 통과시킵니다. 싼 서빙(ai-platform)이 에이전트 호출의 단가를 낮추면, 같은 예산으로 더 깊은 DAG 멀티에이전트 오케스트레이션이 가능해집니다. 즉 self-hosting 경제학은 인프라 절감에 그치지 않고, 그 위에서 도는 에이전트 계층의 설계 자유도를 직접 넓힙니다.</p>

<h2 id="한계-및-반론">한계 및 반론</h2>

<p>이 글의 낙관을 스스로 반박해 보겠습니다.</p>

<p>첫째, self-hosting이 항상 더 싸지는 않습니다. 손익분기는 지속적 고처리량을 전제로 합니다. 트래픽이 적거나 불규칙하면 고정비를 회수하지 못해 API가 더 쌉니다. GPU 상각·전력·냉각·운영 인력을 빠뜨린 비교는 self-hosting을 실제보다 싸게 보이게 합니다.</p>

<p>둘째, 벤치마크 수치는 신뢰 구간을 가집니다. 여기 인용한 AA 지능지수나 SWE-bench 점수는 특정 평가 환경의 측정값이며, 실제 워크로드 성능과 정확히 일치하지 않습니다. 일부 신규 모델의 벤치는 발표 초기에 독립 재현이 충분치 않을 수 있어, 도입 전 자사 워크로드로 직접 평가하는 절차가 필요합니다.</p>

<p>셋째, 라이선스와 출처를 확인해야 합니다. “오픈웨이트”는 동질적이지 않습니다. MIT(DeepSeek, GLM)와 커뮤니티 라이선스(MiniMax), OpenMDW(Nemotron)는 상업적 재배포·파인튜닝 권리가 다릅니다. 모델 출처 국가와 데이터 정책도 규제 환경에 따라 도입 가능 여부를 가릅니다.</p>

<p>넷째, 모델 지형은 빠르게 늙습니다. 위 표는 2026년 중반의 스냅샷이며 몇 달이면 갱신됩니다. 그래서 핵심은 특정 모델 이름이 아니라 변하지 않는 원리입니다. <strong>오픈웨이트가 프런티어급에 도달한 이상, 비용·주권 요구가 큰 워크로드일수록 self-hosting의 손익분기는 계속 유리해집니다.</strong> 모델은 바뀌어도 이 방향은 바뀌지 않습니다.</p>

<h2 id="출처">출처</h2>

<ul>
  <li><a href="https://openrouter.ai/blog/insights/the-open-weight-models-that-matter-june-2026/">The Open Weight Models that Matter: June 2026 · OpenRouter Blog</a></li>
  <li><a href="https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index">GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index</a></li>
  <li><a href="https://artificialanalysis.ai/articles/nvidia-nemotron-3-ultra-released">NVIDIA Nemotron 3 Ultra released · Artificial Analysis</a></li>
  <li><a href="https://openrouter.ai/deepseek/deepseek-v4-flash">DeepSeek V4 Flash · OpenRouter</a></li>
  <li><a href="https://simonwillison.net/2026/jun/17/glm-52/">GLM-5.2 is probably the most powerful text-only open weights LLM · Simon Willison</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="open-weight" /><category term="self-hosting" /><category term="llm-serving" /><category term="cost-efficiency" /><category term="on-premise" /><category term="vllm" /><summary type="html"><![CDATA[2026년 중반 오픈웨이트 모델은 프런티어와 3~6개월 격차로 좁혀졌고, 그 격차는 더 벌어지지 않고 있습니다. 이제 진짜 의사결정은 모델 성능이 아니라 어디서 어떻게 돌릴 것인가, 즉 self-hosting 경제학으로 옮겨갑니다. ThakiCloud의 K8s 서빙 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ar"><title type="html">تشغيل GLM-5.2 469B بتقنية NVFP4 على عقدة واحدة: تحليل معمّق لوصفة التقديم عبر vLLM</title><link href="https://thakicloud.github.io/ar/llmops/glm-5.2-nvfp4-vllm-serving/" rel="alternate" type="text/html" title="تشغيل GLM-5.2 469B بتقنية NVFP4 على عقدة واحدة: تحليل معمّق لوصفة التقديم عبر vLLM" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/glm-5.2-nvfp4-vllm-serving</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/glm-5.2-nvfp4-vllm-serving/"><![CDATA[<p><img src="/assets/images/glm-5.2-nvfp4-vllm-hero.png" alt="صورة تجريدية لشبكة حوسبة ضخمة يُضغط فيها إلى كتل مضيئة صغيرة قبل تحميلها في رف خوادم" /></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>تقديم نموذج MoE بحجم 469B على بنية تحتية خاصة كان يعني، حتى وقت قريب، امتلاك مجموعة GPU موزعة على عقد متعددة. لكن <a href="https://recipes.vllm.ai/zai-org/GLM-5.2">مشروع vLLM</a> ونقطة التفتيش <a href="https://huggingface.co/nvidia/GLM-5.2-NVFP4">GLM-5.2-NVFP4</a> التي أصدرتها NVIDIA يغيّران هذه المعادلة تماماً: يكفي الآن تحميل نموذج 469B على ثماني بطاقات Blackwell في عقدة واحدة وتقديمه مباشرةً عبر vLLM.</p>

<p>تحلّل هذه المقالة تلك الوصفة. أما خلفية تنسيق NVFP4 نفسه فقد تناولناها في مقالة سابقة بعنوان <a href="https://thakicloud.github.io/ko/llmops/nvfp4-blackwell-llm-serving-quantization/">تقليص تكاليف تقديم النماذج اللغوية الكبيرة إلى النصف على Blackwell GPU باستخدام NVFP4</a>، لذا نركّز هنا على سؤال محدد: كيف تُشغّل نموذجاً حدودياً بعينه فعلياً؟ نستعرض بنية التكميم والأمر الرسمي لـ vLLM وحسابات حجم الذاكرة المشتقة من الأرقام المعلنة، ثم نستخلص ما يمكن تطبيقه في سياق تشغيل ThakiCloud ai-platform.</p>

<p>نوضّح منذ البداية: لا تشمل هذه المقالة تجارب مباشرة على أجهزة Blackwell فعلية؛ إذ لم تكن هذه الأجهزة متاحة خلال هذه الجلسة، فلم يُنفَّذ تقديم النموذج بالفعل. بدلاً من ذلك، اعتمدنا على الأرقام الموثّقة من بطاقة النموذج الرسمية وأجرينا حسابات حجم الذاكرة بصورة حتمية. لم نخترع أي أرقام معيارية.</p>

<h2 id="ما-هو-glm-52-nvfp4">ما هو GLM-5.2-NVFP4</h2>

<p>GLM-5.2-NVFP4 هو نقطة تفتيش لنموذج GLM-5.2 بعد تكميم أوزانه وتنشيطاته بنوع البيانات NVFP4، ليصبح جاهزاً للاستدلال المباشر عبر vLLM وSGLang. النقطة الجوهرية هنا أن البنية تعتمد <strong>دقة مختلطة</strong> لا “أربعة بتات لكل شيء”.</p>

<p>في منهجية إعادة التكميم الخاصة بـ NVIDIA modelopt، تنزل إلى NVFP4 الطبقات الخطية الخاصة بخبراء MoE فحسب، بينما تبقى الخبراء المشتركون والانتباه والتضمينات والطبقات الكثيفة الأولية على FP8 أو BF16. أما ذاكرة التخزين المؤقت للمفتاح-القيمة (KV cache) فتستخدم FP8. الهدف هو الحفاظ على الدقة في المواضع الحساسة مع ضغط قوي على خبراء MoE الذين يمثّلون الجزء الأكبر من المعاملات.</p>

<p>يمكن تصوّر منظومة التقديم الكاملة على النحو التالي:</p>

<pre><code class="language-mermaid">flowchart TB
    A["GLM-5.2 469B MoE&lt;br/&gt;(الأوزان الأصلية)"] --&gt; B["إعادة تكميم NVIDIA modelopt&lt;br/&gt;خبراء MoE → NVFP4&lt;br/&gt;الاهتمام·التضمين·dense → FP8/BF16"]
    B --&gt; C["نقطة تفتيش GLM-5.2-NVFP4&lt;br/&gt;~465 GB · ذاكرة KV بـ FP8"]
    C --&gt; D["خدمة vLLM&lt;br/&gt;كشف تلقائي للتكميم (لا يلزم أعلام)&lt;br/&gt;TP=8 · توازي خبراتي"]
    D --&gt; E["عقدة Blackwell واحدة&lt;br/&gt;8× RTX PRO 6000 (96 GB)"]
    E -.سياق طويل·دفعة.-&gt; D
</code></pre>

<p>علاوةً على ذلك، يتداول المجتمع نسخة معدّلة باسم <code class="language-plaintext highlighter-rouge">GLM-5.2-NVFP4-REAP-469B</code>، تستهدف سياقات تتجاوز 250K رمز باستخدام DeepSeek Sparse Attention مع فك التشفير التخميني عبر MTP. وقد نُشرت تكوينات متعددة، من بينها نسخة تعمل على 4× RTX PRO 6000 (SM120) وأخرى على 3× DGX Spark بالتوازي الأنبوبي.</p>

<h2 id="التثبيت-والتكامل">التثبيت والتكامل</h2>

<p>الأمر الرسمي لتقديم النموذج عبر vLLM كما يظهر في بطاقة نموذج NVIDIA:</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code>vllm serve nvidia/GLM-5.2-NVFP4 <span class="se">\</span>
  <span class="nt">--tensor-parallel-size</span> 8 <span class="se">\</span>
  <span class="nt">--enable-expert-parallel</span> <span class="se">\</span>
  <span class="nt">--reasoning-parser</span> glm45 <span class="se">\</span>
  <span class="nt">--tool-call-parser</span> glm47 <span class="se">\</span>
  <span class="nt">--enable-auto-tool-choice</span> <span class="se">\</span>
  <span class="nt">--kv-cache-dtype</span> fp8_e4m3 <span class="se">\</span>
  <span class="nt">--served-model-name</span> glm-5.2-nvfp4
</code></pre></div></div>

<p>ثمة ملاحظات لافتة هنا:</p>

<ul>
  <li><strong>غياب علم <code class="language-plaintext highlighter-rouge">--quantization</code></strong>: يكشف vLLM آلية التكميم تلقائياً من نقطة التفتيش، فلا حاجة للمشغّل إلى تحديد التنسيق يدوياً.</li>
  <li><strong><code class="language-plaintext highlighter-rouge">--enable-expert-parallel</code></strong>: يوزّع خبراء MoE على بطاقات GPU باستخدام التوازي الخبراتي. يعمل جنباً إلى جنب مع TP لنشر نموذج 469B على الثماني بطاقات.</li>
  <li><strong><code class="language-plaintext highlighter-rouge">--kv-cache-dtype fp8_e4m3</code></strong>: يُبقي ذاكرة KV cache بتنسيق FP8 للحفاظ على هامش للسياقات الطويلة والدفعات الكبيرة.</li>
  <li><strong><code class="language-plaintext highlighter-rouge">--reasoning-parser glm45</code> / <code class="language-plaintext highlighter-rouge">--tool-call-parser glm47</code></strong>: يُوزّع رموز الاستدلال وتنسيق استدعاءات الأدوات الخاصة بسلسلة GLM. وضع التفكير مفعّل بصورة افتراضية.</li>
</ul>

<p>للتحقق من الحد الأدنى لإصدار vLLM المطلوب، يُنصح بمراجعة خيط النقاش في بطاقة النموذج، إذ استُقر الكشف التلقائي عن NVFP4 ومسار التوازي الخبراتي في إصدارات حديثة نسبياً من vLLM.</p>

<h2 id="نتائج-التجربة">نتائج التجربة</h2>

<p>كما أشرنا، لم يُنفَّذ تقديم النموذج بشكل مباشر لعدم توفر GPU Blackwell. لذلك <strong>أجرينا حسابات حجم الذاكرة بصورة حتمية استناداً إلى الأرقام المعلنة فحسب</strong>. المدخلات ثلاثة حقائق موثّقة: 469B معامل، حجم نقطة التفتيش المختلطة المُعلن وهو نحو 465 GB، وتكوين العقدة 8× 96 GB.</p>

<p><img src="/assets/images/glm-5.2-nvfp4-vllm-results.png" alt="بصمة وزن GLM-5.2 حسب الدقة وحساب تحميل VRAM على عقدة واحدة" /></p>

<p>نتائج الحسابات:</p>

<ul>
  <li>بتنسيق BF16، تحتاج 469B معامل إلى نحو 938 GB، وبـ FP8 نحو 469 GB.</li>
  <li>نقطة التفتيش المختلطة NVFP4 المُعلنة تبلغ نحو 465 GB، <strong>وهي قريبة جداً من نقطة تفتيش FP8 نقية (469 GB)</strong>. لو كانت أربعة بتات خالصة لنظرياً انخفضت إلى نحو 234 GB، لكن بما أن التكميم رباعي البت يقتصر على خبراء MoE، فالبصمة لا تنخفض إلى ذلك المستوى.</li>
  <li>تحميل 465 GB من الأوزان على عقدة بإجمالي 768 GB (8× 96 GB) يترك نحو 303 GB للـ KV cache والتنشيطات. نسبة استخدام VRAM تبلغ نحو 60.5%.</li>
</ul>

<p>نقطة تستحق التوضيح الصريح: <strong>الميزة الحقيقية لـ NVFP4 المختلط ليست “تقليص التخزين إلى النصف”</strong>. إذا نظرت إلى بصمة الأوزان وحدها ستجدها مشابهة لـ FP8. الفائدة الفعلية تأتي من مصدرين: قدرة معالجة حسابات NVFP4 في نوى Blackwell، وهامش السياق والدفعات الذي يتيحه FP8 KV cache. بعبارة أخرى، قيمة نقطة التفتيش هذه ليست في كونها “أصغر” بل في كونها “أسرع وأقدر على السياقات الطويلة في عقدة واحدة”. تطبيق عبارة “تقليص الذاكرة إلى النصف بأربعة بتات” على هذه الحالة مباشرةً غير دقيق.</p>

<h2 id="الانعكاسات-على-منتجات-thakicloud">الانعكاسات على منتجات ThakiCloud</h2>

<p>تحمل هذه الوصفة دلالات مباشرة لـ <strong>ai-platform</strong> الخاص بـ ThakiCloud - البنية التحتية للذكاء الاصطناعي والتعلم الآلي المبنية على Kubernetes وجدولة GPU عبر Kueue والتي توفر تقديم vLLM وعزل المستأجرين المتعددين.</p>

<ul>
  <li><strong>التقديم الحدودي على عقدة واحدة يُبسّط الجدولة.</strong> حين يتسع نموذج 469B في عقدة واحدة (TP=8)، تختفي تعقيدات التواصل بين العقد وتنظيم الدفعات في التقديم الموزع متعدد العقد. من منظور Kueue، يصبح الأمر وحدة موارد نظيفة “عقدة بثماني GPU”، مما يُيسّر تخصيص GPU واسترداده في بيئة متعددة المستأجرين.</li>
  <li><strong>يناسب سيناريوهات النشر المحلي والسيادي.</strong> في بيئات العملاء الخاضعة لمتطلبات أمنية حكومية أو حظر تصدير البيانات، تُعدّ إمكانية الاستضافة الذاتية لنموذج بمستوى حدودي على عقدة محلية واحدة ميزة تمييزية جوهرية. يمكن تشغيل نموذج 469B على بنيتك التحتية الخاصة دون الاعتماد على أي API خارجي.</li>
  <li><strong>هامش VRAM يُعزز إنتاجية المستأجرين المتعددين.</strong> الـ 303 GB المحسوبة المتبقية للـ KV cache والتنشيطات تُترجم إلى سياقات أطول أو دفعات أكبر. هذا يعني استيعاب طلبات متزامنة أكثر من نفس العقدة، مما ينعكس مباشرةً على تنافسية التكلفة لكل GPU في خدمة SaaS متعددة المستأجرين.</li>
  <li><strong>الكشف التلقائي عن التكميم يُوحّد العمليات.</strong> بما أن vLLM يكشف التنسيق تلقائياً، يمكن نشر نقاط تفتيش مُكمَّمة متنوعة عبر نفس قالب التقديم. لا حاجة إلى تفريع بيان تقديم ai-platform بحسب كل نموذج.</li>
</ul>

<p>انخفاض تكلفة التقديم ليس فضيلة بنية تحتية فحسب، بل هو قدرة تنافسية للمنتج. تكوين يحمّل نموذجاً حدودياً على عقدة واحدة ويُبقي 40% من VRAM حرة للإنتاجية يُخفّض مباشرةً التكلفة الإجمالية للملكية لكل GPU المقدَّمة للعملاء.</p>

<h2 id="القيود-والتحفظات">القيود والتحفظات</h2>

<p>أكبر القيود ينبع من المقالة نفسها: لا توجد قياسات معيارية فعلية. أرقام إنتاجية الرموز والكمون وانحدار الدقة تستلزم عقدة Blackwell حقيقية للحصول عليها. الأرقام الواردة هنا حسابات حجم مستندة إلى حجم نقطة تفتيش معلنة، لا قياسات زمن تشغيل.</p>

<p>ثانياً، التأثير على الجودة الناتج عن التكميم المختلط الدقة يستلزم تحققاً منفصلاً. إنزال خبراء MoE إلى أربعة بتات قد يُدخل انحداراً في الدقة على بعض المهام. بدلاً من الثقة بأرقام التقييم في بطاقة النموذج على وجه القيمة، الأجدر إجراء اختبارات انحدار في مجال تطبيقك الفعلي.</p>

<p>ثالثاً، ثمة اعتمادية على الأجهزة. هذه الوصفة تشترط Blackwell. على جيل Hopper (H100) الذي يفتقر إلى نوى NVFP4، لا تتحقق مزايا نقطة التفتيش ذاتها. بالتالي هذا التكوين خيار عملي فقط للمؤسسات التي تبنّت Blackwell أو تعتزم تبنّيه. في البيئات التي تمتلك قاعدة كبيرة من H100، يظل مسار FP8 هو الخط الأساسي الواقعي.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://huggingface.co/nvidia/GLM-5.2-NVFP4">بطاقة نموذج nvidia/GLM-5.2-NVFP4 (Hugging Face)</a></li>
  <li><a href="https://recipes.vllm.ai/zai-org/GLM-5.2">وصفة GLM-5.2 على vLLM</a></li>
  <li><a href="https://github.com/0xSero/glm-5.2-sm120">وصفة تقديم GLM-5.2-NVFP4-REAP-469B على SM120 (0xSero/glm-5.2-sm120)</a></li>
  <li><a href="https://github.com/bird/GLM-spark">تقديم GLM-5.2 469B بالتوازي الأنبوبي على DGX Spark (bird/GLM-spark)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="glm-5.2" /><category term="nvfp4" /><category term="vllm" /><category term="blackwell" /><category term="quantization" /><category term="moe" /><category term="llm-serving" /><category term="kv-cache" /><summary type="html"><![CDATA[نقطة التفتيش GLM-5.2-NVFP4 التي أصدرتها NVIDIA تتيح تقديم نموذج MoE بحجم 469B على عقدة Blackwell واحدة (8× RTX PRO 6000) باستخدام vLLM. نحلّل بنية التكميم المختلط الدقة والأمر الرسمي للتقديم وحسابات حجم الذاكرة المستندة إلى الأرقام المعلنة، مع إسقاط ذلك على منظومة ThakiCloud ai-platform.]]></summary></entry><entry xml:lang="ar"><title type="html">المنطق الحقيقي وراء الاستثمار المفرط لعمالقة التقنية في وحدات معالجة الرسوميات: التأمين غير المتماثل وبوابة رسوم الجيل القادم</title><link href="https://thakicloud.github.io/ar/news/gpu-overinvestment-ai-agents-sovereign-ai/" rel="alternate" type="text/html" title="المنطق الحقيقي وراء الاستثمار المفرط لعمالقة التقنية في وحدات معالجة الرسوميات: التأمين غير المتماثل وبوابة رسوم الجيل القادم" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/news/gpu-overinvestment-ai-agents-sovereign-ai</id><content type="html" xml:base="https://thakicloud.github.io/ar/news/gpu-overinvestment-ai-agents-sovereign-ai/"><![CDATA[<p>باتت كبرى شركات التقنية ومختبرات الذكاء الاصطناعي الرائدة تُصدر سندات دين لتمويل شراء وحدات معالجة الرسوميات (GPU) بكميات ضخمة. يُقدَّر إجمالي النفقات الرأسمالية لأربع شركات هايبر سكيل كبرى (مايكروسوفت وجوجل وميتا وأمازون) عام 2026 بنحو $725B، أي بزيادة 77% عن العام السابق. عند هذا المستوى، تبدو الحيرة مشروعة: هل هذا استثمار مفرط؟ في عصر يمكن فيه للشركات اللاحقة أن تلحق بالأداء نفسه بتكلفة أقل بكثير عبر التقطير (distillation)، فهل يبدو منطقيًا إنفاق مئات المليارات من أجل نموذج أفضل بضعة أشهر؟</p>

<p><img src="/assets/images/gpu-overinvestment-ai-agents-sovereign-ai-hero.png" alt="صورة مفاهيمية تُجسّد بوابة مركز بيانات GPU ضخم وميزان غير متماثل" /></p>

<p>لا تُجيب هذه المقالة بـ”نعم إنها فقاعة” أو “لا ليست كذلك”. بدلًا من ذلك، تتناول المنطقَين الهيكليَّين اللذين يُحرِّكان إنفاق عمالقة التقنية، وما يعنيانه لشركات البنية التحتية كشركتنا وللعملاء من قطاع المؤسسات. نقطة الانطلاق كانت تحليلًا دار في منصة X (<a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway thread</a>)، وقد تحققنا من الأرقام الجوهرية بالعودة إلى مصادرها الأولية.</p>

<h2 id="لماذا-يبدو-الأمر-كاستثمار-مفرط">لماذا يبدو الأمر كاستثمار مفرط</h2>

<p>التقطير أسلوب يُجمَّع فيه مخرجات النماذج الحدية الباهظة الثمن لتدريب نماذج أرخص. بمعنى آخر، يستطيع اللاحقون استنساخ القدرات التي دفع فيها الرواد ثمنًا باهظًا، وذلك بتكلفة منخفضة. من هنا تتشكل مقولة “مهما أنفق القادة، ستضيق الفجوة سريعًا”. وهو ما يُؤكده الواقع فعلًا: النماذج مفتوحة المصدر والشركات المتأخرة تُقلّص الفجوة في نتائج المعايير المرجعية بوتيرة متسارعة.</p>

<p>إذا اقتصر الأمر على هذا، فقد يكون الاستثمار مفرطًا بالفعل. لكن الحساب يتغير حين ندرك أن ما تشتريه الشركات الرائدة ليس “تفوقًا نموذجيًا لبضعة أشهر”.</p>

<h2 id="التأمين-غير-المتماثل-ما-تشتريه-الشركات-الرائدة-فعلًا">التأمين غير المتماثل: ما تشتريه الشركات الرائدة فعلًا</h2>

<p>السبب الحقيقي لشراء عمالقة التقنية لوحدات GPU ليس تحقيق تفوق في الأداء يمتد من 3 إلى 6 أشهر، بل هو التأمين ضد احتمال أن تقع قفزة كبرى في قدرات الذكاء الاصطناعي وهم بعيدون عنها. الأمر بسيط: حجم الخسارة في كلا السيناريوين متباين تباينًا صارخًا.</p>

<p>إن وقعت القفزة وكانوا غائبين عنها، فإن أعمالهم الجوهرية التي تُقاس قيمتها بالتريليونات (كالبحث والحوسبة السحابية والأدوات المكتبية) ستتزعزع في لحظة. هذا هو سيناريو “جوجل تصبح ياهو”. في المقابل، إن لم تقع القفزة ووجدوا أنفسهم قد بالغوا في الاستثمار، فإن أعمالهم الجوهرية تبقى سليمة، كما أن وحدات GPU ومراكز البيانات المكتسبة لا تتحول إلى صفر. أحد طرفَي التوزيع يعني “اندثار مبرر وجودك”، والطرف الآخر يعني “خسائر في الاستهلاك”. أمام هذا التباين الصارخ، يميل قرار الشركة العاقلة في ظل عدم اليقين نحو الاستثمار المفرط. إنها ليست فقاعة، بل استجابة عقلانية لهيكل مكافأة غير متماثل.</p>

<h2 id="القفزة-ليست-روبوت-محادثة-أذكى-بل-موثوقية--task-horizon">“القفزة” ليست روبوت محادثة أذكى، بل موثوقية × task horizon</h2>

<p>إذن، ما الذي نعنيه بـ”القفزة”؟ ليست روبوت محادثة أكثر ذكاءً ولا نقاطًا أعلى في المعايير المرجعية. المقصود هو القدرة على إتمام مهام متعددة الخطوات بشكل مستقل دون أن ينهار الأداء في المنتصف، أي حاصل ضرب الموثوقية في task horizon.</p>

<p>جهة القياس الفعلي لهذا الأخير هي METR (أشار الخيط الأصلي إلى أنثروبيك، لكن المصدر الدقيق هو بحث METR المعنون <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">“Measuring AI Ability to Complete Long Tasks”</a>). وثّقت METR أن طول المهمة التي يستطيع الذكاء الاصطناعي إتمامها بموثوقية 50% (مقاسةً بالوقت المكافئ لجهد بشري) تضاعف كل سبعة أشهر تقريبًا من 2019 حتى 2025. والأهم أن فترة التضاعف تقلّصت في 2024-2025 إلى نحو أربعة أشهر، وهي علامة واضحة على أن الوتيرة تتسارع.</p>

<p>أما الموثوقية، فالحساب بسيط ويكشف حدًّا فاصلًا. وكيل بموثوقية 95% لكل خطوة يُتمّ مهمة من 20 خطوة بنجاح باحتمالية 0.95^20، أي نحو 36% فحسب. هذا يعني أن الإنسان يظل ضروريًا للمراجعة في كل خطوة، فلا وفر في الكلفة. إذا ارتفعت الموثوقية إلى 99%، يقفز معدل النجاح إلى نحو 82%، ومع 99.9% يبلغ نحو 98%. الموثوقية ترتفع بصورة خطية، لكن القيمة الاقتصادية تقفز قفزة درجية لحظة تجاوز العتبة التي يمكن فيها إزاحة الإنسان من الحلقة. هذه القفزة الدرجية هي ما يراهن عليه عمالقة التقنية.</p>

<h2 id="دوافع-الإنفاق-تختلف-بين-الشركات-الأربع-الكبرى-والمختبرات-المتخصصة">دوافع الإنفاق تختلف بين الشركات الأربع الكبرى والمختبرات المتخصصة</h2>

<p>حتى وإن اشترت الجميع وحدات GPU مماثلة، فإن طبقات الدوافع تختلف. بالنسبة لمايكروسوفت وجوجل وميتا وأمازون، تُمثّل GPU تأمينًا رخيصًا نسبيًا لحماية أعمال جوهرية تُقاس قيمتها بالتريليونات. مقارنةً بمخاطر تفويت القفزة، تبدو النفقات الرأسمالية أقساط تأمين محتملة. أما المختبرات المتخصصة في الذكاء الاصطناعي كـOpenAI وAnthropic، فالذكاء الاصطناعي هو أعمالها الجوهرية بالكامل. ليس بوسعها اللجوء إلى عمل آخر، لذا الإنفاق ليس تأمينًا بل بقاء. الأرقام قد تتشابه، لكن المعنى يختلف.</p>

<p>ملاحظة إضافية: ما يزيد على 60% من هذه النفقات الرأسمالية لا يذهب إلى الرقائق، بل إلى بناء محطات الطاقة ومراكز البيانات. الأرقام التي تبدو وكأنها “تسوق GPU” هي في الحقيقة رهانات على البنية التحتية للطاقة، وهو عامل آخر يُعقّد الحكم على وجود فقاعة.</p>

<h2 id="بوابة-رسوم-الجيل-القادم-موجّه-النوايا">بوابة رسوم الجيل القادم: موجّه النوايا</h2>

<p>بالتوازي مع منطق الإنفاق، يبرز سؤال جوهري: لماذا يجب الاحتفاظ بتلك المكانة بأي ثمن؟ في كل حقبة، ثمة نقطة عبور تُدير حركة المرور وتجمع رسوم العبور. في حقبة الحاسوب الشخصي كانت ويندوز، في حقبة الإنترنت كان بحث جوجل، في حقبة الهاتف المحمول كانت متاجر التطبيقات. في حقبة وكلاء الذكاء الاصطناعي، المرشّح الأقوى لاحتلال تلك المكانة هو الوكيل الذي يستقبل نوايا المستخدم ويوجّهها نحو الخدمات الملائمة، أي موجّه النوايا (intent router).</p>

<p>تخيّل السيناريو بوضوح: يقول المستخدم لوكيله “رتّب لي موعدًا للعشاء الليلة واحجز طاولة”. الوكيل يقرر أي المطاعم يعرضها للمراجعة، وأي منصة حجز يستخدم، وأي خدمة توصيل يستدعي. في تلك اللحظة، لم يعد المطعم والمنصة مرئيَّين مباشرةً للمستخدم. إذا لم يكن الوكيل قد أدرج الخدمة في قائمة مرشحيه فهي في حكم المعدومة. الهيكل الذي كان فيه “غياب عن الصفحة الأولى في نتائج البحث = فقدان حركة المرور” يتحول إلى “غياب عن توصيات الوكيل = فقدان الصفقات”. من يمسك بنقطة العبور هو من يحدد سعر التذكرة.</p>

<p>غير أن الأمانة تقتضي الإقرار بشيء: إذا أصبح الوكيل بوابة رسوم، فمقدمو البنية التحتية أنفسهم لن يكونوا بمنأى عن هذه الديناميكية تمامًا. كما أن مقولة “المؤسسات ستتحاشى الاتكال على وكلاء خارجيين” هي أقرب إلى اتجاه ناشئ منه إلى طلب مكتمل الملامح. لا تجزم هذه المقالة بذلك. ما نرصده هو إشارة متنامية: مع تضافر متطلبات سيادة البيانات والامتثال التنظيمي والذكاء الاصطناعي السيادي، يغدو هذا الاتجاه أكثر وضوحًا تدريجيًا.</p>

<h2 id="منظور-thakicloud">منظور ThakiCloud</h2>

<p>أهمية هذا المشهد بالنسبة لـThakiCloud لا تنبع من مجرد متابعة توجهات عمالقة التقنية، بل من كوننا نقع في الطبقة الوسطى من منافسة بوابات الرسوم هذه.</p>

<p>كلما اشتدت المنافسة بين عمالقة التقنية على السيطرة على طبقة موجّه النوايا، ازدادت أهمية بدائل المؤسسات الراغبة في عدم تسليم بياناتها ونماذجها لوكلاء خارجيين. ما يحتاجه هؤلاء هو بيئة تشغيل قادرة على تشغيل بنيتهم التحتية الخاصة بالوكلاء، سواء في بيئات محلية أو خاصة. البنية التحتية لأعباء عمل الذكاء الاصطناعي والتعلم الآلي المستندة إلى Kubernetes التي تقدمها ThakiCloud، وجدولة أعباء عمل GPU عبر Kueue، تضعنا تحديدًا في ذلك الموقع. على الطريق الممتد من مقدم خدمات GPU السحابية إلى مزوّد خدمات مُدارة فشريكًا لتبني الذكاء الاصطناعي في المؤسسات، نستهدف هذا الطلب على “تدخيل بوابة الرسوم داخليًا”.</p>

<p>يمسّ منطق عتبة task horizon استراتيجيةَ المنتج مباشرةً. إذا كانت القيمة الاقتصادية للوكيل تقفز درجيًا لحظة تجاوز موثوقية كل خطوة للعتبة الفاصلة، فإن قدرتنا على حمل أعباء عمل الذكاء الاصطناعي للعملاء بموثوقية عالية واستقرار ثابت ليست مجرد مقياس تشغيلي. إنها المتغير الذي يحدد ما إذا كان العميل قادرًا على إزاحة الإنسان من حلقة المراجعة أم لا. بمعنى أن استقرار البنية التحتية هو رافعة غير خطية لعائد استثمار العميل. هذا هو السبب الجوهري لإصرارنا على الاستقرار والعزل وجودة الجدولة.</p>

<h2 id="متى-يفشل-هذا-المنطق">متى يفشل هذا المنطق</h2>

<p>في سبيل التوازن، نستعرض السيناريوهات المضادة. ثمة مسارات واضحة لانهيار منطق التأمين غير المتماثل.</p>

<p>أولًا، قد يتوقف منحنى الموثوقية عند مستوى دون العتبة. إذا تمدّد task horizon لكن موثوقية كل خطوة أُوقفت دون تجاوز مستوى 99.9%، فلن تتجاوز القيمة الاقتصادية للمهام المستقلة الطويلة العتبة الدرجية أبدًا. ثانيًا، قد يبلغ التقطير والنماذج ذات الأوزان المفتوحة مستوى كافيًا يُضعف معه “ضرورة امتلاك النموذج الحدي مباشرةً”؛ عندها تفقد بوليصة التأمين التي اشترتها الشركات الرائدة قيمتها. ثالثًا، قد تعجز قيود الطاقة والمواقع والشبكات الكهربائية عن تحويل النفقات الرأسمالية إلى قدرة تشغيلية فعلية. المال المُنفق دون كهرباء كافية يعني وحدات GPU راكدة. إذا تحقق أي من هذه السيناريوهات الثلاثة، تتحول “بوليصة التأمين العقلانية” إلى “رهان مكلف خاطئ”.</p>

<p>المغزى ليس الجزم بأي الاحتمالين أصوب، بل معرفة المؤشرات التي إذا تحقق أحدها انكشف الجواب. هل تتجاوز الموثوقية العتبة الفاصلة؟ هل تحلّ النماذج مفتوحة الأوزان محل النماذج الحدية؟ هل تُواكب الطاقةُ وتيرةَ النفقات الرأسمالية؟ هذه المؤشرات الثلاثة هي نقاط المراقبة في الأرباع القادمة.</p>

<h2 id="خلاصة">خلاصة</h2>

<p>قد يكون الاستثمار الضخم لعمالقة التقنية في GPU فقاعةً، وقد يكون تأمينًا عقلانيًا. لكن حين تُقرأ عبر منظور “استجابة عقلانية لهيكل مكافأة غير متماثل + سباق للاستحواذ على بوابة رسوم الجيل القادم”، يتكشّف نظام قسري أكثر تعقيدًا ودقة من مجرد جنون جماعي. وفي الطرف الآخر من هذا السباق، يتشكّل طلب مؤسسي من شركات لا ترغب في الارتهان لتلك البوابات. ThakiCloud هي البنية التحتية المصممة تحديدًا لاستيعاب ذلك الطلب.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>خيط التحليل الأصلي: <a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway (X)</a></li>
  <li>task horizon: <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">METR, “Measuring AI Ability to Complete Long Tasks” (2025)</a>. طول المهمة التي يمكن إتمامها بموثوقية 50% تضاعف كل سبعة أشهر تقريبًا من 2019 حتى 2025، مع تسارع إلى نحو أربعة أشهر في 2024-2025</li>
  <li>النفقات الرأسمالية لشركات هايبر سكيل 2026: نحو $725B (+77% مقارنة بالعام السابق)، مع توجيه أكثر من 60% منها نحو الطاقة ومراكز البيانات: <a href="https://www.tomshardware.com/tech-industry/big-tech/big-techs-ai-spending-plans-reach-725-billion">Tom’s Hardware</a>, <a href="https://www.cnbc.com/2026/02/06/google-microsoft-meta-amazon-ai-cash.html">CNBC</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="ai-capex" /><category term="hyperscaler" /><category term="ai-agents" /><category term="sovereign-ai" /><category term="task-horizon" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[تُقدَّر النفقات الرأسمالية المجمَّعة لشركات هايبر سكيل الأربع الكبرى عام 2026 بنحو $725B، بزيادة 77% عن العام السابق. تُقرأ هذه النفقات التي تبدو وكأنها فقاعة عبر منظورين هيكليين: التأمين غير المتماثل وبوابة رسوم موجّه النوايا، ثم تُتحقق بيانات task horizon الصادرة عن METR والرياضيات الخاصة بعتبة الموثوقية، لتُستخلص في نهاية المطاف دلالاتها للطلب المؤسسي الرافض للارتهان وموقع ThakiCloud بوصفه بنيةً تحتيةً مستقلة لوكلاء الذكاء الاصطناعي مستندةً إلى Kubernetes وKueue.]]></summary></entry><entry xml:lang="ar"><title type="html">ما يكشفه انقلاب حصص OpenRouter: التوكن ليس إيرادًا، وقيمة الحياد بين النماذج</title><link href="https://thakicloud.github.io/ar/news/openrouter-china-model-share-vendor-neutral/" rel="alternate" type="text/html" title="ما يكشفه انقلاب حصص OpenRouter: التوكن ليس إيرادًا، وقيمة الحياد بين النماذج" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/news/openrouter-china-model-share-vendor-neutral</id><content type="html" xml:base="https://thakicloud.github.io/ar/news/openrouter-china-model-share-vendor-neutral/"><![CDATA[<p>OpenRouter منصة يستخدمها ملايين المطورين للوصول إلى نماذج لغوية متعددة عبر واجهة برمجية موحدة. ولأنها تعكس الاستخدام الفعلي من قِبَل مطورين حساسين للتكلفة، يُستشهد بها كثيرًا مؤشرًا متقدمًا على السوق. وفي هذه المنصة، انخفضت حصة توكن النماذج الأمريكية من نحو 70% إلى نحو 30% خلال عام واحد.</p>

<p><img src="/assets/images/openrouter-china-model-share-vendor-neutral-hero.png" alt="صورة مفاهيمية تجسّد إعادة توزيع تدفقات التوكن بين عقد نماذج متعددة" /></p>

<p>يتناول هذا المقال التحقق من هذه البيانات، ثم يكشف طبقةً ثانيةً يسهل إغفالها من العنوان وحده، قبل أن يستعرض ما يعنيه ذلك لاستراتيجية ThakiCloud وPaxis.</p>

<h2 id="ماذا-حدث">ماذا حدث؟</h2>

<p>لنبدأ بالأرقام. كانت حصة توكن النماذج الأمريكية (OpenAI وAnthropic وGoogle) تبلغ نحو 70% في منتصف عام 2025، ثم هبطت إلى نحو 30% في منتصف 2026. وفي الفترة ذاتها، ارتفعت حصة النماذج الصينية (DeepSeek وQwen وMiniMax وMoonshot وTencent وغيرها) من أقل من 2% قبل عام إلى نحو 46%. وجاءت نقطة التحول في الأسبوع الواقع بين 9 و15 فبراير 2026، حين تجاوزت التوكنات التي عالجتها النماذج الصينية 4.12T، متخطيةً 2.94T للنماذج الأمريكية للمرة الأولى.</p>

<p>تتباين الأرقام الدقيقة من مصدر لآخر. فالمحلل الذي نشر هذا الاتجاه على نطاق واسع رصد تراجعًا أمريكيًا من 72% إلى 33% في مقابل 47% للنماذج الصينية. أما التجميع الدقيق الذي يفصل حركة المرور غير المحددة المصدر فيُظهر نحو 46% للنماذج الصينية و36% للأمريكية. في كلتا الحالتين الاتجاه واحد، وينبغي فقط الانتباه إلى أن مقارنة الرقمين مباشرةً (كـ”33% أمريكي مقابل 47% صيني”) تُخفي دلو حركة المرور غير المحددة المصدر.</p>

<h2 id="لماذا-كان-هذا-التحول-سريعًا">لماذا كان هذا التحول سريعًا؟</h2>

<p>المحرك الرئيسي لهذا التحول هو التوجه المتسارع للمختبرات الصينية الكبرى نحو النماذج مفتوحة الأوزان. أصدرت DeepSeek نموذجَي R1 وV3 بصورة مجانية في جوهرها، مُقتربةً من جودة الاستدلال لدى أعلى النماذج. كما حقق Qwen من Alibaba أداءً متميزًا في مهام متعددة اللغات والبرمجة. يتمتع كلا السلسلتين بترخيصَي MIT وApache اللذين يتيحان الاستخدام التجاري بحرية، مما أسهم في رفع معدل تبني المطورين لهما. وأصبح Qwen أكثر النماذج المفتوحة تنزيلًا على Hugging Face متجاوزًا Llama.</p>

<p>ثمة تحليلات ترى أن قيود تصدير رقائق Nvidia (تقييد H100 وH200 وB200 عن الصين) أفضت بصورة مفارقة إلى نتيجة عكسية: شح الحوسبة وَلَّد حوافز لتحقيق الكفاءة، أي انتزاع الأداء ذاته بموارد أقل. يُضاف إلى ذلك أن شريحة واسعة من مستخدمي OpenRouter هم شركات ناشئة ومطورون أفراد حساسون للتكلفة، مما يجعل التدفق نحو النماذج ذات الأسعار والتراخيص الأفضل اتجاهًا هيكليًا.</p>

<h2 id="التوكن-ليس-إيرادًا">التوكن ليس إيرادًا</h2>

<p>إذا اكتفيت بالعنوان، خرجت بخلاصة “الصين تتفوق على أمريكا”. أما إذا نظرت عمقًا، وجدت صورة مغايرة. في OpenRouter ذاته، تشير تحليلات إلى أن Anthropic تمتلك نحو 12% من حصة التوكن لكنها تستحوذ على نحو 46% من الإيرادات. وهذا مؤشر على انقسام السوق.</p>

<p>الأول سوق سلعية تفوز فيها النماذج الأرخص. تتدفق فيها كميات هائلة من التوكنات لكن الهامش فيها ضئيل. والثاني سوق القيمة العالية، حيث تشمل المهام ذات التكلفة المرتفعة للفشل (كالبرمجة أو الوكلاء المستقلين) نماذجَ أدق أداءً تستحوذ على الإيرادات رغم ارتفاع سعرها. حصة التوكن تعكس السوق الأول، وحصة الإيرادات تعكس الثاني. والاثنتان ليستا المقياس ذاته.</p>

<p>يجب إضافة نقطة أخرى: قاعدة مستخدمي OpenRouter منحازة نحو المطورين الحساسين للتكلفة وليست ممثلة للسوق المؤسسي بأكمله. من يقرأ انقلاب الحصص مباشرةً باعتباره “هزيمةً أمريكية” يتجاهل هذين الاعتبارين ويقفز إلى استنتاج مبالغ فيه. الحدث الحقيقي ليس انتصارًا وهزيمة، بل إعادة هيكلة للسوق نحو الانفصال بين التوكن والإيرادات.</p>

<h2 id="منظور-thakicloud-وpaxis">منظور ThakiCloud وPaxis</h2>

<p>هذا الانفصال بالذات هو النقطة المواتية لاستراتيجية ThakiCloud وPaxis. نوضح ذلك في محورين.</p>

<p>أولًا: الحياد بين النماذج. في بيئة تنقسم فيها السوق بين سلعية وعالية القيمة وتتبدل فيها تصنيفات النماذج كل فصل، فإن البنية الأكثر مرونة هي التي لا تُقيّد نفسها ببائع محدد. تتبنى Paxis نهجًا للتوجيه المحايد بين النماذج يتيح للعملاء اختيار المقايضة بين التكلفة والأداء مباشرةً، بأسلوب مماثل لما يفعله OpenRouter. صعود النماذج الصينية المفتوحة ليس تهديدًا بل دعم لهذه الاستراتيجية: أي نموذج يرتفع يمكن إدراجه كمواطن درجة أولى، فتصبح تقلبات السوق فرصًا.</p>

<p>ثانيًا: طبقة الامتثال. حين تبدأ المؤسسات باستخدام DeepSeek أو Qwen لدواعي التكلفة، يأتي السؤال الفوري عن شروط الترخيص التجاري وحوكمة البيانات. البنية التحتية لـThakiCloud المبنية على Keycloak للتعددية المستأجرة وArgoCD لـGitOps تتوافق تقنيًا مع استضافة نماذج متعددة. غير أن الصادق قوله: طبقة التحقق التلقائي من التراخيص التجارية لكل نموذج وامتثال البيانات لكل عميل هي واجب لم يُنجز بعد. هذا فراغ وفي الوقت ذاته الفرصة الأوضح: الجهة التي توفر خط استدلال يدعم النماذج الصينية المفتوحة كمواطنين درجة أولى مع طبقة التحقق من التراخيص والبيانات ستكسب عملاء القطاعات المنظمة.</p>

<h2 id="متى-يضعف-هذا-المنطق">متى يضعف هذا المنطق؟</h2>

<p>للإنصاف، نورد أيضًا السيناريوهات المعاكسة. أولًا: قرارات الشراء المؤسسية قد تسلك مسارًا مغايرًا لمسار الاستخدام الفعلي للمطورين، إذ لا ضمان بأن منحنى حصة التوكن سيُترجم تلقائيًا إلى تبني مؤسسي. ثانيًا: إذا أعاقت مخاطر بيانات النماذج الصينية اعتمادَها في القطاعات شديدة التنظيم كالمال والقطاع العام، فقد ينقسم منحنى الحصة تباعًا على أساس قطاعي. ثالثًا: دلو حركة المرور غير المحددة المصدر ضخم مما يجعل الأرقام الدقيقة تتذبذب من مصدر لآخر.</p>

<p>المؤشرات التي ينبغي متابعتها ثلاثة: هل سيسلك منحنى حصة الإيرادات الاتجاه ذاته الذي يسلكه منحنى حصة التوكن؟ وهل تتصاعد فعليًا معدلات تبني النماذج الصينية في القطاعات المنظمة؟ وهل يظهر الاتجاه ذاته في بوابات المؤسسات خارج OpenRouter؟</p>

<h2 id="خلاصة">خلاصة</h2>

<p>انقلاب الحصص على OpenRouter حقيقي. لكنه ليس “هزيمةً أمريكية”. إنه وجه واحد من وجوه إعادة هيكلة السوق نحو الانفصال بين التوكن والإيرادات. الرابح هو من لا يُقيّد نفسه بأي نموذج بعينه أيًا كان الصاعد، ومن يمتلك طبقة التحقق اللازمة لاستضافته بصورة قانونية وآمنة. وهذا هو الموضع الذي تستهدفه ThakiCloud وPaxis.</p>

<p>اقرأ أيضًا: <a href="/ar/news/gpu-overinvestment-ai-agents-sovereign-ai/">المنطق الحقيقي وراء إفراط كبرى شركات التقنية في الاستثمار في وحدات GPU: التأمين غير المتماثل وبوابات العبور للجيل القادم</a></p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>التحليل الأصلي: <a href="https://x.com/FurkanGozukara">@FurkanGozukara (X)</a></li>
  <li>بيانات حصص OpenRouter: <a href="https://officechai.com/ai/share-of-us-models-being-used-on-openrouter-has-collapsed-from-70-to-30-over-the-past-year/">officechai</a>، <a href="https://cryptobriefing.com/openrouter-us-models-token-share-collapse/">cryptobriefing</a>، <a href="https://www.datagravity.dev/p/chinas-open-weight-takeover">Data Gravity</a>، <a href="https://pro.stockalarm.io/blog/openrouter-llm-rankings-investor-analysis">stockalarm</a></li>
  <li>انفصال حصة التوكن عن حصة الإيرادات: <a href="https://x.com/Normal_2610/status/2070405462881665341">Normal Guy (X)</a></li>
  <li>مخاطر بيانات النماذج الصينية: <a href="https://www.techtimes.com/articles/317352/20260529/chinese-ai-models-lead-openrouter-traffic-coding-gains-come-china-data-risk.htm">TechTimes</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="openrouter" /><category term="china-llm" /><category term="open-weight-models" /><category term="deepseek" /><category term="qwen" /><category term="model-neutrality" /><category term="paxis" /><summary type="html"><![CDATA[انخفضت حصة توكن النماذج الأمريكية على OpenRouter من نحو 70% إلى نحو 30% خلال عام واحد، وارتفعت النماذج الصينية مفتوحة الأوزان إلى نحو 46%. يتحقق هذا المقال من البيانات ويحلل طبقة ثانية أعمق تتمثل في الانفصال بين حصة التوكن وحصة الإيرادات، مع استعراض موضع ThakiCloud وPaxis في ما يتعلق بالتوجيه المحايد للنماذج وطبقة الامتثال للتراخيص والبيانات.]]></summary></entry><entry xml:lang="ar"><title type="html">الذكاء الاصطناعي الوكيل من الأسس إلى الأنظمة: قراءة في ‘دليل المسافر إلى الذكاء الاصطناعي الوكيل’</title><link href="https://thakicloud.github.io/ar/research/agentic-ai-hitchhikers-guide/" rel="alternate" type="text/html" title="الذكاء الاصطناعي الوكيل من الأسس إلى الأنظمة: قراءة في ‘دليل المسافر إلى الذكاء الاصطناعي الوكيل’" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/agentic-ai-hitchhikers-guide</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/agentic-ai-hitchhikers-guide/"><![CDATA[<p><img src="/assets/images/agentic-ai-hitchhikers-guide-hero.png" alt="هيكل مجرد من أربع طبقات مضيئة تتراكم من الأسفل إلى الأعلى وتترابط فيما بينها" /></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>يصطدم كل من يدرس الذكاء الاصطناعي الوكيل بحقيقة مبكرة: المادة العلمية مبعثرة. بنية المحول في مكان، ومحاذاة التعلم المعزز في مكان آخر، والتعاون بين الوكلاء وبروتوكول MCP في مدونة ثالثة. كل قطعة متماسكة بذاتها، لكن الموارد التي تُري كيف تتصل هذه القطع في نظام واحد نادرة.</p>

<p><a href="https://arxiv.org/abs/2606.24937">The Hitchhiker’s Guide to Agentic AI: From Foundations to Systems</a> المنشور على arXiv في يونيو 2026 يملأ هذه الفجوة تحديدًا. ليس استعراضًا موجزًا، بل مرجعًا عمليًا يتتبع المسار كاملًا: من طبيعة نموذج اللغة الكبير، عبر المحاذاة والاستدلال، إلى بناء أنظمة وكلاء ونشرها في بيئة الإنتاج. كل فصل يجمع الأسس النظرية مع إرشادات التنفيذ وأمثلة الكود وإحالات المصادر الأولية.</p>

<p>بالنسبة لمنصة مثل ThakiCloud تعتبر الوكلاء موارد من الدرجة الأولى، لا يبدو هذا الدليل غريبًا. المهارات والأدوات والذاكرة وتنسيق الوكلاء المتعددين – هذه المواضيع التي تشغل النصف الثاني من الوثيقة – هي بالضبط ما نعمل عليه يوميًا داخل Paxis، السحابة الأصيلة للوكلاء. هذه المقالة ترسم الدليل عبر أربع طبقات وتستخلص ما يمكن أخذه لمنتجاتنا.</p>

<h2 id="ما-هذا-الدليل">ما هذا الدليل</h2>

<p>يفترض الدليل أن قارئه ممارس يريد بناء وكلاء. لا يكتفي بسرد المفاهيم؛ يسير مع الكدسة كاملة من المبادئ الأولى حتى النشر في الإنتاج. محور التركيز هو العلاقات التبعية بين الطبقات. الوكلاء الجيدون لا يظهرون من العدم. لا بد أولًا من نموذج مُدرَّب جيدًا، ثم تُضاف قدرات المحاذاة والاستدلال فوقه، وعندها فقط تتراكم استخدام الأدوات والذاكرة والتعاون لتكوّن نظامًا.</p>

<p>نطاق الدليل، مضغوطًا في أربع طبقات:</p>

<pre><code class="language-mermaid">flowchart TB
    A["1. قاعدة LLM&lt;br/&gt;المحوّل · نظام GPU&lt;br/&gt;SFT · LoRA · MoE · الضغط · تحسين الاستدلال"] --&gt; B["2. المحاذاة والاستدلال&lt;br/&gt;RLHF · PPO · DPO · GRPO&lt;br/&gt;نمذجة المكافأة · CoT · التوسع في وقت الاختبار"]
    B --&gt; C["3. نظام العوامل&lt;br/&gt;RL القائم على المسارات · RAG / Agentic RAG&lt;br/&gt;الذاكرة · MCP · المهارات/الأدوات · A2A · متعدد العوامل"]
    C --&gt; D["4. النشر والتقييم&lt;br/&gt;إطار عمل العوامل · واجهة مستخدم العوامل&lt;br/&gt;منهجية التقييم · النشر الإنتاجي"]
    D -.تغذية راجعة.-&gt; C
    C -.إشارة إعادة التدريب.-&gt; B
</code></pre>

<p>نتناول كل طبقة بالترتيب فيما يلي.</p>

<h2 id="الأساس-طبيعة-نموذج-اللغة-الكبير">الأساس: طبيعة نموذج اللغة الكبير</h2>

<p>ينطلق الدليل من بنية المحول وأنظمة GPU، ثم ينتقل إلى التدريب والضبط الدقيق: الضبط الدقيق الخاضع للإشراف (SFT)، والتقنيات الموفرة للمعاملات مثل LoRA، وبنيات مزج الخبراء (MoE). ويختتم بضغط النماذج وتحسين الاستنتاج.</p>

<p>في هذا الترتيب معنى. جودة سلوك الوكيل مرتبطة في نهاية المطاف بقدرات النموذج الأساسي، وتكلفة تشغيل ذلك النموذج فعليًا تتحدد بالضغط وتحسين الاستنتاج. إذا لم تنخفض تكاليف الاستنتاج، ينهار الجدوى الاقتصادية في اللحظة التي يبدأ فيها الوكيل باستدعاء الأدوات مرات عدة وسلوك مسارات طويلة. كفاءة الطبقة الأدنى هي ما يحدد إمكانية تحقق الطبقة الأعلى.</p>

<h2 id="طبقة-المحاذاة-والاستدلال">طبقة المحاذاة والاستدلال</h2>

<p>تتناول الطبقة الثانية المحاذاة والاستدلال. تبدأ بالتعلم المعزز من ردود الفعل البشرية (RLHF)، وتمر بـ PPO وDPO وتوابعها، وGRPO مع نمذجة المكافآت. ثم تنتقل إلى التعلم المعزز لنماذج الاستدلال الكبيرة، متناولة سلسلة الأفكار والتوسع في وقت الاختبار.</p>

<p>تحدث هنا نقلة نوعية مهمة. ينتقل مركز الثقل من مجرد إنتاج إجابات يفضلها البشر، إلى قدرة الاستدلال – القدرة على التفكير لفترة أطول والوصول إلى إجابات أفضل باستقلالية. للوكيل الذي يخطط عبر خطوات متعددة ويتحقق من النتائج الوسيطة، هذه الطبقة يجب أن تكون راسخة. إذا كانت المحاذاة تتكفل بالسلامة، فإن الاستدلال يتكفل بالاستقلالية.</p>

<h2 id="أنظمة-الوكلاء-mcp-والمهارات-والذاكرة-ومتعدد-الوكلاء">أنظمة الوكلاء: MCP والمهارات والذاكرة ومتعدد الوكلاء</h2>

<p>النصف الثاني من الدليل مكرس بأكمله لهذه الطبقة، وهو ما يدل على أين يقع ثقل الذكاء الاصطناعي الوكيل فعليًا. المواضيع المطروحة أسماء نتعامل معها يوميًا.</p>

<ul>
  <li><strong>التعلم المعزز القائم على المسارات</strong>: إشارة التعلم هي مسار العمل الكامل – تسلسل من استدعاءات الأدوات والملاحظات – لا استجابة واحدة.</li>
  <li><strong>RAG وAgentic RAG</strong>: الجيل المعزز بالاسترجاع يُرفع من خط أنابيب ثابت إلى شكل يقرر فيه الوكيل بفاعلية استراتيجية استرجاعه.</li>
  <li><strong>أنظمة الذاكرة</strong>: هياكل لتراكم المعرفة واسترجاعها عبر الجلسات.</li>
  <li><strong>MCP (بروتوكول سياق النموذج)</strong>: القناة الموحدة التي يتصل من خلالها الوكيل بالأدوات والبيانات الخارجية.</li>
  <li><strong>مهارات الوكلاء واستخدام الأدوات</strong>: قدرات مُعبَّأة كوحدات قابلة لإعادة الاستخدام يمكن اختيارها وتنفيذها.</li>
  <li><strong>بروتوكولات A2A (وكيل إلى وكيل) وبنيات متعدد الوكلاء</strong>: الوكلاء يتفويض ويُنسق العمل فيما بينها.</li>
</ul>

<p>هذه القائمة هي في الواقع مواصفات مكونات منصة أصيلة للوكلاء. كيف تختار المهارات؟ كيف تستدعي الأدوات بأمان؟ كيف تُوجه الذاكرة؟ كيف تُركب عمل وكلاء متعددين في رسم بياني موجه لا دوري؟ يعالج الدليل هذه الأسئلة بوصفها مسألة تصميم نظام موحدة، لا مجموعة تقنيات متفرقة.</p>

<h2 id="النشر-والتقييم">النشر والتقييم</h2>

<p>تغطي الطبقة الأخيرة العمليات الفعلية: أطر تطوير الوكلاء، وتصميم واجهة مستخدم الوكلاء، ومنهجية التقييم المناسبة للمهام الوكيلية، والنشر في الإنتاج.</p>

<p>اللافت أن التقييم حصل على طبقة مستقلة. المقاييس المبنية لقياس دقة استجابة واحدة لا تستطيع قياس وكيل يستدعي الأدوات مرارًا ويسلك خطوات متعددة. يجب النظر في معدل نجاح المسار والسلامة في الخطوات الوسيطة والفعالية من حيث التكلفة معًا. جعل التقييم موضوعًا مستقلًا لا ذيلًا للتنفيذ يعكس مدى صعوبة الإجابة على “كيف نعرف أن هذا يعمل؟” لأنظمة الوكلاء.</p>

<h2 id="التداعيات-على-منتجات-thakicloud">التداعيات على منتجات ThakiCloud</h2>

<p>النصف الثاني من هذا الدليل يتداخل كثيرًا مع تصميم <strong>Paxis</strong> من ThakiCloud. Paxis هي مستوى تحكم السحابة الأصيلة للوكلاء الذي يعمل فوق ai-platform، معاملًا المهارات والأدوات والسياسات وسجلات التدقيق كموارد من الدرجة الأولى. مقابلة مكونات الدليل بطبقاتنا:</p>

<ul>
  <li><strong>مهارات الوكلاء واستخدام الأدوات – Skill Harness</strong>: يختار Paxis من أكثر من 960 مهارة باستخدام BM25 وينفذها في بيئات معزولة. هذا هو مبدأ “عبئ القدرات كوحدات قابلة لإعادة الاستخدام” الذي يؤكد عليه الدليل على نطاق إنتاجي.</li>
  <li><strong>MCP – موصل MCP</strong>: يتصل Paxis بالأدوات والبيانات الخارجية عبر موصلات MCP مع إعادة اتصال OAuth تلقائية. القناة الموحدة في الدليل تصبح في المنتج بنية تحتية تتعافى من الأعطال بنفسها.</li>
  <li><strong>أنظمة الذاكرة – محرك معرفة HKE</strong>: المعرفة المتراكمة والمسترجعة عبر الجلسات تُعالج من خلال محرك معرفة قائم على الويكي.</li>
  <li><strong>متعدد الوكلاء وA2A – متعدد الوكلاء DAG</strong>: تُركب المهام في رسوم بيانية DAG للتفويض والتنسيق، مع NL Cron للجدولة الزمنية.</li>
  <li><strong>النشر والتقييم والسلامة – بوابة السياسات + سجل التدقيق + المهارات المتطورة ذاتيًا</strong>: تمر كل إجراءات الوكيل عبر بوابة سياسة وسجل تدقيق. الأنماط المتكررة تُستوعب في مهارات تتطور ذاتيًا. هذا يعالج بالضبط نفس الهاجس الذي دفع الدليل لجعل التقييم طبقة مستقلة.</li>
</ul>

<p>طبقة الأساس تحمل دلالات أيضًا. تحسين الاستنتاج والضغط المُغطَّيان في الطبقة الأولى من الدليل يقابلان مباشرة عمل <strong>ai-platform</strong>. توفر منصة ThakiCloud ai-platform البنية التحتية للاستنتاج – Kubernetes مع جدولة GPU المستندة إلى Kueue، وخدمة vLLM، والعزل متعدد المستأجرين – التي تحافظ على الجدوى الاقتصادية حتى حين يُجري وكيل ما استدعاءات أدوات متعددة. انخفاض تكلفة الخدمة (ai-platform) يخلق الجدوى الاقتصادية للوكيل (Paxis). الطبقة الأدنى والطبقة الأعلى في الدليل تتصلان في خط واحد داخل منتجنا.</p>

<h2 id="حدود-وتحفظات">حدود وتحفظات</h2>

<p>قبول هذه الوثيقة كمرجع نهائي أمر ينبغي تجنبه. أولًا، الميدان سريع التغير. معايير الذكاء الاصطناعي الوكيل تتبدل شهريًا. تفاصيل تنفيذ MCP وA2A الدقيقة اليوم قد تبدو مختلفة بعد ستة أشهر، وأمثلة الكود في الدليل مرتبطة بإصدارات محددة. كخريطة مفاهيمية يحتفظ بقيمته طويلًا؛ أما تفاصيل التنفيذ فلا بد دائمًا من التحقق منها بالرجوع إلى المصادر الأولية.</p>

<p>ثانيًا، تغطية كل شيء تعني حتمًا عدم الغوص في أي شيء حتى أعماقه. ضم كل طبقة في وثيقة واحدة يكسب الاتساع لكنه يُضحي بالعمق. رفع أي تقنية بعينها إلى مستوى الإنتاج لا يزال يستلزم أدبيات متخصصة وتجارب عملية. القيمة الحقيقية للدليل ليست الإجابات التي يقدمها، بل الخريطة التي يرسمها – كيف تجد كل قطعة مبعثرة مكانها داخل نظام موحد. قراءة الخريطة والقيادة الفعلية عملان مختلفان.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://arxiv.org/abs/2606.24937">The Hitchhiker’s Guide to Agentic AI: From Foundations to Systems (arXiv:2606.24937)</a></li>
  <li><a href="https://www.alphaxiv.org/abs/2606.24937">صفحة alphaXiv</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="agentic-ai" /><category term="llm" /><category term="mcp" /><category term="multi-agent" /><category term="rag" /><category term="agent-skills" /><category term="a2a" /><category term="survey" /><summary type="html"><![CDATA['دليل المسافر إلى الذكاء الاصطناعي الوكيل: من الأسس إلى الأنظمة' المنشور على arXiv مرجع عملي يغطي جميع طبقات الذكاء الاصطناعي الوكيل -- من طبيعة نماذج اللغة الكبيرة، مرورًا بالمحاذاة والاستدلال، وصولًا إلى أنظمة الوكلاء ونشرها في الإنتاج. نلخصه عبر أربع طبقات ونستخرج ما يعنيه لـ Paxis، السحابة الأصيلة للوكلاء من ThakiCloud.]]></summary></entry></feed>