<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-06-28T12:55:40+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ar"><title type="html">المنطق الحقيقي وراء الاستثمار المفرط لعمالقة التقنية في وحدات معالجة الرسوميات: التأمين غير المتماثل وبوابة رسوم الجيل القادم</title><link href="https://thakicloud.github.io/ar/news/gpu-overinvestment-ai-agents-sovereign-ai/" rel="alternate" type="text/html" title="المنطق الحقيقي وراء الاستثمار المفرط لعمالقة التقنية في وحدات معالجة الرسوميات: التأمين غير المتماثل وبوابة رسوم الجيل القادم" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/news/gpu-overinvestment-ai-agents-sovereign-ai</id><content type="html" xml:base="https://thakicloud.github.io/ar/news/gpu-overinvestment-ai-agents-sovereign-ai/"><![CDATA[<p>باتت كبرى شركات التقنية ومختبرات الذكاء الاصطناعي الرائدة تُصدر سندات دين لتمويل شراء وحدات معالجة الرسوميات (GPU) بكميات ضخمة. يُقدَّر إجمالي النفقات الرأسمالية لأربع شركات هايبر سكيل كبرى (مايكروسوفت وجوجل وميتا وأمازون) عام 2026 بنحو $725B، أي بزيادة 77% عن العام السابق. عند هذا المستوى، تبدو الحيرة مشروعة: هل هذا استثمار مفرط؟ في عصر يمكن فيه للشركات اللاحقة أن تلحق بالأداء نفسه بتكلفة أقل بكثير عبر التقطير (distillation)، فهل يبدو منطقيًا إنفاق مئات المليارات من أجل نموذج أفضل بضعة أشهر؟</p>

<p><img src="/assets/images/gpu-overinvestment-ai-agents-sovereign-ai-hero.png" alt="صورة مفاهيمية تُجسّد بوابة مركز بيانات GPU ضخم وميزان غير متماثل" /></p>

<p>لا تُجيب هذه المقالة بـ”نعم إنها فقاعة” أو “لا ليست كذلك”. بدلًا من ذلك، تتناول المنطقَين الهيكليَّين اللذين يُحرِّكان إنفاق عمالقة التقنية، وما يعنيانه لشركات البنية التحتية كشركتنا وللعملاء من قطاع المؤسسات. نقطة الانطلاق كانت تحليلًا دار في منصة X (<a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway thread</a>)، وقد تحققنا من الأرقام الجوهرية بالعودة إلى مصادرها الأولية.</p>

<h2 id="لماذا-يبدو-الأمر-كاستثمار-مفرط">لماذا يبدو الأمر كاستثمار مفرط</h2>

<p>التقطير أسلوب يُجمَّع فيه مخرجات النماذج الحدية الباهظة الثمن لتدريب نماذج أرخص. بمعنى آخر، يستطيع اللاحقون استنساخ القدرات التي دفع فيها الرواد ثمنًا باهظًا، وذلك بتكلفة منخفضة. من هنا تتشكل مقولة “مهما أنفق القادة، ستضيق الفجوة سريعًا”. وهو ما يُؤكده الواقع فعلًا: النماذج مفتوحة المصدر والشركات المتأخرة تُقلّص الفجوة في نتائج المعايير المرجعية بوتيرة متسارعة.</p>

<p>إذا اقتصر الأمر على هذا، فقد يكون الاستثمار مفرطًا بالفعل. لكن الحساب يتغير حين ندرك أن ما تشتريه الشركات الرائدة ليس “تفوقًا نموذجيًا لبضعة أشهر”.</p>

<h2 id="التأمين-غير-المتماثل-ما-تشتريه-الشركات-الرائدة-فعلًا">التأمين غير المتماثل: ما تشتريه الشركات الرائدة فعلًا</h2>

<p>السبب الحقيقي لشراء عمالقة التقنية لوحدات GPU ليس تحقيق تفوق في الأداء يمتد من 3 إلى 6 أشهر، بل هو التأمين ضد احتمال أن تقع قفزة كبرى في قدرات الذكاء الاصطناعي وهم بعيدون عنها. الأمر بسيط: حجم الخسارة في كلا السيناريوين متباين تباينًا صارخًا.</p>

<p>إن وقعت القفزة وكانوا غائبين عنها، فإن أعمالهم الجوهرية التي تُقاس قيمتها بالتريليونات (كالبحث والحوسبة السحابية والأدوات المكتبية) ستتزعزع في لحظة. هذا هو سيناريو “جوجل تصبح ياهو”. في المقابل، إن لم تقع القفزة ووجدوا أنفسهم قد بالغوا في الاستثمار، فإن أعمالهم الجوهرية تبقى سليمة، كما أن وحدات GPU ومراكز البيانات المكتسبة لا تتحول إلى صفر. أحد طرفَي التوزيع يعني “اندثار مبرر وجودك”، والطرف الآخر يعني “خسائر في الاستهلاك”. أمام هذا التباين الصارخ، يميل قرار الشركة العاقلة في ظل عدم اليقين نحو الاستثمار المفرط. إنها ليست فقاعة، بل استجابة عقلانية لهيكل مكافأة غير متماثل.</p>

<h2 id="القفزة-ليست-روبوت-محادثة-أذكى-بل-موثوقية--task-horizon">“القفزة” ليست روبوت محادثة أذكى، بل موثوقية × task horizon</h2>

<p>إذن، ما الذي نعنيه بـ”القفزة”؟ ليست روبوت محادثة أكثر ذكاءً ولا نقاطًا أعلى في المعايير المرجعية. المقصود هو القدرة على إتمام مهام متعددة الخطوات بشكل مستقل دون أن ينهار الأداء في المنتصف، أي حاصل ضرب الموثوقية في task horizon.</p>

<p>جهة القياس الفعلي لهذا الأخير هي METR (أشار الخيط الأصلي إلى أنثروبيك، لكن المصدر الدقيق هو بحث METR المعنون <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">“Measuring AI Ability to Complete Long Tasks”</a>). وثّقت METR أن طول المهمة التي يستطيع الذكاء الاصطناعي إتمامها بموثوقية 50% (مقاسةً بالوقت المكافئ لجهد بشري) تضاعف كل سبعة أشهر تقريبًا من 2019 حتى 2025. والأهم أن فترة التضاعف تقلّصت في 2024-2025 إلى نحو أربعة أشهر، وهي علامة واضحة على أن الوتيرة تتسارع.</p>

<p>أما الموثوقية، فالحساب بسيط ويكشف حدًّا فاصلًا. وكيل بموثوقية 95% لكل خطوة يُتمّ مهمة من 20 خطوة بنجاح باحتمالية 0.95^20، أي نحو 36% فحسب. هذا يعني أن الإنسان يظل ضروريًا للمراجعة في كل خطوة، فلا وفر في الكلفة. إذا ارتفعت الموثوقية إلى 99%، يقفز معدل النجاح إلى نحو 82%، ومع 99.9% يبلغ نحو 98%. الموثوقية ترتفع بصورة خطية، لكن القيمة الاقتصادية تقفز قفزة درجية لحظة تجاوز العتبة التي يمكن فيها إزاحة الإنسان من الحلقة. هذه القفزة الدرجية هي ما يراهن عليه عمالقة التقنية.</p>

<h2 id="دوافع-الإنفاق-تختلف-بين-الشركات-الأربع-الكبرى-والمختبرات-المتخصصة">دوافع الإنفاق تختلف بين الشركات الأربع الكبرى والمختبرات المتخصصة</h2>

<p>حتى وإن اشترت الجميع وحدات GPU مماثلة، فإن طبقات الدوافع تختلف. بالنسبة لمايكروسوفت وجوجل وميتا وأمازون، تُمثّل GPU تأمينًا رخيصًا نسبيًا لحماية أعمال جوهرية تُقاس قيمتها بالتريليونات. مقارنةً بمخاطر تفويت القفزة، تبدو النفقات الرأسمالية أقساط تأمين محتملة. أما المختبرات المتخصصة في الذكاء الاصطناعي كـOpenAI وAnthropic، فالذكاء الاصطناعي هو أعمالها الجوهرية بالكامل. ليس بوسعها اللجوء إلى عمل آخر، لذا الإنفاق ليس تأمينًا بل بقاء. الأرقام قد تتشابه، لكن المعنى يختلف.</p>

<p>ملاحظة إضافية: ما يزيد على 60% من هذه النفقات الرأسمالية لا يذهب إلى الرقائق، بل إلى بناء محطات الطاقة ومراكز البيانات. الأرقام التي تبدو وكأنها “تسوق GPU” هي في الحقيقة رهانات على البنية التحتية للطاقة، وهو عامل آخر يُعقّد الحكم على وجود فقاعة.</p>

<h2 id="بوابة-رسوم-الجيل-القادم-موجّه-النوايا">بوابة رسوم الجيل القادم: موجّه النوايا</h2>

<p>بالتوازي مع منطق الإنفاق، يبرز سؤال جوهري: لماذا يجب الاحتفاظ بتلك المكانة بأي ثمن؟ في كل حقبة، ثمة نقطة عبور تُدير حركة المرور وتجمع رسوم العبور. في حقبة الحاسوب الشخصي كانت ويندوز، في حقبة الإنترنت كان بحث جوجل، في حقبة الهاتف المحمول كانت متاجر التطبيقات. في حقبة وكلاء الذكاء الاصطناعي، المرشّح الأقوى لاحتلال تلك المكانة هو الوكيل الذي يستقبل نوايا المستخدم ويوجّهها نحو الخدمات الملائمة، أي موجّه النوايا (intent router).</p>

<p>تخيّل السيناريو بوضوح: يقول المستخدم لوكيله “رتّب لي موعدًا للعشاء الليلة واحجز طاولة”. الوكيل يقرر أي المطاعم يعرضها للمراجعة، وأي منصة حجز يستخدم، وأي خدمة توصيل يستدعي. في تلك اللحظة، لم يعد المطعم والمنصة مرئيَّين مباشرةً للمستخدم. إذا لم يكن الوكيل قد أدرج الخدمة في قائمة مرشحيه فهي في حكم المعدومة. الهيكل الذي كان فيه “غياب عن الصفحة الأولى في نتائج البحث = فقدان حركة المرور” يتحول إلى “غياب عن توصيات الوكيل = فقدان الصفقات”. من يمسك بنقطة العبور هو من يحدد سعر التذكرة.</p>

<p>غير أن الأمانة تقتضي الإقرار بشيء: إذا أصبح الوكيل بوابة رسوم، فمقدمو البنية التحتية أنفسهم لن يكونوا بمنأى عن هذه الديناميكية تمامًا. كما أن مقولة “المؤسسات ستتحاشى الاتكال على وكلاء خارجيين” هي أقرب إلى اتجاه ناشئ منه إلى طلب مكتمل الملامح. لا تجزم هذه المقالة بذلك. ما نرصده هو إشارة متنامية: مع تضافر متطلبات سيادة البيانات والامتثال التنظيمي والذكاء الاصطناعي السيادي، يغدو هذا الاتجاه أكثر وضوحًا تدريجيًا.</p>

<h2 id="منظور-thakicloud">منظور ThakiCloud</h2>

<p>أهمية هذا المشهد بالنسبة لـThakiCloud لا تنبع من مجرد متابعة توجهات عمالقة التقنية، بل من كوننا نقع في الطبقة الوسطى من منافسة بوابات الرسوم هذه.</p>

<p>كلما اشتدت المنافسة بين عمالقة التقنية على السيطرة على طبقة موجّه النوايا، ازدادت أهمية بدائل المؤسسات الراغبة في عدم تسليم بياناتها ونماذجها لوكلاء خارجيين. ما يحتاجه هؤلاء هو بيئة تشغيل قادرة على تشغيل بنيتهم التحتية الخاصة بالوكلاء، سواء في بيئات محلية أو خاصة. البنية التحتية لأعباء عمل الذكاء الاصطناعي والتعلم الآلي المستندة إلى Kubernetes التي تقدمها ThakiCloud، وجدولة أعباء عمل GPU عبر Kueue، تضعنا تحديدًا في ذلك الموقع. على الطريق الممتد من مقدم خدمات GPU السحابية إلى مزوّد خدمات مُدارة فشريكًا لتبني الذكاء الاصطناعي في المؤسسات، نستهدف هذا الطلب على “تدخيل بوابة الرسوم داخليًا”.</p>

<p>يمسّ منطق عتبة task horizon استراتيجيةَ المنتج مباشرةً. إذا كانت القيمة الاقتصادية للوكيل تقفز درجيًا لحظة تجاوز موثوقية كل خطوة للعتبة الفاصلة، فإن قدرتنا على حمل أعباء عمل الذكاء الاصطناعي للعملاء بموثوقية عالية واستقرار ثابت ليست مجرد مقياس تشغيلي. إنها المتغير الذي يحدد ما إذا كان العميل قادرًا على إزاحة الإنسان من حلقة المراجعة أم لا. بمعنى أن استقرار البنية التحتية هو رافعة غير خطية لعائد استثمار العميل. هذا هو السبب الجوهري لإصرارنا على الاستقرار والعزل وجودة الجدولة.</p>

<h2 id="متى-يفشل-هذا-المنطق">متى يفشل هذا المنطق</h2>

<p>في سبيل التوازن، نستعرض السيناريوهات المضادة. ثمة مسارات واضحة لانهيار منطق التأمين غير المتماثل.</p>

<p>أولًا، قد يتوقف منحنى الموثوقية عند مستوى دون العتبة. إذا تمدّد task horizon لكن موثوقية كل خطوة أُوقفت دون تجاوز مستوى 99.9%، فلن تتجاوز القيمة الاقتصادية للمهام المستقلة الطويلة العتبة الدرجية أبدًا. ثانيًا، قد يبلغ التقطير والنماذج ذات الأوزان المفتوحة مستوى كافيًا يُضعف معه “ضرورة امتلاك النموذج الحدي مباشرةً”؛ عندها تفقد بوليصة التأمين التي اشترتها الشركات الرائدة قيمتها. ثالثًا، قد تعجز قيود الطاقة والمواقع والشبكات الكهربائية عن تحويل النفقات الرأسمالية إلى قدرة تشغيلية فعلية. المال المُنفق دون كهرباء كافية يعني وحدات GPU راكدة. إذا تحقق أي من هذه السيناريوهات الثلاثة، تتحول “بوليصة التأمين العقلانية” إلى “رهان مكلف خاطئ”.</p>

<p>المغزى ليس الجزم بأي الاحتمالين أصوب، بل معرفة المؤشرات التي إذا تحقق أحدها انكشف الجواب. هل تتجاوز الموثوقية العتبة الفاصلة؟ هل تحلّ النماذج مفتوحة الأوزان محل النماذج الحدية؟ هل تُواكب الطاقةُ وتيرةَ النفقات الرأسمالية؟ هذه المؤشرات الثلاثة هي نقاط المراقبة في الأرباع القادمة.</p>

<h2 id="خلاصة">خلاصة</h2>

<p>قد يكون الاستثمار الضخم لعمالقة التقنية في GPU فقاعةً، وقد يكون تأمينًا عقلانيًا. لكن حين تُقرأ عبر منظور “استجابة عقلانية لهيكل مكافأة غير متماثل + سباق للاستحواذ على بوابة رسوم الجيل القادم”، يتكشّف نظام قسري أكثر تعقيدًا ودقة من مجرد جنون جماعي. وفي الطرف الآخر من هذا السباق، يتشكّل طلب مؤسسي من شركات لا ترغب في الارتهان لتلك البوابات. ThakiCloud هي البنية التحتية المصممة تحديدًا لاستيعاب ذلك الطلب.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>خيط التحليل الأصلي: <a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway (X)</a></li>
  <li>task horizon: <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">METR, “Measuring AI Ability to Complete Long Tasks” (2025)</a>. طول المهمة التي يمكن إتمامها بموثوقية 50% تضاعف كل سبعة أشهر تقريبًا من 2019 حتى 2025، مع تسارع إلى نحو أربعة أشهر في 2024-2025</li>
  <li>النفقات الرأسمالية لشركات هايبر سكيل 2026: نحو $725B (+77% مقارنة بالعام السابق)، مع توجيه أكثر من 60% منها نحو الطاقة ومراكز البيانات: <a href="https://www.tomshardware.com/tech-industry/big-tech/big-techs-ai-spending-plans-reach-725-billion">Tom’s Hardware</a>, <a href="https://www.cnbc.com/2026/02/06/google-microsoft-meta-amazon-ai-cash.html">CNBC</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="ai-capex" /><category term="hyperscaler" /><category term="ai-agents" /><category term="sovereign-ai" /><category term="task-horizon" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[تُقدَّر النفقات الرأسمالية المجمَّعة لشركات هايبر سكيل الأربع الكبرى عام 2026 بنحو $725B، بزيادة 77% عن العام السابق. تُقرأ هذه النفقات التي تبدو وكأنها فقاعة عبر منظورين هيكليين: التأمين غير المتماثل وبوابة رسوم موجّه النوايا، ثم تُتحقق بيانات task horizon الصادرة عن METR والرياضيات الخاصة بعتبة الموثوقية، لتُستخلص في نهاية المطاف دلالاتها للطلب المؤسسي الرافض للارتهان وموقع ThakiCloud بوصفه بنيةً تحتيةً مستقلة لوكلاء الذكاء الاصطناعي مستندةً إلى Kubernetes وKueue.]]></summary></entry><entry xml:lang="ar"><title type="html">ما يكشفه انقلاب حصص OpenRouter: التوكن ليس إيرادًا، وقيمة الحياد بين النماذج</title><link href="https://thakicloud.github.io/ar/news/openrouter-china-model-share-vendor-neutral/" rel="alternate" type="text/html" title="ما يكشفه انقلاب حصص OpenRouter: التوكن ليس إيرادًا، وقيمة الحياد بين النماذج" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/news/openrouter-china-model-share-vendor-neutral</id><content type="html" xml:base="https://thakicloud.github.io/ar/news/openrouter-china-model-share-vendor-neutral/"><![CDATA[<p>OpenRouter منصة يستخدمها ملايين المطورين للوصول إلى نماذج لغوية متعددة عبر واجهة برمجية موحدة. ولأنها تعكس الاستخدام الفعلي من قِبَل مطورين حساسين للتكلفة، يُستشهد بها كثيرًا مؤشرًا متقدمًا على السوق. وفي هذه المنصة، انخفضت حصة توكن النماذج الأمريكية من نحو 70% إلى نحو 30% خلال عام واحد.</p>

<p><img src="/assets/images/openrouter-china-model-share-vendor-neutral-hero.png" alt="صورة مفاهيمية تجسّد إعادة توزيع تدفقات التوكن بين عقد نماذج متعددة" /></p>

<p>يتناول هذا المقال التحقق من هذه البيانات، ثم يكشف طبقةً ثانيةً يسهل إغفالها من العنوان وحده، قبل أن يستعرض ما يعنيه ذلك لاستراتيجية ThakiCloud وPaxis.</p>

<h2 id="ماذا-حدث">ماذا حدث؟</h2>

<p>لنبدأ بالأرقام. كانت حصة توكن النماذج الأمريكية (OpenAI وAnthropic وGoogle) تبلغ نحو 70% في منتصف عام 2025، ثم هبطت إلى نحو 30% في منتصف 2026. وفي الفترة ذاتها، ارتفعت حصة النماذج الصينية (DeepSeek وQwen وMiniMax وMoonshot وTencent وغيرها) من أقل من 2% قبل عام إلى نحو 46%. وجاءت نقطة التحول في الأسبوع الواقع بين 9 و15 فبراير 2026، حين تجاوزت التوكنات التي عالجتها النماذج الصينية 4.12T، متخطيةً 2.94T للنماذج الأمريكية للمرة الأولى.</p>

<p>تتباين الأرقام الدقيقة من مصدر لآخر. فالمحلل الذي نشر هذا الاتجاه على نطاق واسع رصد تراجعًا أمريكيًا من 72% إلى 33% في مقابل 47% للنماذج الصينية. أما التجميع الدقيق الذي يفصل حركة المرور غير المحددة المصدر فيُظهر نحو 46% للنماذج الصينية و36% للأمريكية. في كلتا الحالتين الاتجاه واحد، وينبغي فقط الانتباه إلى أن مقارنة الرقمين مباشرةً (كـ”33% أمريكي مقابل 47% صيني”) تُخفي دلو حركة المرور غير المحددة المصدر.</p>

<h2 id="لماذا-كان-هذا-التحول-سريعًا">لماذا كان هذا التحول سريعًا؟</h2>

<p>المحرك الرئيسي لهذا التحول هو التوجه المتسارع للمختبرات الصينية الكبرى نحو النماذج مفتوحة الأوزان. أصدرت DeepSeek نموذجَي R1 وV3 بصورة مجانية في جوهرها، مُقتربةً من جودة الاستدلال لدى أعلى النماذج. كما حقق Qwen من Alibaba أداءً متميزًا في مهام متعددة اللغات والبرمجة. يتمتع كلا السلسلتين بترخيصَي MIT وApache اللذين يتيحان الاستخدام التجاري بحرية، مما أسهم في رفع معدل تبني المطورين لهما. وأصبح Qwen أكثر النماذج المفتوحة تنزيلًا على Hugging Face متجاوزًا Llama.</p>

<p>ثمة تحليلات ترى أن قيود تصدير رقائق Nvidia (تقييد H100 وH200 وB200 عن الصين) أفضت بصورة مفارقة إلى نتيجة عكسية: شح الحوسبة وَلَّد حوافز لتحقيق الكفاءة، أي انتزاع الأداء ذاته بموارد أقل. يُضاف إلى ذلك أن شريحة واسعة من مستخدمي OpenRouter هم شركات ناشئة ومطورون أفراد حساسون للتكلفة، مما يجعل التدفق نحو النماذج ذات الأسعار والتراخيص الأفضل اتجاهًا هيكليًا.</p>

<h2 id="التوكن-ليس-إيرادًا">التوكن ليس إيرادًا</h2>

<p>إذا اكتفيت بالعنوان، خرجت بخلاصة “الصين تتفوق على أمريكا”. أما إذا نظرت عمقًا، وجدت صورة مغايرة. في OpenRouter ذاته، تشير تحليلات إلى أن Anthropic تمتلك نحو 12% من حصة التوكن لكنها تستحوذ على نحو 46% من الإيرادات. وهذا مؤشر على انقسام السوق.</p>

<p>الأول سوق سلعية تفوز فيها النماذج الأرخص. تتدفق فيها كميات هائلة من التوكنات لكن الهامش فيها ضئيل. والثاني سوق القيمة العالية، حيث تشمل المهام ذات التكلفة المرتفعة للفشل (كالبرمجة أو الوكلاء المستقلين) نماذجَ أدق أداءً تستحوذ على الإيرادات رغم ارتفاع سعرها. حصة التوكن تعكس السوق الأول، وحصة الإيرادات تعكس الثاني. والاثنتان ليستا المقياس ذاته.</p>

<p>يجب إضافة نقطة أخرى: قاعدة مستخدمي OpenRouter منحازة نحو المطورين الحساسين للتكلفة وليست ممثلة للسوق المؤسسي بأكمله. من يقرأ انقلاب الحصص مباشرةً باعتباره “هزيمةً أمريكية” يتجاهل هذين الاعتبارين ويقفز إلى استنتاج مبالغ فيه. الحدث الحقيقي ليس انتصارًا وهزيمة، بل إعادة هيكلة للسوق نحو الانفصال بين التوكن والإيرادات.</p>

<h2 id="منظور-thakicloud-وpaxis">منظور ThakiCloud وPaxis</h2>

<p>هذا الانفصال بالذات هو النقطة المواتية لاستراتيجية ThakiCloud وPaxis. نوضح ذلك في محورين.</p>

<p>أولًا: الحياد بين النماذج. في بيئة تنقسم فيها السوق بين سلعية وعالية القيمة وتتبدل فيها تصنيفات النماذج كل فصل، فإن البنية الأكثر مرونة هي التي لا تُقيّد نفسها ببائع محدد. تتبنى Paxis نهجًا للتوجيه المحايد بين النماذج يتيح للعملاء اختيار المقايضة بين التكلفة والأداء مباشرةً، بأسلوب مماثل لما يفعله OpenRouter. صعود النماذج الصينية المفتوحة ليس تهديدًا بل دعم لهذه الاستراتيجية: أي نموذج يرتفع يمكن إدراجه كمواطن درجة أولى، فتصبح تقلبات السوق فرصًا.</p>

<p>ثانيًا: طبقة الامتثال. حين تبدأ المؤسسات باستخدام DeepSeek أو Qwen لدواعي التكلفة، يأتي السؤال الفوري عن شروط الترخيص التجاري وحوكمة البيانات. البنية التحتية لـThakiCloud المبنية على Keycloak للتعددية المستأجرة وArgoCD لـGitOps تتوافق تقنيًا مع استضافة نماذج متعددة. غير أن الصادق قوله: طبقة التحقق التلقائي من التراخيص التجارية لكل نموذج وامتثال البيانات لكل عميل هي واجب لم يُنجز بعد. هذا فراغ وفي الوقت ذاته الفرصة الأوضح: الجهة التي توفر خط استدلال يدعم النماذج الصينية المفتوحة كمواطنين درجة أولى مع طبقة التحقق من التراخيص والبيانات ستكسب عملاء القطاعات المنظمة.</p>

<h2 id="متى-يضعف-هذا-المنطق">متى يضعف هذا المنطق؟</h2>

<p>للإنصاف، نورد أيضًا السيناريوهات المعاكسة. أولًا: قرارات الشراء المؤسسية قد تسلك مسارًا مغايرًا لمسار الاستخدام الفعلي للمطورين، إذ لا ضمان بأن منحنى حصة التوكن سيُترجم تلقائيًا إلى تبني مؤسسي. ثانيًا: إذا أعاقت مخاطر بيانات النماذج الصينية اعتمادَها في القطاعات شديدة التنظيم كالمال والقطاع العام، فقد ينقسم منحنى الحصة تباعًا على أساس قطاعي. ثالثًا: دلو حركة المرور غير المحددة المصدر ضخم مما يجعل الأرقام الدقيقة تتذبذب من مصدر لآخر.</p>

<p>المؤشرات التي ينبغي متابعتها ثلاثة: هل سيسلك منحنى حصة الإيرادات الاتجاه ذاته الذي يسلكه منحنى حصة التوكن؟ وهل تتصاعد فعليًا معدلات تبني النماذج الصينية في القطاعات المنظمة؟ وهل يظهر الاتجاه ذاته في بوابات المؤسسات خارج OpenRouter؟</p>

<h2 id="خلاصة">خلاصة</h2>

<p>انقلاب الحصص على OpenRouter حقيقي. لكنه ليس “هزيمةً أمريكية”. إنه وجه واحد من وجوه إعادة هيكلة السوق نحو الانفصال بين التوكن والإيرادات. الرابح هو من لا يُقيّد نفسه بأي نموذج بعينه أيًا كان الصاعد، ومن يمتلك طبقة التحقق اللازمة لاستضافته بصورة قانونية وآمنة. وهذا هو الموضع الذي تستهدفه ThakiCloud وPaxis.</p>

<p>اقرأ أيضًا: <a href="/ar/news/gpu-overinvestment-ai-agents-sovereign-ai/">المنطق الحقيقي وراء إفراط كبرى شركات التقنية في الاستثمار في وحدات GPU: التأمين غير المتماثل وبوابات العبور للجيل القادم</a></p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>التحليل الأصلي: <a href="https://x.com/FurkanGozukara">@FurkanGozukara (X)</a></li>
  <li>بيانات حصص OpenRouter: <a href="https://officechai.com/ai/share-of-us-models-being-used-on-openrouter-has-collapsed-from-70-to-30-over-the-past-year/">officechai</a>، <a href="https://cryptobriefing.com/openrouter-us-models-token-share-collapse/">cryptobriefing</a>، <a href="https://www.datagravity.dev/p/chinas-open-weight-takeover">Data Gravity</a>، <a href="https://pro.stockalarm.io/blog/openrouter-llm-rankings-investor-analysis">stockalarm</a></li>
  <li>انفصال حصة التوكن عن حصة الإيرادات: <a href="https://x.com/Normal_2610/status/2070405462881665341">Normal Guy (X)</a></li>
  <li>مخاطر بيانات النماذج الصينية: <a href="https://www.techtimes.com/articles/317352/20260529/chinese-ai-models-lead-openrouter-traffic-coding-gains-come-china-data-risk.htm">TechTimes</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="openrouter" /><category term="china-llm" /><category term="open-weight-models" /><category term="deepseek" /><category term="qwen" /><category term="model-neutrality" /><category term="paxis" /><summary type="html"><![CDATA[انخفضت حصة توكن النماذج الأمريكية على OpenRouter من نحو 70% إلى نحو 30% خلال عام واحد، وارتفعت النماذج الصينية مفتوحة الأوزان إلى نحو 46%. يتحقق هذا المقال من البيانات ويحلل طبقة ثانية أعمق تتمثل في الانفصال بين حصة التوكن وحصة الإيرادات، مع استعراض موضع ThakiCloud وPaxis في ما يتعلق بالتوجيه المحايد للنماذج وطبقة الامتثال للتراخيص والبيانات.]]></summary></entry><entry xml:lang="en"><title type="html">The Real Logic Behind Big Tech’s GPU Overinvestment: Asymmetric Insurance and the Next Tollgate</title><link href="https://thakicloud.github.io/en/news/gpu-overinvestment-ai-agents-sovereign-ai/" rel="alternate" type="text/html" title="The Real Logic Behind Big Tech’s GPU Overinvestment: Asymmetric Insurance and the Next Tollgate" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/news/gpu-overinvestment-ai-agents-sovereign-ai</id><content type="html" xml:base="https://thakicloud.github.io/en/news/gpu-overinvestment-ai-agents-sovereign-ai/"><![CDATA[<p>Big tech and frontier AI labs are buying up GPUs at a pace that requires issuing bonds. The combined capex estimate for four hyperscalers (Microsoft, Google, Meta, Amazon) in 2026 is roughly $725 billion, up 77% from the prior year. At this scale, it is natural to ask whether this qualifies as overinvestment. In an era when latecomers can close the performance gap through distillation at a fraction of the cost, does burning hundreds of billions of dollars for a model that is only marginally better for a few months make sense?</p>

<p><img src="/assets/images/gpu-overinvestment-ai-agents-sovereign-ai-hero.png" alt="Conceptual image depicting a large-scale GPU data center gateway and an asymmetric scale" /></p>

<p>This article does not answer that question with “bubble” or “not a bubble.” Instead, it examines two structural logics driving big tech spending and considers what they mean for infrastructure providers and enterprise customers. The starting point was an analysis that circulated widely on X (<a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway thread</a>), and key figures were verified against primary sources.</p>

<h2 id="why-it-looks-like-overinvestment">Why It Looks Like Overinvestment</h2>

<p>Distillation is the technique of collecting outputs from expensive frontier models and using them to train cheaper in-house models. For latecomers, it means replicating capabilities at lower cost that the frontier player already paid to develop. The logic holds: no matter how much money the leader pours in, the gap closes quickly. And it is true that open-source and latecomer models have rapidly narrowed benchmark gaps against top-tier models.</p>

<p>Read this far and overinvestment seems obvious. But if what the leader is buying is not “a few months of model advantage,” the math changes.</p>

<h2 id="asymmetric-insurance-what-the-leaders-are-actually-buying">Asymmetric Insurance: What the Leaders Are Actually Buying</h2>

<p>The real reason big tech buys GPUs is not a three-to-six-month performance lead. It is insurance: the right to be a player with direct leverage when a large capability jump occurs. The loss asymmetry between the two scenarios is extreme.</p>

<p>If a jump happens and you are not there, your trillion-dollar core business (search, cloud, office) can unravel overnight. Think Google becoming Yahoo. If the jump never happens and you turn out to have overinvested, your core business survives intact and the GPUs and data centers you bought do not go to zero. One tail is “the reason your company exists disappears.” The other tail is “depreciation losses.” When the loss magnitudes are that asymmetric, the rational choice for a company operating under uncertainty tilts toward overinvestment. This is not a bubble. It is a rational response to an asymmetric payoff structure.</p>

<h2 id="the-jump-is-reliability-x-task-horizon-not-a-smarter-chatbot">“The Jump” Is Reliability x Task Horizon, Not a Smarter Chatbot</h2>

<p>The key question then is what that jump actually means. It is not a chatbot that scores a few more points on a benchmark. It is the product of reliability and task horizon: the ability to carry multi-step work through to completion without collapsing, even without human intervention.</p>

<p>METR measured this task horizon directly. The original thread cited Anthropic, but the accurate source is METR’s <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">“Measuring AI Ability to Complete Long Tasks”</a> study. METR reported that the length of tasks an AI can complete at 50% reliability, measured in human-equivalent time, has doubled roughly every seven months from 2019 to 2025. More striking, from 2024 to 2025 that doubling period compressed to roughly four months. The trend is accelerating.</p>

<p>On the reliability side, simple arithmetic makes the threshold visible. An agent with 95% per-step reliability completing a 20-step task succeeds with probability 0.95^20, roughly 36%. A human must verify every step, so there is no labor saving. The same task at 99% reliability yields about 82% success; at 99.9% it reaches roughly 98%. Reliability climbs linearly, but the moment it crosses the threshold where you can remove humans from the loop, economic value jumps discontinuously. That jump is what big tech is betting on.</p>

<h2 id="the-big-four-and-pure-labs-have-different-spending-motives">The Big Four and Pure Labs Have Different Spending Motives</h2>

<p>Even when buying the same GPUs, the motivations differ in kind. For Microsoft, Google, Meta, and Amazon, GPU capex is comparatively cheap insurance protecting trillion-dollar core businesses. Against the risk of missing a capability jump, the capex is a manageable premium. For pure AI labs like OpenAI and Anthropic, GPUs are the core business. There is no separate business to fall back on, so the spending is not insurance but survival. The same numbers carry different meaning.</p>

<p>One more note: more than 60% of this capex goes not to chips but to power and data center construction. Numbers that look like “GPU shopping” are actually closer to bets on power infrastructure, which further complicates a simple bubble verdict.</p>

<h2 id="the-next-tollgate-intent-router">The Next Tollgate: Intent Router</h2>

<p>As important as the spending logic is the question of why that position must be held at any cost. Every era has had a tollgate controlling the critical chokepoint. Windows in the PC era. Google Search in the internet era. App stores in the mobile era. In the AI agent era, the tollgate is likely to be the agent that receives user intent and routes it to the appropriate services: the intent router.</p>

<p>Picture it concretely. A user tells an agent: “Set up dinner plans for tonight and make the reservation.” The agent decides which restaurants to surface as candidates, which booking platform to route through, which delivery service to call. At that moment, restaurants and platforms are no longer exposed directly to the user. If you are not in the agent’s candidate list, you effectively do not exist. The structure shifts from “fall off page one of search results and lose traffic” to “fall out of agent recommendations and lose transactions.” Whoever holds the chokepoint sets the toll.</p>

<p>There is something to be honest about here, though. If agents become tollgates, infrastructure providers are not entirely insulated from that dynamic either. And the premise that “enterprises will resist dependency on external agents” is closer to a trend forming than a settled demand. This article does not claim otherwise. What we observe are signals: data sovereignty, regulatory compliance, and sovereign AI requirements converging to make that trend increasingly legible.</p>

<h2 id="the-thakicloud-angle">The ThakiCloud Angle</h2>

<p>Why this picture matters for ThakiCloud is not because we need to track big tech trends. It is because we sit in the middle layer of that tollgate competition.</p>

<p>The harder big tech competes to control the intent-router layer, the more valuable the alternatives become for enterprises that do not want to hand their data and models to external agents. What those enterprises need is an execution environment for running their own agent infrastructure on-prem or in a private cloud. ThakiCloud’s Kubernetes-based AI/ML workload infrastructure and Kueue-based GPU workload scheduling sit exactly in that space. On the path from GPU cloud MSP to enterprise AI adoption partner, we are targeting this “tollgate internalization” demand.</p>

<p>The task horizon threshold logic also connects directly to product strategy. If an agent’s economic value jumps discontinuously the moment per-step reliability crosses the threshold where humans can leave the loop, then how reliably and stably we carry a customer’s AI workloads is not just an operational quality metric. It is the variable that determines whether the customer crosses the threshold that lets them remove humans from the verification loop. Infrastructure stability is a nonlinear lever on customer ROI. That is why we are obsessive about reliability, isolation, and scheduling quality.</p>

<h2 id="when-this-logic-breaks-down">When This Logic Breaks Down</h2>

<p>For balance, here are the counter-scenarios. The asymmetric insurance logic can unravel in clear ways.</p>

<p>First, the reliability curve could plateau before it reaches the threshold. If task horizon keeps extending but per-step reliability stalls before 99.9%, the economic value of long autonomous tasks never clears the step. Second, distillation and open-weight models could become good enough that owning the frontier directly stops mattering. The insurance the leaders bought would depreciate. Third, power, land, and grid constraints could prevent capex from translating into actual operational capacity. Spending the money without being able to draw the power keeps the GPUs idle. If any one of these materializes, “rational insurance” becomes “expensive misjudgment.”</p>

<p>The point is not to pick a side. It is to know which indicators separate the outcomes. Does reliability cross the threshold? Do open-weight models substitute for the frontier? Does power keep pace with capex? These three are the metrics to watch over the coming quarters.</p>

<h2 id="summary">Summary</h2>

<p>Big tech’s GPU overinvestment may be a bubble or it may be rational insurance. Reading it as “a rational response to an asymmetric payoff structure, combined with a race to capture the next tollgate” reveals something far more structured than mere mania. And on the other side of that race, enterprise demand to avoid tollgate dependency is forming. ThakiCloud is the infrastructure built for that side.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li>Original analysis thread: <a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway (X)</a></li>
  <li>Task horizon: <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">METR, “Measuring AI Ability to Complete Long Tasks” (2025)</a>. Task length completable at 50% reliability doubled roughly every 7 months from 2019 to 2025; the 2024-2025 interval accelerated to roughly 4 months.</li>
  <li>2026 hyperscaler capex ~$725B (+77% YoY), with 60%+ of spend going to power and data centers: <a href="https://www.tomshardware.com/tech-industry/big-tech/big-techs-ai-spending-plans-reach-725-billion">Tom’s Hardware</a>, <a href="https://www.cnbc.com/2026/02/06/google-microsoft-meta-amazon-ai-cash.html">CNBC</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="ai-capex" /><category term="hyperscaler" /><category term="ai-agents" /><category term="sovereign-ai" /><category term="task-horizon" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[Hyperscaler capex in 2026 reaches roughly $725B, up 77% year over year. This article reads that spending through two structural lenses: asymmetric insurance and the intent-router tollgate. It validates the framing against METR's task horizon data and the reliability-threshold math, then maps what it means for enterprises that want to avoid tollgate dependency and for ThakiCloud's position as a K8s/Kueue-based sovereign AI infrastructure provider.]]></summary></entry><entry xml:lang="en"><title type="html">What OpenRouter’s Share Reversal Actually Tells Us: Tokens Are Not Revenue, and Why Model Neutrality Matters</title><link href="https://thakicloud.github.io/en/news/openrouter-china-model-share-vendor-neutral/" rel="alternate" type="text/html" title="What OpenRouter’s Share Reversal Actually Tells Us: Tokens Are Not Revenue, and Why Model Neutrality Matters" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/news/openrouter-china-model-share-vendor-neutral</id><content type="html" xml:base="https://thakicloud.github.io/en/news/openrouter-china-model-share-vendor-neutral/"><![CDATA[<p>OpenRouter is the platform where millions of developers pick and call multiple LLMs through a single API. Because it reflects real usage by cost-sensitive developers, it gets cited often as a leading indicator for the broader market. On that platform, US model token share dropped from roughly 70% to roughly 30% in a single year.</p>

<p><img src="/assets/images/openrouter-china-model-share-vendor-neutral-hero.png" alt="Conceptual image showing token flows being redistributed across multiple model nodes" /></p>

<p>This post verifies that data, surfaces the second layer the headline tends to obscure, and draws out what it means for ThakiCloud and Paxis strategy.</p>

<h2 id="what-happened">What Happened</h2>

<p>Start with the numbers. US model token share (OpenAI, Anthropic, Google) was around 70% in mid-2025. By mid-2026 it had fallen to about 30%. Over the same period, Chinese models (DeepSeek, Qwen, MiniMax, Moonshot, Tencent, and others) climbed from under 2% a year earlier to roughly 46%. The inflection point was the week of February 9-15, 2026, when Chinese models processed 4.12 trillion tokens against 2.94 trillion for US models – the first time they crossed.</p>

<p>Different analysts land at slightly different digits. The analyst whose work spread this data most widely counted US models at 72% dropping to 33%, with Chinese models at 47%. A more precise count that separates unidentified traffic puts Chinese models at about 46% and US models at about 36%. Either way, the direction is the same. The one thing to watch is that comparisons like “US 33% vs China 47%” obscure the unidentified bucket, so treat the exact numbers as directional rather than definitive.</p>

<h2 id="why-it-happened-so-fast">Why It Happened So Fast</h2>

<p>The driver is a sharp shift toward open-weight releases from leading Chinese labs. DeepSeek released R1 and V3 at effectively no cost and achieved near-top reasoning quality. Alibaba’s Qwen series delivered strong results on multilingual and coding tasks. Both families carry MIT or Apache licenses, which made commercial adoption straightforward and pulled developer uptake up fast. Qwen now leads Hugging Face download charts ahead of Llama.</p>

<p>There is also an argument that Nvidia export controls – the restrictions on H100, H200, and B200 sales to China – created a paradoxical incentive. Constrained on compute, Chinese labs had stronger motivation to squeeze more performance from fewer resources. Add the fact that a large portion of OpenRouter’s user base is cost-sensitive startups and individual developers, and a structural tilt toward better price-to-license ratios becomes predictable.</p>

<h2 id="but-tokens-are-not-revenue">But Tokens Are Not Revenue</h2>

<p>The headline reading is “China beat the US.” One layer deeper, a different picture appears. On the same OpenRouter platform, one analysis found that Anthropic holds about 12% of token share but captures roughly 46% of revenue. That is a signal of market bifurcation.</p>

<p>One segment is a commodity market where the cheapest model wins. High token volumes flow through it, but margins are thin. The other is a premium segment – coding, autonomous agents, tasks where failure is expensive – where the model that actually performs commands revenue even at higher prices. Token share reflects the first segment. Revenue share reflects the second. They are not the same metric.</p>

<p>There is one more thing to add. OpenRouter’s user base skews heavily toward cost-sensitive developers, which means it does not represent the full enterprise market. Reading the share reversal directly as “US defeat” means leaving out both of those points and jumping to a conclusion that overstates what the data shows. The real event is not a win or a loss – it is a market splitting into two tracks: tokens and revenue.</p>

<h2 id="the-thakicloud-and-paxis-angle">The ThakiCloud and Paxis Angle</h2>

<p>That split is exactly where ThakiCloud and Paxis have a favorable position. Two points.</p>

<p>First, model neutrality. In a market where commodity and premium tracks diverge and model rankings flip every quarter, the most resilient structure is one that is not locked to any single vendor. Paxis aims at model-neutral routing – letting customers choose their own price-performance tradeoffs the way OpenRouter does, but inside an enterprise-grade layer. The rise of Chinese open-weight models is not a threat to this strategy; it reinforces it. Whatever model rises to the top can be treated as a first-class citizen, which means market volatility becomes opportunity rather than disruption.</p>

<p>Second, the compliance layer. When enterprises start running DeepSeek or Qwen families to control costs, the questions that follow immediately are about commercial license terms and data governance. ThakiCloud’s Keycloak-based multi-tenancy and ArgoCD GitOps pipeline are technically well-suited to support diverse model backends. But to be honest, the layer that automatically validates per-model commercial licenses and per-customer data compliance is still homework we need to build. That is both a gap and the clearest opportunity in front of us. The provider that combines a first-class inference pipeline for Chinese open-weight models with license and data validation tooling will be the one that wins regulated-industry customers.</p>

<h2 id="where-this-logic-weakens">Where This Logic Weakens</h2>

<p>For balance, here are the scenarios where this reasoning breaks down.</p>

<p>First, enterprise purchasing decisions can move differently from developer usage patterns. There is no guarantee the token share curve translates directly into enterprise adoption. Second, if data risk concerns around Chinese models block uptake in heavily regulated industries like finance and government, the share curve may fragment by sector. Third, the unidentified traffic bucket is large enough that precise numbers vary meaningfully across sources.</p>

<p>Three indicators are worth watching: whether the revenue share curve follows the token share curve in the same direction; whether Chinese model adoption actually rises in regulated industries; and whether the same trend appears in enterprise AI gateways outside OpenRouter.</p>

<h2 id="summary">Summary</h2>

<p>The share reversal on OpenRouter is real. But it does not mean the US lost. It is one facet of a market restructuring in which tokens and revenue are pulling apart. The winners will be those who are not dependent on whichever model rises next – and who can provide the validation layer that makes running that model legal and safe. That is the position ThakiCloud and Paxis are building toward.</p>

<p>Related reading: <a href="/en/news/gpu-overinvestment-ai-agents-sovereign-ai/">The Real Logic Behind Big Tech’s GPU Overinvestment: Asymmetric Insurance and the Next Generation Toll Gates</a></p>

<h2 id="sources">Sources</h2>

<ul>
  <li>Original analysis: <a href="https://x.com/FurkanGozukara">@FurkanGozukara (X)</a></li>
  <li>OpenRouter share data: <a href="https://officechai.com/ai/share-of-us-models-being-used-on-openrouter-has-collapsed-from-70-to-30-over-the-past-year/">officechai</a>, <a href="https://cryptobriefing.com/openrouter-us-models-token-share-collapse/">cryptobriefing</a>, <a href="https://www.datagravity.dev/p/chinas-open-weight-takeover">Data Gravity</a>, <a href="https://pro.stockalarm.io/blog/openrouter-llm-rankings-investor-analysis">stockalarm</a></li>
  <li>Token share vs revenue share split: <a href="https://x.com/Normal_2610/status/2070405462881665341">Normal Guy (X)</a></li>
  <li>Chinese model data risk: <a href="https://www.techtimes.com/articles/317352/20260529/chinese-ai-models-lead-openrouter-traffic-coding-gains-come-china-data-risk.htm">TechTimes</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="openrouter" /><category term="china-llm" /><category term="open-weight-models" /><category term="deepseek" /><category term="qwen" /><category term="model-neutrality" /><category term="paxis" /><summary type="html"><![CDATA[US model token share on OpenRouter fell from roughly 70% to roughly 30% in a year while Chinese open-weight models climbed to about 46%. But the real story is how token share and revenue share are diverging. We examine the data, unpack the second layer that headlines miss, and lay out what model-neutral routing plus a license and data compliance layer means for ThakiCloud and Paxis.]]></summary></entry><entry xml:lang="ko"><title type="html">빅테크 GPU 과투자의 진짜 논리: 비대칭 보험과 다음 세대 톨게이트</title><link href="https://thakicloud.github.io/ko/news/gpu-overinvestment-ai-agents-sovereign-ai/" rel="alternate" type="text/html" title="빅테크 GPU 과투자의 진짜 논리: 비대칭 보험과 다음 세대 톨게이트" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/news/gpu-overinvestment-ai-agents-sovereign-ai</id><content type="html" xml:base="https://thakicloud.github.io/ko/news/gpu-overinvestment-ai-agents-sovereign-ai/"><![CDATA[<p>빅테크와 AI 프런티어 랩이 채권까지 발행하며 GPU를 쓸어담고 있습니다. 2026년 하이퍼스케일러 네 곳(마이크로소프트·구글·메타·아마존)의 합산 캐펙스 추정치는 약 7,250억 달러로, 전년 대비 77% 늘어난 규모입니다. 이쯤 되면 “이게 과잉투자 아니냐”는 의문이 나오는 게 당연합니다. 후발 주자가 증류(distillation)로 훨씬 적은 비용에 비슷한 성능을 따라잡는 시대에, 몇 달 먼저 좋아지는 모델 하나를 위해 수천억 달러를 태우는 게 합리적이냐는 것입니다.</p>

<p><img src="/assets/images/gpu-overinvestment-ai-agents-sovereign-ai-hero.png" alt="대규모 GPU 데이터센터 게이트웨이와 비대칭 저울을 형상화한 개념 이미지" /></p>

<p>이 글은 그 의문에 “거품이다 / 아니다”로 답하지 않습니다. 대신 빅테크의 지출을 움직이는 구조적 논리 두 가지를 짚고, 그것이 우리 같은 인프라 사업자와 엔터프라이즈 고객에게 무엇을 의미하는지 정리합니다. 출발점은 X에서 활발히 논의된 한 분석(<a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway 스레드</a>)이었고, 핵심 수치는 직접 1차 출처로 검증했습니다.</p>

<h2 id="과투자처럼-보이는-이유">과투자처럼 보이는 이유</h2>

<p>증류는 비싼 프런티어 모델의 출력을 모아 저렴한 자체 모델 학습에 쓰는 기법입니다. 후발 주자 입장에서는 프런티어가 먼저 비용을 치러 개척한 능력을 더 싸게 복제할 수 있습니다. 그래서 “선두가 아무리 돈을 부어도 격차는 금세 좁혀진다”는 논리가 성립합니다. 실제로 오픈소스·후발 모델이 상위 모델과의 벤치마크 격차를 빠르게 줄여온 것도 사실입니다.</p>

<p>여기까지만 보면 과투자가 맞습니다. 그런데 선두 기업이 사는 것이 “몇 달치 모델 우위”가 아니라면 셈법이 달라집니다.</p>

<h2 id="비대칭-보험-선두가-실제로-사는-것">비대칭 보험: 선두가 실제로 사는 것</h2>

<p>빅테크가 GPU를 사는 진짜 이유는 3~6개월치 성능 우위가 아니라, 능력의 큰 도약이 일어났을 때 그 자리에 직접적인 힘을 가진 플레이어로 남아 있기 위한 보험입니다. 두 시나리오의 손실 크기가 압도적으로 비대칭이기 때문입니다.</p>

<p>도약이 일어났는데 내가 거기 없다면, 검색·클라우드·오피스 같은 조 단위 본업이 순식간에 흔들립니다. 구글이 야후가 되는 시나리오입니다. 반대로 도약이 끝내 안 일어나서 내가 과투자한 것으로 판명되더라도, 본업은 그대로 살아 있고 사들인 GPU와 데이터센터가 0이 되는 것도 아닙니다. 한쪽 꼬리는 “회사의 존재 이유가 사라짐”, 다른 쪽 꼬리는 “감가상각 손실”입니다. 손실의 크기가 이렇게 비대칭이면, 불확실성 속에서 합리적 기업이 택할 수 있는 답은 과투자 쪽으로 기웁니다. 거품이 아니라 비대칭 보상 구조에 대한 합리적 반응이라는 뜻입니다.</p>

<h2 id="도약은-똑똑한-챗봇이-아니라-신뢰도--태스크-호라이즌입니다">“도약”은 똑똑한 챗봇이 아니라 신뢰도 × 태스크 호라이즌입니다</h2>

<p>그렇다면 여기서 말하는 도약이 무엇인지가 핵심입니다. 더 똑똑한 챗봇이나 벤치마크 점수 몇 점이 아닙니다. 사람이 개입하지 않아도 여러 단계짜리 작업을 끝까지 무너지지 않고 끌고 가는 능력, 즉 신뢰도와 태스크 호라이즌(task horizon)의 곱입니다.</p>

<p>이 태스크 호라이즌을 실제로 측정한 곳은 METR입니다(원 스레드는 앤트로픽으로 적었으나, 정확한 출처는 METR의 <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">“Measuring AI Ability to Complete Long Tasks”</a> 연구입니다). METR은 AI가 50% 신뢰도로 끝낼 수 있는 작업의 길이(사람 기준 소요 시간)가 2019년부터 2025년까지 약 7개월마다 두 배가 됐다고 보고했습니다. 더 주목할 점은 2024~2025년 구간에서는 그 배가 주기가 약 4개월로 짧아졌다는 것입니다. 추세가 가속하고 있다는 신호입니다.</p>

<p>신뢰도 쪽은 단순한 산수가 임계선을 분명하게 보여줍니다. 단계당 신뢰도가 95%인 에이전트가 20단계짜리 작업을 끝까지 성공할 확률은 0.95의 20제곱, 즉 약 36%에 불과합니다. 사람이 매 단계를 검수해야 하니 인건비 절감이 없습니다. 같은 작업에서 신뢰도가 99%면 성공률은 약 82%, 99.9%면 약 98%로 올라갑니다. 신뢰도는 선형으로 오르는데, 사람을 빼도 되는 임계선을 넘는 순간 경제적 가치는 계단식으로 점프합니다. 이 점프가 빅테크가 베팅하는 “도약”의 정체입니다.</p>

<h2 id="빅4와-순수-랩의-지출-동기는-다릅니다">빅4와 순수 랩의 지출 동기는 다릅니다</h2>

<p>같은 GPU를 사도 동기의 층위가 다릅니다. 마이크로소프트·구글·메타·아마존에게 GPU는 조 단위 본업을 지키는 상대적으로 싼 보험입니다. 도약을 놓치는 리스크에 비하면 캐펙스는 감당 가능한 보험료입니다. 반면 오픈AI·앤트로픽 같은 순수 AI 랩에게는 GPU가 곧 본업입니다. 도망갈 본업이 따로 없으니 지출은 보험이 아니라 생존입니다. 같은 숫자라도 의미가 다릅니다.</p>

<p>덧붙이면, 이 캐펙스의 60% 이상은 칩이 아니라 전력과 데이터센터 건설에 들어갑니다. “GPU 쇼핑”으로만 보이는 숫자가 실제로는 전력 인프라 베팅에 더 가깝다는 점도 거품 판단을 흐리게 만드는 요소입니다.</p>

<h2 id="다음-세대-톨게이트-의도-라우터">다음 세대 톨게이트: 의도 라우터</h2>

<p>지출 논리만큼 중요한 것이 “왜 그 자리를 반드시 지켜야 하는가”입니다. 시대마다 길목을 쥔 톨게이트가 있었습니다. PC 시대의 윈도우, 인터넷 시대의 구글 검색, 모바일 시대의 앱스토어입니다. AI 에이전트 시대에는 사용자의 의도를 받아 적절한 서비스로 연결해 주는 에이전트, 즉 의도 라우터(intent router)가 그 자리를 차지할 가능성이 높습니다.</p>

<p>구체적으로 그려보면 이렇습니다. 사용자가 에이전트에게 “오늘 저녁 약속 잡고 예약해 줘”라고 말합니다. 어떤 식당을 후보로 올릴지, 어느 예약 플랫폼을 거칠지, 어느 배달 서비스를 부를지를 에이전트가 정합니다. 이 순간 식당과 플랫폼은 더 이상 사용자에게 직접 노출되지 않습니다. 에이전트의 후보 목록에 들지 못하면 존재하지 않는 것과 같습니다. 검색 결과 1페이지에 못 들면 트래픽이 사라지던 구조가, 에이전트의 추천 후보에 못 들면 거래가 사라지는 구조로 옮겨가는 것입니다. 길목을 쥔 쪽이 통행세를 정합니다.</p>

<p>다만 여기서 정직해야 할 부분이 있습니다. 에이전트가 톨게이트가 된다면, 인프라 사업자 역시 그 역학에서 완전히 자유롭지 않습니다. 그리고 “엔터프라이즈가 외부 에이전트에 종속되기 싫어할 것”이라는 명제는 아직 완결된 수요라기보다 형성 중인 흐름에 가깝습니다. 이 글은 그것을 단정하지 않습니다. 우리가 관찰하는 것은, 데이터 주권·규제 준수·소버린 AI 요구가 겹치면서 그 흐름이 점점 또렷해지고 있다는 신호입니다.</p>

<h2 id="thakicloud-관점">ThakiCloud 관점</h2>

<p>이 구도가 ThakiCloud에 중요한 이유는 빅테크 동향 파악 때문이 아닙니다. 톨게이트 경쟁의 중간 레이어에 우리가 있기 때문입니다.</p>

<p>빅테크가 의도 라우터 레이어를 장악하려 경쟁할수록, 자신의 데이터와 모델을 외부 에이전트에 넘기고 싶지 않은 엔터프라이즈의 선택지가 중요해집니다. 그들에게 필요한 것은 온프렘 또는 프라이빗 환경에서 자체 에이전트 인프라를 돌릴 수 있는 실행 환경입니다. ThakiCloud가 제공하는 쿠버네티스 기반 AI/ML 워크로드 인프라, 그리고 Kueue를 통한 GPU 워크로드 스케줄링이 바로 그 자리에 있습니다. GPU 클라우드 레이어에서 MSP로, 다시 엔터프라이즈 AI 도입 파트너로 넘어가는 경로에서, 우리는 이 “톨게이트 내재화” 수요를 겨냥합니다.</p>

<p>태스크 호라이즌의 임계선 논리는 제품 전략에도 직접 닿습니다. 에이전트의 단계당 신뢰도가 임계선을 넘는 순간 경제적 가치가 계단식으로 뛴다면, 고객의 AI 워크로드를 얼마나 높은 신뢰도로 안정적으로 떠받치느냐는 단순한 운영 품질 지표가 아닙니다. 그것은 고객이 사람을 검수 루프에서 빼도 되는 임계선을 넘느냐 마느냐를 가르는 변수입니다. 인프라 안정성이 곧 고객 ROI의 비선형 레버라는 뜻입니다. 우리가 안정성·격리·스케줄링 품질에 집착하는 이유가 여기에 있습니다.</p>

<h2 id="이-논리가-틀리는-경우">이 논리가 틀리는 경우</h2>

<p>균형을 위해 반대 시나리오도 적어 둡니다. 비대칭 보험 논리가 무너지는 길은 분명히 있습니다.</p>

<p>첫째, 신뢰도 곡선이 임계선 앞에서 정체될 수 있습니다. 태스크 호라이즌이 길어져도 단계당 신뢰도가 99.9%대에서 더 오르지 않으면, 긴 자율 작업의 경제적 가치는 끝내 계단을 넘지 못합니다. 둘째, 증류와 오픈웨이트 모델이 충분히 좋아져서 “프런티어를 직접 소유할 필요”가 약해질 수 있습니다. 그러면 선두가 산 보험의 값어치가 떨어집니다. 셋째, 전력·부지·전력망 제약이 캐펙스를 실제 가동 능력으로 바꾸지 못하게 막을 수 있습니다. 돈을 써도 전기를 못 끌어오면 GPU는 멈춰 있습니다. 이 세 가지 중 하나라도 현실이 되면 “합리적 보험”은 “값비싼 오판”으로 바뀝니다.</p>

<p>요점은 어느 쪽이 맞다고 단정하는 게 아니라, 무엇을 지켜보면 답이 갈리는지를 아는 것입니다. 신뢰도가 임계선을 넘느냐, 오픈웨이트가 프런티어를 대체하느냐, 전력이 캐펙스를 따라오느냐. 이 세 지표가 향후 몇 분기의 관전 포인트입니다.</p>

<h2 id="정리">정리</h2>

<p>빅테크의 GPU 과투자는 거품일 수도, 합리적 보험일 수도 있습니다. 그러나 이를 “비대칭 보상 구조에 대한 합리적 반응 + 다음 세대 톨게이트 선점 경쟁”으로 읽으면, 단순한 광기보다 훨씬 정교한 구조적 강제가 보입니다. 그리고 그 경쟁의 반대편에는, 톨게이트에 종속되기를 원치 않는 엔터프라이즈 수요가 형성되고 있습니다. ThakiCloud는 그 자리를 위해 만들어진 인프라입니다.</p>

<h2 id="출처">출처</h2>

<ul>
  <li>원 분석 스레드: <a href="https://x.com/Tesla_Teslaway/status/2070414320631173429">@Tesla_Teslaway (X)</a></li>
  <li>태스크 호라이즌: <a href="https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/">METR, “Measuring AI Ability to Complete Long Tasks” (2025)</a>. 50% 신뢰도 작업 길이가 2019년부터 2025년까지 약 7개월마다 두 배, 2024~2025년 구간은 약 4개월로 가속</li>
  <li>2026 하이퍼스케일러 캐펙스 약 7,250억 달러(+77% YoY), 지출의 60% 이상이 전력·데이터센터: <a href="https://www.tomshardware.com/tech-industry/big-tech/big-techs-ai-spending-plans-reach-725-billion">Tom’s Hardware</a>, <a href="https://www.cnbc.com/2026/02/06/google-microsoft-meta-amazon-ai-cash.html">CNBC</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="ai-capex" /><category term="hyperscaler" /><category term="ai-agents" /><category term="sovereign-ai" /><category term="task-horizon" /><category term="kubernetes" /><category term="kueue" /><summary type="html"><![CDATA[2026년 하이퍼스케일러 캐펙스가 약 7,250억 달러로 전년 대비 77% 늘었습니다. 거품처럼 보이는 이 지출을 비대칭 보험과 의도 라우터 톨게이트라는 두 구조적 논리로 읽고, METR의 태스크 호라이즌 데이터와 신뢰도 임계선 수학으로 검증한 뒤, 톨게이트에 종속되기 싫은 엔터프라이즈 수요와 ThakiCloud의 자리(K8s·Kueue 기반 자체 에이전트 인프라)를 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">OpenRouter 점유율 역전이 말하는 것: 토큰은 매출이 아니다, 그리고 모델 중립의 값어치</title><link href="https://thakicloud.github.io/ko/news/openrouter-china-model-share-vendor-neutral/" rel="alternate" type="text/html" title="OpenRouter 점유율 역전이 말하는 것: 토큰은 매출이 아니다, 그리고 모델 중립의 값어치" /><published>2026-06-28T00:00:00+09:00</published><updated>2026-06-28T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/news/openrouter-china-model-share-vendor-neutral</id><content type="html" xml:base="https://thakicloud.github.io/ko/news/openrouter-china-model-share-vendor-neutral/"><![CDATA[<p>OpenRouter는 수백만 명의 개발자가 여러 LLM을 하나의 API로 골라 쓰는 플랫폼입니다. 어떤 모델이 실제로 얼마나 호출되는지를 비용에 민감한 개발자들의 실사용으로 보여주기 때문에, 시장의 선행 지표로 자주 인용됩니다. 그 OpenRouter에서 미국 모델의 토큰 점유율이 1년 만에 약 70%에서 약 30%로 내려앉았습니다.</p>

<p><img src="/assets/images/openrouter-china-model-share-vendor-neutral-hero.png" alt="여러 모델 노드 사이에서 토큰 흐름이 재편되는 모습을 형상화한 개념 이미지" /></p>

<p>이 글은 그 데이터를 검증하고, 헤드라인 한 줄로는 놓치기 쉬운 두 번째 층위를 짚은 뒤, 그것이 ThakiCloud와 Paxis 전략에 무엇을 의미하는지 정리합니다.</p>

<h2 id="무슨-일이-일어났나">무슨 일이 일어났나</h2>

<p>숫자부터 정리하겠습니다. 2025년 중반 약 70%였던 미국 모델(OpenAI·Anthropic·Google) 토큰 점유율은 2026년 중반 약 30%로 떨어졌습니다. 같은 기간 중국계 모델(DeepSeek·Qwen·MiniMax·Moonshot·Tencent 등)은 1년 전 2% 미만에서 약 46%까지 올라왔습니다. 변곡점은 2026년 2월 9일부터 15일 사이의 한 주였습니다. 이 주에 중국 모델이 처리한 토큰이 4.12조 개로, 미국 모델의 2.94조 개를 처음으로 앞질렀습니다.</p>

<p>수치는 매체마다 소수점이 갈립니다. 이 흐름을 널리 알린 한 분석가는 미국 72%에서 33%, 중국 47%로 집계했습니다. 반면 미식별 트래픽을 분리한 정밀 집계에서는 중국 약 46%, 미국 약 36%로 나옵니다. 어느 쪽이든 방향은 같고, “미국 33% 대 중국 47%”처럼 둘을 정면으로 빼서 비교하면 미식별 버킷이 가려진다는 점만 유의하면 됩니다.</p>

<h2 id="왜-이렇게-빨랐나">왜 이렇게 빨랐나</h2>

<p>이 변화의 동력은 중국 주요 랩의 급격한 오픈웨이트 전환입니다. DeepSeek은 R1과 V3를 사실상 무료로 공개하며 추론 품질에서 상위 모델에 근접했고, Alibaba의 Qwen 시리즈는 다국어와 코딩 태스크에서 두드러진 성과를 냈습니다. 두 계열 모두 MIT 또는 Apache 라이선스라 상업적 활용이 자유롭다는 점이 개발자 채택을 끌어올렸습니다. Qwen은 Hugging Face 다운로드에서 Llama를 제치고 가장 많이 받는 오픈 모델이 됐습니다.</p>

<p>엔비디아 반도체 수출 규제(H100·H200·B200의 대중국 제한)가 역설적으로 작용했다는 분석도 있습니다. 컴퓨팅이 부족하니 같은 성능을 더 적은 자원으로 뽑아내는 효율화 인센티브가 생겼다는 것입니다. 여기에 OpenRouter 사용자 상당수가 비용에 민감한 스타트업과 개인 개발자라는 점을 더하면, 가격과 라이선스가 유리한 쪽으로 쏠리는 흐름은 구조적입니다.</p>

<h2 id="그런데-토큰은-매출이-아닙니다">그런데 토큰은 매출이 아닙니다</h2>

<p>헤드라인만 보면 “중국이 미국을 이겼다”가 됩니다. 한 겹 들어가면 다른 그림이 보입니다. 같은 OpenRouter에서 Anthropic은 토큰 점유율이 약 12%인데 매출의 약 46%를 가져간다는 분석이 있습니다. 시장이 둘로 갈라지고 있다는 신호입니다.</p>

<p>한쪽은 가장 싼 모델이 이기는 커머디티 시장입니다. 대량의 토큰이 오가지만 마진은 박합니다. 다른 쪽은 코딩이나 자율 에이전트처럼 실패 비용이 큰 고부가 작업에서 비싸도 잘하는 모델이 매출을 가져가는 시장입니다. 토큰 점유율은 앞의 시장을 비추고, 매출 점유율은 뒤의 시장을 비춥니다. 둘은 같은 지표가 아닙니다.</p>

<p>여기에 하나를 더 보태야 합니다. OpenRouter 사용자층은 비용에 민감한 개발자에 치우쳐 있어 전체 엔터프라이즈 시장을 대표하지 않습니다. 점유율 역전을 곧바로 “미국 패배”로 읽으면, 이 두 가지를 빼놓고 과한 결론으로 건너뛰게 됩니다. 진짜 사건은 승패가 아니라 시장이 토큰과 매출로 분리되고 있다는 재편입니다.</p>

<h2 id="thakicloud와-paxis-관점">ThakiCloud와 Paxis 관점</h2>

<p>이 분리야말로 ThakiCloud와 Paxis 전략에 유리한 지점입니다. 두 가지로 나눠 정리하겠습니다.</p>

<p>첫째, 모델 중립입니다. 시장이 커머디티와 고부가로 갈라지고 모델 순위가 분기마다 뒤집히는 환경에서 가장 탄력적인 구조는 특정 벤더에 묶이지 않는 것입니다. Paxis는 고객이 OpenRouter처럼 비용과 성능의 트레이드오프를 직접 고르게 하는 모델 중립 라우팅을 지향합니다. 중국 오픈모델의 부상은 위협이 아니라 이 전략에 힘을 싣는 흐름입니다. 어느 모델이 위로 올라오든 그것을 1급 시민으로 얹을 수 있으면 시장 변동이 곧 기회가 됩니다.</p>

<p>둘째, 컴플라이언스 레이어입니다. 엔터프라이즈가 비용 때문에 DeepSeek나 Qwen 계열을 쓰기 시작하면, 곧바로 따라오는 질문이 상업 라이선스 조건과 데이터 거버넌스입니다. ThakiCloud의 Keycloak 기반 멀티테넌시와 ArgoCD GitOps 파이프라인은 다양한 모델을 얹기에 기술적으로 친화적입니다. 다만 솔직히 말하면, 모델별 상업 라이선스와 고객별 데이터 컴플라이언스를 자동으로 검증하는 레이어는 아직 갖춰야 할 숙제입니다. 이것은 공백이자 동시에 가장 분명한 기회입니다. 중국 오픈모델을 1급 시민으로 지원하는 추론 파이프라인과 라이선스·데이터 검증 레이어를 함께 제공하는 쪽이 규제 산업 고객을 잡습니다.</p>

<h2 id="이-논리가-약해지는-경우">이 논리가 약해지는 경우</h2>

<p>균형을 위해 반대 시나리오도 적어 둡니다. 첫째, 엔터프라이즈의 구매 결정은 개발자 실사용과 다르게 움직일 수 있습니다. 토큰 점유율 곡선이 그대로 엔터프라이즈 채택으로 이어진다는 보장은 없습니다. 둘째, 중국 모델의 데이터 리스크가 금융이나 공공처럼 규제가 강한 산업의 채택을 가로막으면, 점유율 곡선은 산업별로 다시 갈릴 수 있습니다. 셋째, 측정의 미식별 버킷이 커서 정밀 수치는 매체마다 흔들립니다.</p>

<p>지켜볼 지표는 셋입니다. 매출 점유율 곡선이 토큰 점유율과 같은 방향으로 가는지, 규제 산업에서 중국 모델 채택률이 실제로 오르는지, OpenRouter 바깥의 엔터프라이즈 게이트웨이에서도 같은 추세가 보이는지입니다.</p>

<h2 id="정리">정리</h2>

<p>OpenRouter의 점유율 역전은 진짜입니다. 그러나 그것이 곧 “미국 패배”는 아닙니다. 토큰과 매출이 갈라지는 시장 재편의 한 단면입니다. 어느 모델이 위로 올라오든 거기에 종속되지 않는 쪽, 그리고 그 모델을 합법적이고 안전하게 얹는 검증 레이어를 가진 쪽이 이깁니다. ThakiCloud와 Paxis가 겨냥하는 자리가 바로 거기입니다.</p>

<p>함께 읽기: <a href="/ko/news/gpu-overinvestment-ai-agents-sovereign-ai/">빅테크 GPU 과투자의 진짜 논리: 비대칭 보험과 다음 세대 톨게이트</a></p>

<h2 id="출처">출처</h2>

<ul>
  <li>원 분석: <a href="https://x.com/FurkanGozukara">@FurkanGozukara (X)</a></li>
  <li>OpenRouter 점유율 데이터: <a href="https://officechai.com/ai/share-of-us-models-being-used-on-openrouter-has-collapsed-from-70-to-30-over-the-past-year/">officechai</a>, <a href="https://cryptobriefing.com/openrouter-us-models-token-share-collapse/">cryptobriefing</a>, <a href="https://www.datagravity.dev/p/chinas-open-weight-takeover">Data Gravity</a>, <a href="https://pro.stockalarm.io/blog/openrouter-llm-rankings-investor-analysis">stockalarm</a></li>
  <li>토큰 점유율과 매출 점유율의 분리: <a href="https://x.com/Normal_2610/status/2070405462881665341">Normal Guy (X)</a></li>
  <li>중국 모델 데이터 리스크: <a href="https://www.techtimes.com/articles/317352/20260529/chinese-ai-models-lead-openrouter-traffic-coding-gains-come-china-data-risk.htm">TechTimes</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="openrouter" /><category term="china-llm" /><category term="open-weight-models" /><category term="deepseek" /><category term="qwen" /><category term="model-neutrality" /><category term="paxis" /><summary type="html"><![CDATA[OpenRouter에서 미국 모델 토큰 점유율이 1년 만에 약 70%에서 약 30%로 떨어지고 중국 오픈웨이트 모델이 약 46%까지 올라왔습니다. 그러나 토큰 점유율과 매출 점유율이 갈라지는 시장 재편을 한 겹 들여다보고, 모델 중립 라우팅과 라이선스·데이터 컴플라이언스 레이어라는 ThakiCloud·Paxis의 자리를 정리합니다.]]></summary></entry><entry xml:lang="ar"><title type="html">استخدام الرموز ينفجر والإنفاق على الذكاء الاصطناعي يتراجع للنصف: استراتيجية الإعدادات الافتراضية الأفضل لدى Coinbase</title><link href="https://thakicloud.github.io/ar/llmops/coinbase-flat-ai-spend-routing-caching-defaults/" rel="alternate" type="text/html" title="استخدام الرموز ينفجر والإنفاق على الذكاء الاصطناعي يتراجع للنصف: استراتيجية الإعدادات الافتراضية الأفضل لدى Coinbase" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/coinbase-flat-ai-spend-routing-caching-defaults</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/coinbase-flat-ai-spend-routing-caching-defaults/"><![CDATA[<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>أي مؤسسة تستخدم الذكاء الاصطناعي بجدية تصطدم بالمعضلة نفسها في مرحلة ما. كلما زاد استخدام الموظفين لنماذج اللغة، ارتفعت الإنتاجية، لكن فاتورة الرموز ترتفع أسياً معها. الاستجابة الشائعة هي وضع حدّ للاستخدام، وإرسال تنبيهات عند تجاوزه، وجعل استخدام النماذج باهظة الثمن مرهقاً. غير أن هذا النهج، بدل كبح الكلفة، يضيف احتكاكاً لإنتاجية الموظف كأثر جانبي.</p>

<p>في يونيو 2026، شارك الرئيس التنفيذي لـ Coinbase بريان أرمسترونغ حلّ شركته المختلف. بعبارته، إنه «كيف تبقي الإنفاق على الذكاء الاصطناعي ثابتاً بينما ينمو استخدام الرموز أسياً»، والخلاصة واضحة: حُلّها بإعدادات افتراضية أفضل وتوجيه وتخزين مؤقت، لا بالاحتكاك وتنبيهات الإنفاق. تقول Coinbase إنها خفّضت الإنفاق على الذكاء الاصطناعي إلى النصف تقريباً بينما انفجر استخدام الرموز.</p>

<p>تشغّل ThakiCloud منصة ai-platform التي تخدم النماذج عبر بيئات عملاء متنوعة، لذا فإن كيفية التحكم في كلفة الاستدلال ليست قصة الآخرين. استراتيجية Coinbase سياسة داخلية لشركة واحدة، لكن في داخلها مبادئ LLMOps تنطبق على كل من يشغّل بنية خدمة النماذج. يعرض هذا المقال تلك الاستراتيجية كما هي، ويحلل ما تعنيه من منظور منصة الخدمة.</p>

<h2 id="الجوهر-الإعدادات-الافتراضية-لا-الاحتكاك">الجوهر: الإعدادات الافتراضية لا الاحتكاك</h2>

<p>نقطة انطلاق نهج Coinbase هي البيانات. أثناء محاولة إحكام حدود الاستخدام، اكتشفوا أن 91% من الموظفين لا يبلغون حدود استخدامهم أصلاً. بعبارة أخرى، لم يكن مُحرّك ارتفاع الكلفة «حفنة من المستخدمين الكثيفين يستنفدون حدودهم»، بل مشكلة بنيوية: السلوك الافتراضي للاستخدام العام كان موجّهاً نحو النماذج باهظة الثمن.</p>

<p>من هنا جاء الشعار «إعدادات افتراضية أفضل، لا حدود استخدام». لا يزال بإمكان المهندسين اختيار أي نموذج يريدونه بحرية. التغيير هو في النموذج الافتراضي الذي يصلون إليه حين لا يحدّدون شيئاً، بتبديله من نموذج حدودي باهظ إلى نموذج مفتوح الأوزان أرخص. تقول Coinbase إنها تجرّب جعل نماذج مفتوحة الأوزان مثل GLM 5.2 وKimi 2.7 هي الافتراضية في بوابة LLM الخاصة بها.</p>

<p>قوة هذه الفكرة أنها لا تحارب أنماط السلوك البشري. معظم المستخدمين يأخذون الإعداد الافتراضي ببساطة. غيّر الافتراضي ودون إجبار أي شيء، ينتقل سلوك الأغلبية طبيعياً. إنه عكس خفض الحدود وإضافة التنبيهات الذي يخلق احتكاكاً بين المستخدمين والنظام. ويبدو المسار الكامل كالتالي.</p>

<pre><code class="language-mermaid">flowchart TB
    A[엔지니어 요청&lt;br/&gt;모델 미지정] --&gt; B[LLM 게이트웨이]
    B --&gt; C{기본값 정책}
    C --&gt;|기존| D[비싼 프런티어 모델&lt;br/&gt;높은 토큰 단가]
    C --&gt;|변경 후| E[오픈웨이트 기본값&lt;br/&gt;GLM 5.2 / Kimi 2.7]
    E --&gt; F[작업 난이도 라우팅]
    F --&gt;|단순 반복| G[저렴한 모델]
    F --&gt;|고난도| H[프런티어 모델&lt;br/&gt;명시 선택]
    B --&gt; I[캐시 조회]
    I --&gt;|히트| J[캐시 응답&lt;br/&gt;토큰 0]
    I --&gt;|미스| F
    G --&gt; K[지출 평탄화]
    H --&gt; K
    J --&gt; K
</code></pre>

<p><em>كيف يمرّ طلب لم يُحدَّد له نموذج عبر سياسة الإعداد الافتراضي للبوابة والبحث في الذاكرة المؤقتة والتوجيه حسب الصعوبة ليتسطّح الإنفاق بكلفة منخفضة. (تسميات الرسم بالكورية، مشتركة عبر اللغات.)</em></p>

<h2 id="ثلاث-تقنيات">ثلاث تقنيات</h2>

<p>يتلخص ضبط الكلفة الذي طرحه أرمسترونغ في ثلاثة محاور. لا أحد منها اختراع جديد، لكن المفتاح هو جمع الثلاثة في مكان واحد، البوابة.</p>

<p>أولاً، <strong>توجيه أذكى للنماذج</strong>. بدل معالجة كل مهمة بالنموذج نفسه، تُرسل كل مهمة إلى أرخص نموذج قادر على إنجازها. المهام البسيطة المتكررة مثل التلخيص أو التصنيف تكفيها نماذج صغيرة، ولا يُرفع إلى نموذج حدودي إلا المهام التي تحتاج استدلالاً معقداً. الفكرة الجوهرية أن النموذج الأعلى أداءً ليس ضرورياً دائماً. لا داعي لاستخدام نموذج باهظ في مهام روتينية لا يصنع فيها أداء النماذج الحدودية أي فرق في النتيجة.</p>

<p>ثانياً، <strong>التخزين المؤقت الفعّال</strong>. تُزال المخرجات المكرّرة للاستعلامات المتكررة. حين يَرِد السؤال نفسه عدة مرات، يُعاد رد مخزّن بدل استدعاء النموذج في كل مرة. إصابة الذاكرة المؤقتة لا تستهلك رموزاً إطلاقاً، لذا كلما زاد تكرار عبء العمل، كبر التوفير. في بيئات تتكرر فيها أسئلة متشابهة، مثل مساعدي الشيفرة أو استعلامات الوثائق الداخلية، يكون التخزين المؤقت رافعة بسيطة لكن قوية.</p>

<p>ثالثاً، <strong>التحوّل إلى نماذج أرخص مفتوحة الأوزان</strong>. في الأعمال الروتينية التي لا يضيف فيها أداء النماذج الحدودية قيمة، ينتقل العمل إلى نماذج مفتوحة الأوزان. وبالاقتران مع استراتيجية الإعدادات الافتراضية السابقة، تُضبط الوجهة الافتراضية للتوجيه نفسها على مفتوح الأوزان. ومضى أرمسترونغ أبعد، متوقعاً أن 80% من أعباء عمل الذكاء الاصطناعي ستنتقل خلال 18 شهراً إلى نماذج أرخص بنسبة 99%، وأن ما يحدّد سقف نمو الذكاء الاصطناعي سيكون بنية الطاقة والحوسبة، لا جودة النماذج.</p>

<p>التقنيات الثلاث يعزّز بعضها بعضاً. التوجيه يوزّع المهام على النموذج المناسب، والتخزين المؤقت يزيل الاستدعاءات المكرّرة، والإعدادات الافتراضية مفتوحة الأوزان تنقل مركز ثقل ذلك التوزيع نحو الكلفة المنخفضة. هذا المزيج هو سرّ تحقّق الاستخدام المنفجر والإنفاق الثابت في آن واحد.</p>

<h2 id="دلالات-على-منتجات-thakicloud">دلالات على منتجات ThakiCloud</h2>

<p>استراتيجية Coinbase قصة شركة واحدة لها بوابة LLM داخلية، لكن مبادئها تتداخل تماماً مع عرض القيمة لخدمة النماذج متعددة المستأجرين التي تقدّمها منصة <strong>ai-platform</strong> من ThakiCloud. تخدم ai-platform النماذج بـ vLLM وأمثاله فوق جدولة موارد GPU القائمة على Kubernetes وKueue، وما فعلته Coinbase عند بوابة واحدة يمكننا تقديمه بعمق أكبر على مستوى منصة الخدمة.</p>

<p>أولاً، <strong>التوجيه كميزة منصة</strong>. وزّعت Coinbase المهام على النماذج عند البوابة. ولأن ai-platform من ThakiCloud تخدم نماذج كثيرة في آن واحد في بيئة متعددة المستأجرين، يمكنها ضبط سياسات التوجيه على مستوى البنية لكل مستأجر: «نموذج صغير للمهام البسيطة، ونموذج كبير للصعبة فقط». ولأننا نستضيف النماذج مباشرة، فإن حرية قرارات التوجيه وشفافية الكلفة أكبر مما هي عليه عند الاعتماد على واجهات برمجة خارجية.</p>

<p>ثانياً، <strong>اقتصاديات خدمة مفتوحة الأوزان</strong>. السبب الجوهري لجعل Coinbase نماذج مثل GLM 5.2 وKimi 2.7 افتراضية هو الكلفة المنخفضة. تتخصص ai-platform في خدمة هذه النماذج مفتوحة الأوزان مباشرة في بيئات داخل المؤسسة أو سيادية. عبر الخدمة المُكمّمة على وحدات GPU استهلاكية، والاستدلال عالي الإنتاجية القائم على vLLM، وعزل الموارد متعدد المستأجرين، يكون خفض كلفة الخدمة لكل رمز ميزتنا التنافسية. وبالتحرّر من تسعير الرموز لواجهات النماذج الحدودية الخارجية، كلما شغّلت النماذج مفتوحة الأوزان بكفاءة أكبر على بنيتك، اقتربت فعلاً من منطقة «الأرخص بنسبة 99%» التي وصفتها Coinbase.</p>

<p>ثالثاً، <strong>الرؤية بأن الطاقة والحوسبة هما السقف</strong>. رأى أرمسترونغ أن ما يحدّد سقف نمو الذكاء الاصطناعي هو بنية الطاقة والحوسبة، لا جودة النماذج. وهذا يشير إلى المكان نفسه الذي يشير إليه اتجاه ThakiCloud في جدولة موارد GPU بكفاءة عبر Kueue والتأكيد على كفاءة الكلفة داخل المؤسسة. في عصر تحدّد فيه كلفة الاستدلال أعباء العمل، تصبح بنية الخدمة نفسها، التي تشغّل النموذج نفسه أرخص وأكثر، عامل التمايز.</p>

<p>وعلى صعيد السياسة والتدقيق، تبرز أيضاً <strong>Paxis</strong>، السحابة الأصيلة للوكلاء من ThakiCloud. «سياسة الإعداد الافتراضي» لدى Coinbase هي في جوهرها بوابة سياسة تُطبَّق على كل طلب يمرّ عبر البوابة. ولأن Paxis تمرّر كل إجراء وكيل عبر بوابات السياسة وسجلات التدقيق، يمكنها ترك سجلّ قابل للتتبّع لأي نموذج استُخدم افتراضياً لأي مهمة وأين نشأت الكلفة. ضبط الكلفة يبدأ في النهاية من الوضوح، والوضوح يتحقق حين يُسجَّل كل استدعاء.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>لهذه الاستراتيجية قيود واضحة أيضاً. أولاً، مشكلة دقة التوجيه. إن كان حكم «هذه المهمة تكفيها نماذج صغيرة» خاطئاً، تنخفض الجودة، وقد تتجاوز تلك الخسارة توفير الرموز. حين تتطلب مهمة تبدو بسيطة استدلالاً دقيقاً في الواقع، يعود ثمن توجيهها إلى نموذج رخيص نتيجةً خاطئة. سياسة التوجيه ليست شيئاً تكتبه مرة وتنتهي؛ تحتاج إلى تقييم وتصحيح مستمرين.</p>

<p>ثانياً، نطاق التخزين المؤقت. التخزين المؤقت قوي للاستعلامات المتكررة، لكن في الأعمال الإبداعية أو المخصّصة التي يَرِد فيها سياق مختلف ومدخل مختلف كل مرة، تكون نسب الإصابة منخفضة. لا يستفيد كل عبء عمل بالقدر نفسه من التخزين المؤقت، لذا يعتمد التوفير بشدة على طبيعة عبء العمل.</p>

<p>ثالثاً، فجوة جودة النماذج مفتوحة الأوزان. توقّع أن «80% ستنتقل خلال 18 شهراً إلى نماذج أرخص بنسبة 99%» توقّع جريء. صحيح أن النماذج مفتوحة الأوزان تلحق بسرعة، لكن الفجوة مع النماذج الحدودية لا تزال قائمة في المجالات التي يهمّ فيها الاستدلال العالي الصعوبة أو السياق الطويل أو الاستقرار. اضبط الافتراضي على مفتوح الأوزان، لكن إن رسمت حدّ متى تَرفع إلى الحدودي خطأً، تتدهور تجربة المستخدم. هذا التوقّع أأمن قراءةً بوصفه اتجاهاً لا يقيناً.</p>

<p>ومع ذلك، الدرس الجوهري من حالة Coinbase متين. ينبغي حلّ ضبط الكلفة بتغيير الإعدادات الافتراضية والبنية، لا بإضافة احتكاك للمستخدمين. وكلما امتلكت تلك البنية، أي كلما خدمت النماذج بنفسك، اتسع نطاق تحكّمك. والخدمة متعددة المستأجرين منخفضة الكلفة التي تنشدها منصة ai-platform من ThakiCloud هي بالضبط ذلك الأساس للتحكّم.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://x.com/brian_armstrong/status/2070670644577280109">تغريدة بريان أرمسترونغ</a>: “How to keep AI spend flat while token usage grows exponentially” (2026-06-27)</li>
  <li><a href="https://cryptoadventure.com/coinbase-says-ai-costs-are-staying-flat-as-token-usage-explodes/">Coinbase Says AI Costs Are Staying Flat As Token Usage Explodes (CryptoAdventure)</a></li>
  <li><a href="https://finance.yahoo.com/markets/crypto/articles/coinbase-ceo-halved-ai-costs-130000536.html">Coinbase CEO Halved AI Costs (Yahoo Finance)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="llmops" /><category term="model-routing" /><category term="inference-cost" /><category term="open-weight-models" /><category term="llm-gateway" /><category term="cost-optimization" /><summary type="html"><![CDATA[وصفة الرئيس التنفيذي لـ Coinbase بريان أرمسترونغ للتحكم في كلفة الذكاء الاصطناعي لم تكن حدود الاستخدام ولا تنبيهات الإنفاق، بل إعدادات افتراضية أفضل وتوجيه وتخزين مؤقت. واستناداً إلى اكتشاف أن 91% من الموظفين لا يبلغون حدود استخدامهم أصلاً، بدّلت الشركة إعدادات بوابة LLM الافتراضية إلى نماذج مفتوحة الأوزان بدل إضافة الاحتكاك. نحلل الاستراتيجية وما تعنيه من منظور الخدمة منخفضة الكلفة على منصة ai-platform من ThakiCloud.]]></summary></entry><entry xml:lang="ar"><title type="html">نظرة داخل slime، إطار التعلّم المعزّز مفتوح المصدر الذي بنى GLM-5.2</title><link href="https://thakicloud.github.io/ar/llmops/glm52-slime-rl-framework/" rel="alternate" type="text/html" title="نظرة داخل slime، إطار التعلّم المعزّز مفتوح المصدر الذي بنى GLM-5.2" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/glm52-slime-rl-framework</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/glm52-slime-rl-framework/"><![CDATA[<p><img src="/assets/images/glm52-slime-rl-framework-hero.png" alt="صورة تجريدية تُظهر عنقود توليد وعنقود تدريب يتبادلان البيانات بشكل غير متزامن عبر مخزن مؤقت مركزي" />
<em>صورة تجسّد تصميم slime للتعلّم المعزّز غير المتزامن، الذي يفصل التوليد عن التدريب لرفع الإنتاجية.</em></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>GLM-5.2، الذي أصدرته Z.ai (المعروفة سابقًا باسم Zhipu AI) في يونيو 2026، نموذج مفتوح الأوزان بسياق يبلغ مليون رمز وبرخصة MIT. لفت الانتباه لمنافسته النماذج التجارية المغلقة في مهام البرمجة ومهام الوكلاء طويلة المدى. لكنّ هذا الإصدار يأتي بشيء يكاد يضاهي أهمية أوزان النموذج نفسها: فقد تم فتح مصدر <strong>slime</strong>، البنية التحتية للتعلّم المعزّز التي شغّلت مرحلة التدريب اللاحق للنموذج، إلى جانبه.</p>

<p>تطلق معظم النماذج الرائدة أوزانها المدرَّبة مسبقًا، لكنها تُبقي خط أنابيب التعلّم المعزّز الذي يحوّل تلك الأوزان إلى وكيل مفيد فعلًا سرّيًا. فالبنية التحتية التي تربط تصميم المكافأة وتوليد الـ rollout وحلقة التدريب هي بالضبط الخبرة الخاصة التي تحدّد جودة النموذج. يفتح slime هذا المجال بأكمله. تذكر Z.ai أن GLM-5.2، بل أيضًا GLM-5.1 وGLM-5 وGLM-4.7 وGLM-4.6 وGLM-4.5، خضعت جميعها للتدريب اللاحق على الإطار نفسه. ومرور إطار واحد عبر عدة إصدارات من فئة الأحدث عالميًا يعني أن هذه بنية تحتية مُثبَتة في الإنتاج، لا شيفرة مختبرية.</p>

<p>تشغّل ThakiCloud منصة SaaS متعددة المستأجرين للذكاء الاصطناعي والتعلّم الآلي قائمة على K8s، فتخدم النماذج وتشغّل الوكلاء عبر بيئات عملاء متنوعة. لذا فإن السؤال “أي نموذج جيد” يهمّنا بقدر السؤال “أي بنية تحتية بنته وتشغّله”. وبوصفه مرجعًا عامًا للجانب الثاني، يستحق slime التمعّن. في هذه التدوينة نعرض بنية slime وفلسفته التصميمية، ونتأمّل دلالاته لجدولة GPU عبر Kueue ولمنظومة الخدمة SGLang/vLLM في منصتنا.</p>

<h2 id="ما-هو-slime">ما هو slime</h2>

<p>slime إطار <strong>للتدريب اللاحق لنماذج اللغة الكبيرة من أجل توسيع التعلّم المعزّز</strong>، بناه فريق THUDM (من سلالة جامعة تسينغهوا / Z.ai). الفكرة الجوهرية بسيطة: Megatron-LM بارع في التدريب، وSGLang بارع في الاستدلال عالي الإنتاجية (الـ rollout)، فلنربط الاثنين في تدفّق بيانات واحد. يكرّر التدريب اللاحق للتعلّم المعزّز بلا نهاية حلقةً قوامها “يولّد النموذج إجابة (rollout)، ثم تُقيَّم الإجابة، ثم تُحدِّث تلك المكافأة النموذج”، ولذا فإن مدى سلاسة ربط محرّك التوليد بمحرّك التدريب هو ما يحدّد الإنتاجية الإجمالية.</p>

<p>يفكّك slime هذه الحلقة إلى ثلاثة مكوّنات.</p>

<pre><code class="language-mermaid">flowchart TB
    subgraph ROLLOUT["롤아웃 (SGLang + Router)"]
        SGL["SGLang 추론 엔진&lt;br/&gt;응답 생성"]
        RT["sgl-router&lt;br/&gt;OpenAI 호환 단일 엔드포인트"]
        RW["보상 / verifier&lt;br/&gt;점수 계산"]
    end
    subgraph BUFFER["Data Buffer (브리지)"]
        DB["프롬프트 초기화&lt;br/&gt;커스텀 데이터&lt;br/&gt;롤아웃 생성 전략 관리"]
    end
    subgraph TRAIN["학습 (Megatron-LM)"]
        MG["Megatron 학습 루프&lt;br/&gt;가중치 업데이트"]
    end

    RT --&gt; SGL
    SGL --&gt; RW
    RW --&gt;|"생성 데이터 + 보상 기록"| DB
    DB --&gt;|"학습 배치 공급"| MG
    MG -.-&gt;|"파라미터 동기화"| SGL
</code></pre>

<ul>
  <li><strong>التدريب (Megatron-LM)</strong>: يتولّى عملية التدريب الرئيسية. يقرأ البيانات من Data Buffer لتحديث النموذج، ويزامن المعاملات مع وحدة الـ rollout بعد اكتمال التدريب.</li>
  <li><strong>الـ Rollout (SGLang + Router)</strong>: يولّد بيانات جديدة، تشمل المكافآت ومخرجات الـ verifier، ويكتبها إلى Data Buffer. وهنا يوفّر sgl-router واجهة برمجية متوافقة مع OpenAI لتتفاعل بيئات الوكلاء المعقّدة مع النموذج عبر نقطة وصول HTTP واحدة.</li>
  <li><strong>Data Buffer</strong>: الجسر بين العالمين. يدير تهيئة الموجِّهات (prompts) والبيانات المخصّصة واستراتيجية توليد الـ rollout.</li>
</ul>

<p>تتولّى Ray إدارة الموارد. ونتيجةً لذلك، يمكن التبديل بعَلَم واحد بين وضع تتشارك فيه عمليتا التدريب والـ rollout وحدات GPU نفسها، ووضع يفصلهما على وحدات GPU منفصلة.</p>

<h2 id="وضعا-التشغيل-colocated-وdisaggregated">وضعا التشغيل: colocated وdisaggregated</h2>

<p>أكثر قرارات slime التصميمية عمليةً هو أن الشيفرة نفسها تدعم وضعَي نشر اثنين.</p>

<p><strong>الوضع المتشارك (colocated) / المتزامن</strong> يضع التدريب والـ rollout على مجمّع GPU نفسه. يُفعَّل بعَلَم واحد <code class="language-plaintext highlighter-rouge">--colocate</code>. وهو مناسب لاستخلاص أقصى استفادة من بيئات GPU المحدودة، حيث يتقاسم التوليد والتدريب الموارد نفسها زمنيًا.</p>

<p><strong>الوضع المفصول (disaggregated) / غير المتزامن</strong> يفصل وحدات GPU الخاصة بالتدريب عن تلك الخاصة بالـ rollout. فيمكن للتوليد أن يستمر دون انتظار التدريب، مما يرفع الإنتاجية. و”التعلّم المعزّز غير المتزامن للوكلاء” الذي أبرزه GLM-5.2 يعمل فوق هذا الوضع تحديدًا. ففصل التوليد عن التدريب يقلّص بشدّة زمن خمول GPU في الأحمال التي تكون فيها كل حلقة طويلة وغير منتظمة، مثل التفاعلات متعددة الأدوار ومتعددة الأدوات.</p>

<p>هذا الخيار مهمّ للمشغّلين. فبالإطار نفسه يمكنك تشغيل تجارب صغيرة بتكلفة زهيدة في الوضع المتشارك، ودفع الإنتاجية في الوضع المفصول للتدريب الإنتاجي واسع النطاق، بما يتيح التوسّع التدريجي.</p>

<h2 id="التصميم-من-أجل-التعلّم-المعزّز-للوكلاء">التصميم من أجل التعلّم المعزّز للوكلاء</h2>

<p>ثمّة سبب لاستخدام slime في تدريب نماذج الوكلاء مثل GLM-5.x: فهو يتضمّن ميزات موجَّهة مباشرةً لأحمال الوكلاء متعددة الأدوار.</p>

<ul>
  <li><strong>PD Disaggregation</strong>: يفصل مرحلتَي prefill وdecode لأحمال الوكلاء متعددة الأدوار حيث تختلف احتياجات الموارد بين المرحلتين.</li>
  <li><strong>انتماء الجلسة في الـ Router</strong>: يوفّر سياسة توجيه تُبقي الوكيل متعدد الأدوار على الجلسة نفسها، فتستمرّ أدوار الوكيل الواحد المتعدّدة في حالة متّسقة.</li>
  <li><strong>Delta Weight Sync</strong>: في بيئة مفصولة بين التدريب والاستدلال، يُزامَن فرق الأوزان فقط، مما يخفض كلفة الاتصال.</li>
  <li><strong>نقطة وصول واحدة متوافقة مع OpenAI</strong>: بفضل sgl-router، تتفاعل بيئات الوكلاء المعقّدة مع النموذج عبر طلبات HTTP بسيطة. فلا حاجة لحشر شيفرة البيئة داخل إطار التعلّم المعزّز.</li>
</ul>

<p>البند الأخير عمليّ على نحو خاص. فإذا جرّدت بيئة المهام طويلة المدى مثل تحرير الشيفرة واستخدام الأدوات وحلّ المشكلات متعدد الخطوات إلى استدعاءات لواجهة OpenAI، أمكنك ربط بيئات الوكلاء القائمة بحلقة تدريب التعلّم المعزّز كما هي تقريبًا. وتضيف Z.ai آلية “مكافحة الالتفاف” (anti-hacking) فوق ذلك لكبح اختراق المكافأة، حيث يستغلّ النموذج المكافأة بطرق التفافية في المهام طويلة المدى.</p>

<h2 id="نظرة-عامة-على-التثبيت-والاستخدام">نظرة عامة على التثبيت والاستخدام</h2>

<p>slime متاح على GitHub (<a href="https://github.com/THUDM/slime">THUDM/slime</a>)، ولكونه أصيلًا لـ SGLang فهو يفترض منظومة استدلال SGLang ومنظومة تدريب Megatron-LM. كما نُشر دعم اليوم الأول (Day-0) لوحدات AMD Instinct GPU عبر مدوّنة ROCm، مما يؤكد عمله على مسرّعات خارج NVIDIA.</p>

<p>لكن بصدق، يتطلّب إعادة إنتاج حلقة التدريب اللاحق للتعلّم المعزّز في slime بشكل ذي معنى عنقود GPU متعدّد (عادةً ثمانية مسرّعات من فئة مراكز البيانات أو أكثر) وبيئة تُهيَّأ فيها Megatron وSGLang وRay معًا. لم تُشغّل هذه التدوينة تدريبًا كاملًا للتعلّم المعزّز في صندوق رمل أحادي العقدة لالتقاط الأرقام. لذا لا نقدّم أي أرقام قياس مثل إنتاجية التدريب أو سرعة التقارب، وحالات التحقق الإنتاجية أدناه مبنيّة على مصادر أوّلية منشورة. وعدم اختلاق أرقام أداء اعتباطية مبدأ من مبادئ مدوّنتنا.</p>

<p>من الناحية البنيوية، الأسطح التي يلمسها المشغّل واضحة. فأنت تحدّد أسلوب النشر بعَلَم وضعٍ مثل <code class="language-plaintext highlighter-rouge">--colocate</code>، وتركّب استراتيجية الـ rollout الخاصة بمجالك عبر واجهة توليد البيانات المخصّصة في Data Buffer، وتربط بيئات الوكلاء بنقطة وصول sgl-router. ولهذا يؤكّد الإطار على المرونة: فلأن واجهة الـ rollout قابلة للتخصيص بالكامل، يمكن تهيئة كل شيء على الهيكل نفسه، من خوارزميات التعلّم المعزّز العامة إلى تدريب الوكلاء المتخصّص بمجال بعينه.</p>

<h2 id="التحقق-عبر-glm-5x">التحقق عبر GLM-5.x</h2>

<p>يُعدّ slime من أكثر أطر التدريب اللاحق المفتوحة للتعلّم المعزّز اختبارًا في الميدان. فقد مرّت عدة إصدارات من فئة الأحدث عالميًا (GLM-5.2 وGLM-5.1 وGLM-5 وGLM-4.7 وGLM-4.6 وGLM-4.5) عبر حلقة تدريبه الكاملة. وذكر GLM-5.2 أنه دُرِّب لاحقًا بخوارزمية جديدة للتعلّم المعزّز غير المتزامن للوكلاء تتعلّم من التفاعلات طويلة المدى متعددة الأدوات، فوق بنية تحتية تفصل التوليد عن التدريب. وقد ذُكر أن التدريب اللاحق الكامل لـ GLM-5.2 اكتمل في نحو يومين، لكننا نُبقي رقم المدّة هذا بوصفه [تقديريًا] لأننا لم نتمكّن من التحقق المتقاطع منه عبر وثائق رسمية أوّلية.</p>

<p>الجوهر ليس الرقم بل قابلية إعادة الإنتاج. فبفتح أوزان النموذج (MIT) وإطار التدريب معًا، تستطيع مؤسسة تملك حوسبة كافية أن تعيد تتبّع وصفة التدريب اللاحق لـ GLM-5.2 على بيانات مجالها. وهذه رافعة تنفرد بها المنظومة المفتوحة، يستحيل بلوغها بالنماذج المغلقة.</p>

<h2 id="ما-الذي-يعنيه-هذا-لمنتجات-thakicloud">ما الذي يعنيه هذا لمنتجات ThakiCloud</h2>

<p>يمسّ تصميم slime للتعلّم المعزّز غير المتزامن طبقتَي منتج متمايزتين في ThakiCloud.</p>

<p>من منظور ai-platform، يتطلّب تدريب التعلّم المعزّز حملين متزامنين مختلفَي الطبيعة تمامًا: الـ rollout (حمل استدلال) والتدريب (حمل انتشار عكسي). تتوافق الطريقة التي يبدّل بها slime بين colocated وdisaggregated عبر Ray توافقًا جيدًا مع نموذج طابور GPU في Kueue. ففي الوضع المفصول، يتيح تقسيم الـ rollout والتدريب إلى مهامّ منفصلة لـ Kueue جدولة كلٍّ منهما عبر طابوره الخاص، مما يرفع استغلال GPU عبر العنقود متعدد المستأجرين ويُبقي تكاليف الحوسبة في حدودها. وبما أن منظومة الخدمة لدينا تستخدم vLLM أصلًا، فإن الخبرة المكتسبة حول التجميع المستمر وإدارة ذاكرة KV المؤقتة تنتقل مباشرةً إلى جانب الـ rollout في خط أنابيب التعلّم المعزّز. والنتيجة العملية هي خط أنابيب RL داخلي يعمل دون تصدير البيانات خارج العنقود، مما يحوّل التدريب اللاحق الذاتي الاستضافة من هدف مبهم إلى منتج ملموس.</p>

<p>من منظور Paxis، يكون الاتصال أكثر مباشرةً. فـ Paxis هو طائرة تحكّم الوكلاء من ThakiCloud، تعمل فوق ai-platform. يشمل جوهره Skill Harness الذي يختار من أكثر من 960 مهارة عبر BM25، وحلقة مهارات ذاتية التطوّر، وتنفيذًا معزولًا، ومحرّك معرفة HKE. يصبح إطار مثل slime هو المحرّك التعليمي لحلقة التطوّر الذاتي تلك. فبتوليد الـ rollouts من بيانات مجال العميل وتقييمها بإشارة مكافأة وتحديث المهارات عبر التعلّم المعزّز، تتحسّن وكلاء مجال Paxis باستمرار مع الاستخدام. وتعمل نقطة وصول sgl-router المتوافقة مع OpenAI كعنصر ربط يصل موصّلات MCP في Paxis وبيئات الأدوات القائمة بحلقة التعلّم المعزّز بأدنى احتكاك. وهكذا يتكامل المنتجان: تزوّد ai-platform طوابير GPU وخط أنابيب RL الداخلي، بينما تستهلك Paxis ذلك الخط بوصفه محرّكًا لتطوّر المهارات.</p>

<p>هذا أقرب إلى خارطة طريق منه إلى ميزة مُشحونة. غير أن التوافق البنيوي بين منظومة ai-platform (K8s وKueue وvLLM) ومعمارية المهارات ذاتية التطوّر في Paxis من جهة، وما يفترضه slime فعلًا من جهة أخرى، يُظهر أن هذا الاتجاه ليس توفيقًا متكلَّفًا.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>slime ليس حلًّا سحريًا. لنذكر بضعة قيود واقعية بوضوح.</p>

<p>أكبر عائق للدخول هو <strong>الحوسبة والتعقيد التشغيلي</strong>. فإقامة Megatron + SGLang + Ray في آنٍ واحد وتنسيق التدريب/الـ rollout عبر وحدات GPU متعددة ليس أمرًا هيّنًا البتّة. وليست هذه أداةً يستطيع GPU واحد أو فريق صغير تشغيلها باستهتار، والتدريب اللاحق للتعلّم المعزّز نفسه يتطلّب استثمارًا في البنية التحتية يضاهي التدريب المسبق. وثمّة فجوة كبيرة بين “الإطار مفتوح” و”نستطيع تشغيل التدريب اللاحق للتعلّم المعزّز”.</p>

<p>ثانيًا، <strong>صعوبة التدريب اللاحق للتعلّم المعزّز</strong>. فتصميم المكافأة، ومنع اختراق المكافأة، واستقرار التدريب، مصاعب جوهرية لا يحلّها الإطار نيابةً عنك. يوفّر slime البنية التحتية فقط؛ أما دالة المكافأة الجيدة ووصفة التدريب المستقرّة فتبقيان مسؤولية المستخدم. وكون Z.ai أبرزت آلية مكافحة الالتفاف على نحو منفصل هو بذاته دليل على مدى صعوبة هذا المجال.</p>

<p>ثالثًا، <strong>حدود نطاق تحقّقنا</strong>. فقد حلّلت هذه التدوينة البنية اعتمادًا على وثائق slime العامة وما نُشر عنها؛ ولم نُعِد مباشرةً إنتاج حلقة التدريب الكاملة للتعلّم المعزّز لقياس الإنتاجية. لذا فإن مزاعم مثل “تدريب من فئة GLM-5.2 في أيام معدودة” ليست حقائق أكّدناها باستقلال. وعلى من يدرس التبنّي أن يجرّب أولًا بنموذج صغير ومهمة صغيرة في الوضع المتشارك لقياس الكلفة الفعلية في بيئته الخاصة.</p>

<p>ومع ذلك، فإن حدثًا تُفتح فيه أوزان النموذج وإطار التدريب معًا يمثّل شفافية نادرة في منظومة نماذج اللغة المفتوحة. وبالنسبة لمنصة مثل ThakiCloud تشغّل البنية التحتية مباشرةً، فقد اتّسعت مجموعة الخيارات التي تمنح التحكّم حتى مرحلة التدريب اللاحق، بما يتجاوز مجرّد استخدام نموذج صنعه آخرون.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://github.com/THUDM/slime">THUDM/slime - GitHub</a></li>
  <li><a href="https://www.lmsys.org/blog/2025-07-09-slime/">slime: An SGLang-Native Post-Training Framework for RL Scaling - LMSYS Org</a></li>
  <li><a href="https://huggingface.co/blog/zai-org/glm-52-blog">GLM-5.2: Built for Long-Horizon Tasks - Hugging Face Blog</a></li>
  <li><a href="https://rocm.blogs.amd.com/artificial-intelligence/slime/README.html">Day-0 Support for the SGLang-Native RL Framework slime on AMD Instinct GPUs - ROCm Blogs</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="slime" /><category term="glm-5.2" /><category term="reinforcement-learning" /><category term="post-training" /><category term="sglang" /><category term="megatron" /><category term="agent-rl" /><category term="open-source" /><summary type="html"><![CDATA[تم فتح المصدر بالكامل لإطار البنية التحتية للتعلّم المعزّز غير المتزامن slime، وهو الذي قاد مرحلة التدريب اللاحق للنموذج مفتوح الأوزان GLM-5.2 من Z.ai بسياق مليون رمز. نحلّل بنيته المكوّنة من ثلاثة أجزاء التي تربط تدريب Megatron بتوليد SGLang عبر Data Buffer، ووضعَي التشغيل colocated وdisaggregated، وتصميمه للتعلّم المعزّز للوكلاء متعدد الأدوار، من منظور منصة ThakiCloud القائمة على K8s وجدولة وحدات GPU عبر Kueue.]]></summary></entry><entry xml:lang="ar"><title type="html">قياس الأثر الاقتصادي للذكاء الاصطناعي بما يتجاوز تحليل السجلّات: قراءة في تقرير Anthropic Economic Index «Cadences»</title><link href="https://thakicloud.github.io/ar/research/anthropic-economic-index-cadences/" rel="alternate" type="text/html" title="قياس الأثر الاقتصادي للذكاء الاصطناعي بما يتجاوز تحليل السجلّات: قراءة في تقرير Anthropic Economic Index «Cadences»" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/anthropic-economic-index-cadences</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/anthropic-economic-index-cadences/"><![CDATA[<p><img src="/assets/images/anthropic-economic-index-cadences-hero.png" alt="صورة تجريدية لنبضات ضوئية تتموّج بإيقاع عبر شبكة بيانات خفيفة توحي بالإيقاع اليومي" /></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>ما إن تُدخِل منصّة ذكاء اصطناعي إلى مؤسسة حتى تجد نفسك أمام سؤال واحد: «إذًا، كم ساعدت فعلًا؟». حتى الآن، كان الجواب في الغالب مقاييس النظام: كم عدد استدعاءات الـ API، وكم مهمة عولِجت، وكم ملّي ثانية استغرقت الاستجابة. الأرقام نظيفة، لكنها لا تبلغ ما تريد الإدارة معرفته حقًّا: «ما الذي أنتجته منظمتنا فعليًّا بقدر أكبر؟».</p>

<p>لهذا فإن <a href="https://www.anthropic.com/research/economic-index-june-2026-report">تقرير Economic Index «Cadences»</a> الذي نشرته Anthropic في 26 يونيو 2026 جدير بالاهتمام. فهو ليس تحديثًا روتينيًّا لإحصاءات الاستخدام، بل يُعلن صراحةً أن <strong>طريقة قياس الأثر الاقتصادي للذكاء الاصطناعي نفسها قد تغيّرت</strong>. انطلاقًا من إدراك أن سجلّات المحادثة وحدها لا تكفي لتفسير أثر الذكاء الاصطناعي في العمل، يوسّع التقرير أساس القياس عبر ثلاثة مسارات.</p>

<p>بالنسبة لشركة مثل ThakiCloud التي تُشغّل فعليًّا منصّة ذكاء اصطناعي/تعلّم آلي متعددة المستأجرين على Kubernetes، ليس هذا التحوّل قصة الآخرين. فالتقرير يُظهر بالبيانات الانتقال في طريقة شرح العائد للعملاء من «مقاييس النظام» نحو «مخرجات العمل وإدراك الموظفين». ينظّم هذا المقال التحوّلات المنهجية الثلاثة استنادًا إلى المادة الرسمية للتقرير، ويتأمّل ما يمكننا أخذه منها كمنصّة.</p>

<h2 id="ما-هذا-التقرير">ما هذا التقرير؟</h2>

<p>حلّلت Anthropic استخدام Claude عبر Economic Index منذ 2023. واتّكأت كل التقارير السابقة على <strong>بيانات عيّنة من سبعة أيام</strong>: اقتطاع أسبوع وفحص أنماط الاستخدام داخله. قبل عام، كان معظم استخدام Claude محادثةً بين مستخدم ومساعد، فكانت هذه الطريقة تلتقط صورة معقولة.</p>

<p>لكن مع النمو السريع لـ Claude Code وCowork، تحوّلت حصّة كبيرة من الجلسات إلى مهام وكيلة طويلة الأمد. ولم تعد سجلّات المحادثة تلتقط بالكامل كيف يستخدم الناس الذكاء الاصطناعي. تقول Anthropic إنها أعادت تصميم خط بياناتها في ثلاثة اتجاهات لمواكبة ذلك: رفع معدّل أخذ العيّنات لرؤية الأنماط حتى مستوى الساعة، وإدخال مصنِّف جديد يُعنوِن مخرَج كل محادثة، وتفصيل نتائج المحادثات/Cowork وواجهة 1P API شهريًّا لمزيد من الدقّة.</p>

<p>ويُضاف مسار آخر. تُقرّ Anthropic بأنها افتقرت إلى رؤية الأثر <strong>خارج</strong> جلسات المستخدم، أي كيف يُدرك الناس الذكاء الاصطناعي. لذا تعرض النتائج الأولية لـ <a href="https://www.anthropic.com/research/economic-index-survey-announcement">استبيان المؤشر الاقتصادي</a> الذي أُطلق في أبريل 2026. باختصار، يقوم التقرير على ثلاثة محاور: <strong>الإيقاعات بالساعة</strong>، و<strong>تصنيف المخرجات</strong>، و<strong>استبيان الإدراك</strong>.</p>

<p><img src="/assets/images/anthropic-economic-index-cadences-diagram.png" alt="رسم بياني يوضّح التوسّع من عيّنة سبعة أيام إلى منهجية مختلطة بثلاثة محاور (الإيقاعات بالساعة، تصنيف المخرجات، استبيان الإدراك) متّصلة بإطار قياس العائد لدى ThakiCloud" /></p>

<h2 id="المحور-الأول-الإيقاعات-بالساعة">المحور الأول: الإيقاعات بالساعة</h2>

<p>أبرز تغيير هو إدخال قياس عن بُعد يحفظ الخصوصية. فبأخذ عيّنة من شريحة من المحادثات يوميًّا وباستمرار، يلتقط التدفّقات اليومية والساعِيّة، خلافًا للقطات السبعة أيام السابقة. تتيح هذه البيانات، للمرة الأولى، رؤية كيف تنعكس إيقاعات الحياة اليومية في استخدام Claude.</p>

<p>النتائج بديهية وجديدة في آنٍ معًا. يتتبّع استخدام Claude نمط أيام العمل، بينما ترتفع الطلبات الشخصية في عطلة نهاية الأسبوع. وعند النزول ساعةً بساعة يزداد الوضوح: يطلب الناس نصائح النوم غالبًا قرابة الخامسة فجرًا، ويسألون عن الوصفات قرابة السادسة مساءً، وتتجمّع طلبات الأخبار في الصباح. كما تتفاعل الأنماط مع تواريخ بعينها: ارتفعت الطلبات المتعلقة بالضرائب قبيل الموعد النهائي الأمريكي للإقرار الضريبي في 15 أبريل.</p>

<p>وتظهر فروق بحسب طبيعة العمل أيضًا. حين يلجأ الناس إلى Claude للعمل ليلًا وفي العطلات، تميل تلك المهام نحو <strong>المهن الأعلى أجرًا</strong>، مثل مديري التسويق أو المبرمجين، الأكثر احتمالًا للعمل خارج الساعات التقليدية. في المقابل، تتراجع حصّة مهام الرُّبعين الأدنى أجرًا، كالتسويق الهاتفي والأعمال الكتابية، ليلًا وفي العطلات. وتضيف Anthropic أن النمط يصمد حتى في اختبار متانة يستبعد المهن الحاسوبية والرياضية. إنها إشارة إلى أن الذكاء الاصطناعي يعمل لا كأتمتة بسيطة بل كأداة مساعِدة لعمل عالي المهارة.</p>

<h2 id="المحور-الثاني-مصنِّف-المخرجات-artifact">المحور الثاني: مصنِّف المخرجات (Artifact)</h2>

<p>التحوّل الثاني هو تصنيف مخرجات المحادثات. صنّفت Anthropic ما يُنتجه كل من محادثات الدردشة وCowork من <strong>مخرَج (artifact)</strong> ضمن أكثر من 30 فئة: مستند، شرح، مقطع شيفرة، ورقة أكاديمية، وهكذا، أي المخرَج الأساسي الذي أنتجه Claude في تلك المحادثة.</p>

<p>حكم المصنِّف بأن <strong>93% من محادثات Claude تُنتج مخرَجًا</strong>. وأكثر الأنواع شيوعًا هي الشروحات (17%)، والمستندات والتقارير (15%)، والإرشادات (11%). وتمثّل المخرجات الحوارية كالشروحات أو الإرشادات والمخرجات المكتوبة كالمستندات أو العروض نحو الثلث لكلٍّ منها، بينما تمثّل مخرجات الشيفرة والتقنية كالتطبيقات أو السكربتات نحو السدس.</p>

<p>وتتبع ذلك نتيجة ثانية، هي درجة <strong>الاستقلالية (autonomy)</strong>. تقيس Anthropic مقدار ما يُفوَّض إلى Claude من حُكم على مقياس من 1 إلى 5. فالمهام ذات الإجابات المحدّدة سلفًا، كالترجمة أو الحساب، استقلاليتها منخفضة، أما المهام التي تتطلّب الاختيار من بدائل كثيرة، كبناء التطبيقات أو الألعاب أو العروض، فاستقلاليتها مرتفعة.</p>

<p>ويُقاس المخرَج نفسه باستقلالية أعلى حين يُصنع عبر Claude Code. ففي 26 من أصل 31 مخرَجًا معروضًا كانت الاستقلالية أعلى على Claude Code منها على الدردشة أو Cowork، بفارق متوسّط قدره <strong>0.37 نقطة</strong>. وفي السكربتات ومقاطع الشيفرة يتّسع الفارق إلى 0.53 نقطة. ونحو ثلثي هذا الفارق يأتي من تنفيذ المهام نفسها بتفويض أكبر. وتمثّل التدوينات مثالًا جيّدًا: المحادثة الوسيطة على الدردشة/Cowork لإنتاج تدوينة تمرّ بـ 13 جولة من الأخذ والردّ، بينما على Claude Code يفوّض الناس قدرًا أكبر من الحُكم. بعبارة أخرى، يمنح المستخدمون الذكاء الاصطناعي استقلالية أكبر.</p>

<h2 id="المحور-الثالث-استبيان-الإدراك">المحور الثالث: استبيان الإدراك</h2>

<p>المحور الثالث بيانات مستمدّة لا من السجلّات بل بسؤال الناس مباشرةً. أطلقت Anthropic استبيان المؤشر الاقتصادي في أبريل 2026، فسألت مستخدمي Claude الفعليين كم من عملهم يستطيع الذكاء الاصطناعي إنجازه. وتُربَط إجابات الاستبيان ببيانات الاستخدام عبر طرق تحفظ الخصوصية.</p>

<p>سُئل المشاركون عن حصّة مهام عملهم التي يستطيع الذكاء الاصطناعي إنجازها بمفرده اليوم (الانكشاف المُبلَّغ)، والحصّة التي يتوقّعون أن يتولّاها خلال 12 شهرًا (الانكشاف المتوقَّع). <strong>اختار ما يقارب 6 من كل 10 مشاركين نطاقًا أعلى للعام المقبل</strong>، و<strong>يتوقّع أكثر من الثلث أن يستطيع الذكاء الاصطناعي إنجاز معظم مهام عملهم أو كلّها تقريبًا العام المقبل</strong>.</p>

<p>والفروق بين الفئات واضحة. مال المشاركون في الدول الأقل دخلًا إلى الشعور بأن الذكاء الاصطناعي قادر على استبدال قدرٍ أكبر من عملهم. وتستشهد Anthropic بأبحاث سابقة تُظهر أن هذه الدول تميل إلى استخدام Claude بطرق أكثر أتمتة. كما تظهر فروق بحسب الخبرة: وضع أصحاب الخبرة 15 عامًا فأكثر حصّة المهام التي يستطيع الذكاء الاصطناعي إنجازها أدنى بنحو 10 نقاط مئوية من حديثي العهد في عامهم الأول، مع تفسير أن ذوي الخبرة راكموا خبرة ضمنية مرتبطة بالسياق يصعب على الذكاء الاصطناعي محاكاتها. وذكر المشاركون أن الحُكم والوعي بالسياق والاستدلال الموقفي والأبعاد العلائقية لبناء الثقة وإدارة الناس أمور لا يستطيع الذكاء الاصطناعي القيام بها. وتركّز القلق من الإحلال لدى العاملين في بداية مسارهم المهني وذوي الأجور المنخفضة.</p>

<h2 id="ما-يعنيه-هذا-لمنتجات-thakicloud">ما يعنيه هذا لمنتجات ThakiCloud</h2>

<p>التوجّه الذي يكشفه هذا التقرير، قياس مقدار ما يُنجزه الذكاء الاصطناعي فعليًّا في سياق العمل، هو بالضبط المسوّغ السوقي الذي بُنيت من أجله Paxis. Paxis هو سحابة ThakiCloud الأصيلة للوكلاء (Agent-Native Cloud)، وهو مستوى تحكّم في الوكلاء يعمل فوق ai-platform (البنية التحتية للذكاء الاصطناعي/التعلّم الآلي القائمة على Kubernetes). يعامل Paxis المهارات (Skills) والأدوات (Tools) والسياسات (Policies) وسجلّات التدقيق (Audit Logs) موارد من الدرجة الأولى. وتشمل مكوّناته الأساسية: Skill Harness الذي يختار من أكثر من 960 مهارة عبر BM25، والتنفيذ المعزول في صندوق الرمل (Sandbox)، ومحرّك معرفة HKE، وتنسيق الوكلاء المتعددة (DAG)، و NL Cron، وموصّلات MCP، والمهارات ذاتية التطور، وبوّابات السياسة مقترنة بسجلّات التدقيق.</p>

<p>السؤال الذي تطرحه Anthropic، كم من الحُكم والعمل يتولّاه الوكيل فعليًّا، هو سؤال تستطيع Paxis الإجابة عنه داخل المنظمة. تتحكّم بوّابات السياسة في المهام التي يستطيع الوكيل أداءها وتحت أيّ شروط، في حين تسجّل سجلّات التدقيق كلّ إجراء يقوم به الوكيل. والنتيجة قاعدة بيانات لتحديد كمية العمل الوكيلي وحوكمته عبر الأقسام، أي توفير قوى عاملة وكيلة قابلة للقياس داخل المنتج نفسه لا مُستنبَطة لاحقًا من سجلّات المحادثة.</p>

<p>أما التفكير الذي تعتمد عليه هذه الوكلاء فتوفّره ai-platform في بيئة محلّية (on-premise) أو متعددة المستأجرين، مما يُبقي كل القياسات داخل حدود المنظمة. وكما يوضّح إطار Anthropic، فإن القدرة على شرح أثر الذكاء الاصطناعي من خلال مخرجات العمل الفعلية وسجلّات إجراءات الوكلاء، لا من خلال عدد استدعاءات الـ API، ستحدّد ما يتوقّعه عملاء المؤسسات من منصّة الوكلاء.</p>

<h2 id="الحدود-والاعتراضات">الحدود والاعتراضات</h2>

<p>توخّيًا للتوازن، تستحقّ حدود التقرير الذكر. أولًا، بما أن البيانات تأتي من مستخدمي Claude، فثمّة تحيّز في العيّنة. فهذه أنماط استخدام وإدراك لفئة تستخدم الذكاء الاصطناعي بفاعلية أصلًا، ويصعب تعميمها على كامل القوى العاملة. وتُقرّ Anthropic نفسها مرارًا بأنها لا تستطيع تحديد المهن على نحو قاطع، كما أن التقديرات بحسب المهنة عبر الزمن مستنبطة عكسيًّا من خصائص المهام، فلا يمكن الجزم بالسببية.</p>

<p>ويجب قراءة بيانات الاستبيان بحذر أكبر. فتوقّع «أن يتولّى الذكاء الاصطناعي معظم عملي العام المقبل» إدراكٌ لا قدرة موثَّقة. ويؤكّد التقرير نفسه أن القدرة المُدرَكة تأتي أعلى من الانكشاف المهني المُلاحَظ. والفجوة بين التوقّع والواقع هي ذاتها موضوع القياس، لا مسوّغًا لمعاملة التوقّع بوصفه المستقبل.</p>

<p>أخيرًا، صقل طريقة القياس لا يُكبِّر الأثر بذاته. فالرؤية بدقّة أكبر شيء، وحدوث الشيء بقدر أكبر شيء آخر. قيمة هذا التقرير ليست في خلاصة «أن الذكاء الاصطناعي حلّ محلّ هذا القدر من العمل»، بل في إعادة بناء سؤال «كيف نقيس ذلك الأثر بأمانة أكبر» عبر منهجية مختلطة متعددة الطبقات. وما ينبغي لـ ThakiCloud أخذه ليس الخلاصة بل موقف القياس.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Anthropic، <a href="https://www.anthropic.com/research/economic-index-june-2026-report">“Anthropic Economic Index report: Cadences”</a> (2026-06-26)</li>
  <li>Anthropic، <a href="https://www.anthropic.com/research/economic-index-survey-announcement">“Anthropic Economic Index Survey”</a> (2026-04)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="anthropic" /><category term="economic-index" /><category term="ai-impact" /><category term="measurement" /><category term="telemetry" /><category term="survey" /><category term="enterprise-ai" /><summary type="html"><![CDATA[يتخلّى تقرير Anthropic Economic Index «Cadences» (26 يونيو 2026) عن عيّنات الأيام السبعة لصالح قياس مستمر بالساعة، ثم يجمع مصنِّفًا للمخرجات مع بيانات استبيان لرفع قياس أثر الذكاء الاصطناعي من سجلّات المحادثة إلى منهجية مختلطة متعددة الطبقات. وإليكم كيف يمكن لـ ThakiCloud إعادة التفكير في عائد منصّات الذكاء الاصطناعي للمؤسسات.]]></summary></entry><entry xml:lang="ar"><title type="html">قرأنا الخريطة الكاملة لبنية مشروع Claude Code وقسنا مستودعنا الفعلي عليها</title><link href="https://thakicloud.github.io/ar/technique/claude-code-project-anatomy-complete-map/" rel="alternate" type="text/html" title="قرأنا الخريطة الكاملة لبنية مشروع Claude Code وقسنا مستودعنا الفعلي عليها" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/technique/claude-code-project-anatomy-complete-map</id><content type="html" xml:base="https://thakicloud.github.io/ar/technique/claude-code-project-anatomy-complete-map/"><![CDATA[<p><img src="/assets/images/claude-code-project-anatomy-complete-map-hero.png" alt="بنية تجريدية لخطوط ضوئية متعددة تتقارب نحو عقدة مركزية ثم تتفرع من جديد بشكل هرمي" />
<em>صورة تجريدية لبنية مشروع Claude Code التي تتشعب من دماغ مشروع واحد إلى قواعد ومهارات ووكلاء وذاكرة.</em></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>يكفي أن تعمل مع Claude Code فترة من الوقت حتى تتحوّل مجلدات <code class="language-plaintext highlighter-rouge">.claude</code> إلى فوضى من الأشياء المتناثرة. محتوى يستحق أن يكون قاعدة ينتهي في <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>، ومعرفة متخصصة لا تُحتاج إلا أحياناً تُدفن في قواعد مُحمَّلة دائماً، ومسارات بيئة شخصية تتسلل إلى ملفات مشتركة بين أعضاء الفريق. حين تضبب الحدود بين ما يحتويه كل مكوّن، يصبح المستخدم يدفع رموزاً توكن لسياق لا فائدة منه في كل جلسة.</p>

<p>في يونيو 2026، أثارت مقالة Prakash Bhandari بعنوان “Claude Code Project Structure: The Complete Map” اهتمام مجتمع المطورين. ترسم المقالة خريطة وحيدة لخمسة أنظمة فرعية تتحكم فيها مجلدات <code class="language-plaintext highlighter-rouge">.claude</code>: التعليمات (CLAUDE.md وrules)، وتدفقات العمل (skills وcommands)، والخبراء (agents)، والصلاحيات (settings.json)، والذاكرة (memory). إذ تُشغّل ThakiCloud مئات المهارات وعشرات الوكلاء على هذه البنية بالفعل، لم نكتفِ بقراءة المقالة بل قسنا مستودعنا عليها مباشرةً.</p>

<p>هذا المقال هو سجلّ تلك المقارنة الميدانية. نُحدد حدود دور كل مكوّن، ونقيس الأرقام الفعلية لمكوّنات مستودع <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code>، ثم نناقش لماذا تتخطى هذه البنية مجرد التنظيم حين يتعلق الأمر بتشغيل منصة SaaS متعددة المستأجرين لـ AI/ML على Kubernetes.</p>

<h2 id="ما-هي-بنية-مشروع-claude-code">ما هي بنية مشروع Claude Code؟</h2>

<p>الفكرة الجوهرية بسيطة. يقرأ Claude Code التكوين من موضعين: مجلد <code class="language-plaintext highlighter-rouge">.claude</code> في دليل المشروع، ومجلد <code class="language-plaintext highlighter-rouge">~/.claude</code> في الدليل الرئيسي. يُودَع ملفات المشروع في git لمشاركتها بين أعضاء الفريق، بينما تنطبق ملفات الدليل الرئيسي على جميع المشاريع كإعدادات شخصية. يستقر كل مكوّن في موضعه وفق هذين المسارين.</p>

<p>جوهر الخريطة يكمن في سؤال واحد: متى يُحمَّل كل مكوّن في السياق؟ بعضها يدخل السياق تلقائياً مع كل جلسة، وبعضها لا يدخل إلا حين تُفعّله طلب بعينه. هذا الفارق في توقيت التحميل هو الفارق في تكلفة التوكن، وهو ما يجعل قرار توضيع أي شيء في أي مكان مسألة تشغيلية لا مجرد تفضيل شخصي.</p>

<pre><code class="language-mermaid">flowchart TB
    ROOT["프로젝트 루트"]
    ROOT --&gt; BRAIN["CLAUDE.md&lt;br/&gt;프로젝트 브레인&lt;br/&gt;(매 세션 자동 로드)"]
    ROOT --&gt; LOCAL["CLAUDE.local.md&lt;br/&gt;개인 오버라이드&lt;br/&gt;(gitignore)"]
    ROOT --&gt; IGNORE[".claudeignore&lt;br/&gt;컨텍스트 경계"]
    ROOT --&gt; MCP[".mcp.json&lt;br/&gt;외부 도구 연결"]
    ROOT --&gt; DOTC[".claude/"]
    DOTC --&gt; SET["settings.json&lt;br/&gt;권한·훅·환경변수"]
    DOTC --&gt; RULES["rules/&lt;br/&gt;상시 규칙&lt;br/&gt;(매 턴 로드)"]
    DOTC --&gt; SKILLS["skills/&lt;br/&gt;온디맨드 전문지식&lt;br/&gt;(요청 시 로드)"]
    DOTC --&gt; AGENTS["agents/&lt;br/&gt;서브에이전트 정의"]
    DOTC --&gt; MEM["agent-memory/&lt;br/&gt;에이전트가 학습한 지식"]
    DOTC --&gt; WT["worktrees/&lt;br/&gt;병렬 격리"]
</code></pre>
<p><em>مخطط بنية مشروع Claude Code مُرتَّب وفق توقيت التحميل في السياق.</em></p>

<h2 id="حدود-دور-كل-مكوّن">حدود دور كل مكوّن</h2>

<p>القيمة الحقيقية للخريطة تتجلى في الإجابة عن: ما الذي يذهب إلى أين؟ فيما يلي ملخص مسؤولية كل مكوّن مقروناً بطريقة تطبيقنا الفعلي.</p>

<p><strong>CLAUDE.md هو دماغ المشروع.</strong> يُحمَّل تلقائياً مع كل جلسة ويمثّل الموجز المرجعي المشترك بين الفريق. تخيّله كالكرّاس الذي تسلّمه للمتعاقد الجديد في يومه الأول. أربعة أسئلة فحسب ينبغي أن يجيب عنها: ماذا نبني؟ على أي حزمة تعمل؟ أي اتفاقيات نتّبع؟ وما قواعد سير العمل؟ المبدأ الحاسم أن كل سطر يدفع إيجاراً، فـ<code class="language-plaintext highlighter-rouge">CLAUDE.md</code> المنتفخ هو في حقيقته هدر في السياق.</p>

<p><strong>CLAUDE.local.md هو تجاوز الإعدادات الشخصية.</strong> يشارك CLAUDE.md تنسيقه ذاته لكنه لا يدخل git أبداً. المسارات المحلية للبيئة، ومختصرات تصحيح الأخطاء، والتفضيلات الشخصية، وخصوصيات جهازك: هذه هي ما يذهب هنا. يجوز أن يختلف بين الزملاء، وهو الصمام الأماني الذي يُبقي <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> المشترك نظيفاً.</p>

<p><strong>.claudeignore هو حدود السياق.</strong> يستخدم صياغة <code class="language-plaintext highlighter-rouge">.gitignore</code> ذاتها ليقيّد نطاق قراءة Claude. بدونه، يستنزف <code class="language-plaintext highlighter-rouge">node_modules</code> وملفات الترحيل المولّدة وتبعيات البائع والتركيبات الضخمة السياقَ. في مستودعات الأحادي الكبيرة يصبح هذا الملف شرطاً لا خياراً.</p>

<p><strong>rules هي القواعد الدائمة.</strong> تُحمَّل تلقائياً مع كل دورة، لذا لا ينبغي أن تحتوي إلا على القواعد الثابتة التي تسري على جميع المهام. وضع وثيقة معمارية من 200 سطر في ملف قاعدة يعني استهلاك سياقها في كل جلسة حتى وإن كانت لا صلة لها بما يُنجَز. لهذا يجب أن تنام الوثائق حتى تستدعيها مهارة صريحة.</p>

<p><strong>skills هي المعرفة المتخصصة عند الطلب.</strong> لا تُحمَّل إلا حين تُفعّلها طلبٌ ما. وصفات العمل المتخصصة وخطوط أنابيب المجالات والمهام المتكررة: هذا مكانها. السؤال الفاصل بين CLAUDE.md وskills: هل يُحتاج هذا دائماً أم أحياناً؟</p>

<p><strong>agents هي تعريفات الوكلاء الفرعيين.</strong> خبراء مستقلون لكل منهم دوره وأدواته ومستوى نموذجه، يُستدعَون عند الحاجة. المنطق أن تسند مهام الاستكشاف إلى نماذج أرخص، والتنفيذ إلى نماذج متوازنة، والقرارات المعمارية إلى النماذج الأكثر تكلفة، توجيهاً مرناً وفق طبيعة المهمة.</p>

<p><strong>agent-memory هي المعرفة التي اكتسبها الوكيل بنفسه.</strong> هنا يكمن الفرق الجوهري عن CLAUDE.md: الأخير يحتوي ما أخبرته أنت به، أما agent-memory فتحتوي ما تعلّمه الوكيل من التجربة. الوكلاء طويلو المدى يراكمون الأنماط المتكررة والأخطاء والاتفاقيات غير الموثّقة.</p>

<h2 id="أين-تضع-المعرفة-الجديدة">أين تضع المعرفة الجديدة؟</h2>

<p>حتى لو استظهرت الخريطة، يظل السؤال العملي مُحيّراً حين تضيف قاعدة أو تدفق عمل جديداً. شجرة قرار التوضيع التي تقترحها المقالة تبسّط هذا الحكم.</p>

<pre><code class="language-mermaid">flowchart TB
    START["새 지식·규칙·워크플로 추가"]
    START --&gt; Q1{"항상 적용 +&lt;br/&gt;전체 팀 공유?"}
    Q1 --&gt;|예| CMD["CLAUDE.md (짧게)&lt;br/&gt;또는 .claude/rules/"]
    Q1 --&gt;|아니오| Q2{"가끔만 필요한&lt;br/&gt;전문 워크플로?"}
    Q2 --&gt;|예| SK[".claude/skills/"]
    Q2 --&gt;|아니오| Q3{"독립 역할·&lt;br/&gt;도구 조합?"}
    Q3 --&gt;|예| AG[".claude/agents/"]
    Q3 --&gt;|아니오| Q4{"개인 환경&lt;br/&gt;특이사항?"}
    Q4 --&gt;|예| LO["CLAUDE.local.md&lt;br/&gt;(gitignore)"]
    Q4 --&gt;|아니오| Q5{"에이전트가&lt;br/&gt;경험으로 배운 것?"}
    Q5 --&gt;|예| ME[".claude/agent-memory/"]
    Q5 --&gt;|아니오| PL["plugins/&lt;br/&gt;(여러 프로젝트 배포)"]
</code></pre>
<p><em>شجرة القرار لتحديد موضع أي معرفة جديدة: هل تُحتاج دائماً؟ هل تُحتاج أحياناً؟ من صنعها؟</em></p>

<p>الأخطاء الشائعة واضحة أيضاً. حشو المعرفة التي “تُحتاج أحياناً” في <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> يعني هدر توكن في كل جلسة. مستودع أحادي بلا <code class="language-plaintext highlighter-rouge">.claudeignore</code> يستنزف السياق. إيداع <code class="language-plaintext highlighter-rouge">CLAUDE.local.md</code> في git يكشف البيانات الشخصية والمسارات. تفعيل أكثر من 10 خوادم MCP دائماً يهدر نحو 10 آلاف توكن بلا استخدام.</p>

<h2 id="قياس-مستودع-thakicloud-على-هذه-الخريطة">قياس مستودع ThakiCloud على هذه الخريطة</h2>

<p>بعد قراءة الخريطة، قسنا مستودعنا عليها فعلاً. هذه هي نتائج قياس مجلد <code class="language-plaintext highlighter-rouge">.claude</code> في مستودع <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code>:</p>

<table>
  <thead>
    <tr>
      <th>المكوّن</th>
      <th>القياس الفعلي</th>
      <th>توقيت التحميل</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>CLAUDE.md</td>
      <td>94 سطراً</td>
      <td>تلقائي مع كل جلسة</td>
    </tr>
    <tr>
      <td>.claude/rules</td>
      <td>40 ملفاً</td>
      <td>تلقائي مع كل دورة</td>
    </tr>
    <tr>
      <td>.claude/skills</td>
      <td>1655 مجلداً</td>
      <td>عند الطلب</td>
    </tr>
    <tr>
      <td>.claude/agents</td>
      <td>54 تعريفاً</td>
      <td>عند الاستدعاء</td>
    </tr>
    <tr>
      <td>.claude/hooks</td>
      <td>15 ملفاً</td>
      <td>عند وقوع الحدث</td>
    </tr>
    <tr>
      <td>.claudeignore</td>
      <td>موجود (442 بايت)</td>
      <td>حدود دائمة</td>
    </tr>
    <tr>
      <td>.mcp.json</td>
      <td>موجود (166 بايت)</td>
      <td>عند اتصال الخادم</td>
    </tr>
    <tr>
      <td>.claude/settings.json</td>
      <td>موجود (5KB)</td>
      <td>مع كل جلسة</td>
    </tr>
  </tbody>
</table>

<p><img src="/assets/images/claude-code-project-anatomy-complete-map-results.png" alt="رسم بياني شريطي يجمع مكوّنات .claude في مستودع ThakiCloud مُرتَّبةً حسب توقيت التحميل" />
<em>40 قاعدة و94 سطراً من CLAUDE.md هي تكلفة دائمة تدخل السياق مع كل دورة، بينما 1655 مهارة و54 وكيلاً أصول يدخلون السياق عند الطلب فحسب.</em></p>

<p>هذه الأرقام تُثبت جوهر الخريطة بنفسها. لو أُدرجت الـ 1655 مهارة كلها في <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> أو في القواعد، لتجاوزت كل جلسة حدّ السياق فوراً. في الواقع، تُحمَّل هذه المهارات الـ 1655 عند الطلب فحسب، ويُضيّق موجّه مستقل المرشحين في كل دورة. في المقابل، تُضبط تكلفة الحضور الدائم إرادياً عند 40 قاعدة، وهو نتاج ضبط نظافة يستهدف أقل من 2KB لكل ملف قاعدة مع تخفيض أي ملف يتجاوز ذلك إلى مهارة.</p>

<p>اللافت أننا حين انتهينا من قراءة مصدر هذا المقال، استخلصناه مباشرةً في ملف قاعدة باسم <code class="language-plaintext highlighter-rouge">claude-code-project-anatomy.md</code> وأدرجناه في المستودع. أي أن “خريطة بنية المشروع” ذاتها اجتازت شجرة القرار لتستقر قاعدةً دائمة الحضور. الخريطة وضعت نفسها على الخريطة.</p>

<h2 id="ما-يعنيه-هذا-لمنتجات-thakicloud">ما يعنيه هذا لمنتجات ThakiCloud</h2>

<p>يتمثّل سجل SKILL.md وتعريفات الوكلاء الفرعيين وبنية القواعد في Claude Code في المبادئ التصميمية لـ Paxis، السحابة الأصيلة للوكلاء Agent-Native Cloud التي تطوّرها ThakiCloud حالياً في مرحلة إثبات المفهوم. يُشغّل Paxis منظومة Skill Harness التي تختار من بين أكثر من 960 مهارة عبر استرجاع BM25 وتنفّذها في بيئات عزل sandbox مستقلة، وهو تعميم على مستوى الإنتاج لنمط المهارة عند الطلب ذاته الذي يصفه هذا المقال. مبدأ “إبقاء ما هو دائم التحميل في حدوده الدنيا، ووضع سير العمل المتخصصة في المهارات الجاهزة عند الطلب” هو المبدأ نفسه الذي يعتمده Paxis في تعامله مع المهارات باعتبارها موارد أولى درجة. ومنهج “harness رفيع، مهارات سمينة” هو الأساس المعماري لسجل وكلاء Paxis.</p>

<p>يأخذ Paxis هذه البنية من بيئة المطوّر الفردي ويرفعها إلى وقت التشغيل الإنتاجي. يُدير المنصة مهاراتٍ وأدواتٍ وسياساتٍ وسجلاتِ تدقيق باعتبارها موارد أولى درجة، وينفّذ مستوى التحكم في الوكلاء عبر تنسيق متعدد الوكلاء بـ DAG، وجدولة المهام بالغة عربية طبيعية NL Cron، وموصّلات MCP. أما المهارات ذاتية التطوّر وبوابات السياسة فهي ارتقاء بفكرة agent-memory التي يُعبّر عنها Claude Code إلى مستوى المنتج: الفصل بين القناة التي تراكم فيها الوكلاء معرفتها المكتسبة والقناة التي يُراجعها فيها المسؤولون ويعتمدونها.</p>

<p>تُوفّر ai-platform نقاط نهاية LLM التي تُشغّل هذه المنظومة عند الاستنتاج، إذ تُشغّل ThakiCloud طبقة بنية AI/ML التحتية القائمة على Kubernetes مع خدمة نماذج متعددة المستأجرين عبر vLLM وجدولة GPU عبر Kueue، وهي الركيزة التنفيذية التي تستقبل طلبات استنتاج وكلاء Paxis وتعالجها.</p>

<h2 id="قيود-وتحفظات">قيود وتحفظات</h2>

<p>هذه الخريطة ليست حلاً مطلقاً. إليك تحفظات صريحة.</p>

<p>أولاً، حدود المكوّنات توصيات لا قيود. لا يمنعك Claude Code نفسه من وضع المحتوى الخاطئ في المكان الخاطئ. الالتزام بالحدود يبقى مسؤولية الفريق، وكما في حالتنا، يتطلب تثبيتها قواعد نظافة توكن وبوابات موجّه بالكود. قراءة الخريطة وحدها لا تُنظّف المستودع من تلقاء ذاته.</p>

<p>ثانياً، رقم 1655 مهارة ليس إنجازاً صافياً، بل سيف ذو حدّين. كلما زاد عدد المرشحين، زادت مخاطر توجيه الموجّه مهارةً خاطئة. المهارات عند الطلب لا تستهلك توكن دائمة، لكنها تُنتج تكلفة أخرى هي دقة البحث. “عند الطلب يعني مجاناً” استنتاج مبسّط.</p>

<p>ثالثاً، هذه البنية مُخصصة لـ Claude Code. الانتقال إلى بيئة تنفيذ وكلاء أخرى يغيّر اتفاقيات الدليل وآليات التحميل. لذا من الأجدر صياغة المعرفة ذاتها بحيادية تجاه بيئة التنفيذ، مع إبقاء التوصيل بالبيئة رفيعاً قدر الإمكان.</p>

<p>أخيراً، بعض أرقام المصدر، كـ 1000 توكن تقريباً لكل خادم MCP، تقديرات تتفاوت بحسب البيئة والإصدار. الأجدر قراءتها كاتجاه: “كل ما يُحمَّل دائماً يُكلّف”، لا كأرقام مطلقة.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://www.prakashbhandari.com.np/posts/claude-code-project-structure-2026/">Claude Code Project Structure Explained: The Complete 2026 Guide</a> (Prakash Bhandari)</li>
  <li><a href="https://code.claude.com/docs/en/claude-directory">Explore the .claude directory (التوثيق الرسمي لـ Claude Code)</a></li>
  <li>المستودع المقيس: مجلد <code class="language-plaintext highlighter-rouge">.claude</code> في مستودع ThakiCloud <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> (القياس بتاريخ 2026-06-27)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="claude-code" /><category term="project-structure" /><category term="context-engineering" /><category term="agent-skills" /><category term="platform-engineering" /><summary type="html"><![CDATA[من CLAUDE.md وقواعد rules وskills وagents وhooks حتى MCP، قرأنا الخريطة الكاملة التي ترسم حدود دور كل مكوّن في مشروع Claude Code، ثم قسنا مستودعنا الحقيقي (40 قاعدة، 1655 مهارة، 54 وكيلاً) مباشرةً على تلك الخريطة لنرى ما يتطابق وما يغيب. نستعرض شجرة قرار التوضيع ومنظور تشغيل منصة SaaS لـ AI/ML على Kubernetes.]]></summary></entry></feed>