<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-06-27T15:45:49+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ar"><title type="html">قياس الأثر الاقتصادي للذكاء الاصطناعي بما يتجاوز تحليل السجلّات: قراءة في تقرير Anthropic Economic Index «Cadences»</title><link href="https://thakicloud.github.io/ar/research/anthropic-economic-index-cadences/" rel="alternate" type="text/html" title="قياس الأثر الاقتصادي للذكاء الاصطناعي بما يتجاوز تحليل السجلّات: قراءة في تقرير Anthropic Economic Index «Cadences»" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/anthropic-economic-index-cadences</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/anthropic-economic-index-cadences/"><![CDATA[<p><img src="/assets/images/anthropic-economic-index-cadences-hero.png" alt="صورة تجريدية لنبضات ضوئية تتموّج بإيقاع عبر شبكة بيانات خفيفة توحي بالإيقاع اليومي" /></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>ما إن تُدخِل منصّة ذكاء اصطناعي إلى مؤسسة حتى تجد نفسك أمام سؤال واحد: «إذًا، كم ساعدت فعلًا؟». حتى الآن، كان الجواب في الغالب مقاييس النظام: كم عدد استدعاءات الـ API، وكم مهمة عولِجت، وكم ملّي ثانية استغرقت الاستجابة. الأرقام نظيفة، لكنها لا تبلغ ما تريد الإدارة معرفته حقًّا: «ما الذي أنتجته منظمتنا فعليًّا بقدر أكبر؟».</p>

<p>لهذا فإن <a href="https://www.anthropic.com/research/economic-index-june-2026-report">تقرير Economic Index «Cadences»</a> الذي نشرته Anthropic في 26 يونيو 2026 جدير بالاهتمام. فهو ليس تحديثًا روتينيًّا لإحصاءات الاستخدام، بل يُعلن صراحةً أن <strong>طريقة قياس الأثر الاقتصادي للذكاء الاصطناعي نفسها قد تغيّرت</strong>. انطلاقًا من إدراك أن سجلّات المحادثة وحدها لا تكفي لتفسير أثر الذكاء الاصطناعي في العمل، يوسّع التقرير أساس القياس عبر ثلاثة مسارات.</p>

<p>بالنسبة لشركة مثل ThakiCloud التي تُشغّل فعليًّا منصّة ذكاء اصطناعي/تعلّم آلي متعددة المستأجرين على Kubernetes، ليس هذا التحوّل قصة الآخرين. فالتقرير يُظهر بالبيانات الانتقال في طريقة شرح العائد للعملاء من «مقاييس النظام» نحو «مخرجات العمل وإدراك الموظفين». ينظّم هذا المقال التحوّلات المنهجية الثلاثة استنادًا إلى المادة الرسمية للتقرير، ويتأمّل ما يمكننا أخذه منها كمنصّة.</p>

<h2 id="ما-هذا-التقرير">ما هذا التقرير؟</h2>

<p>حلّلت Anthropic استخدام Claude عبر Economic Index منذ 2023. واتّكأت كل التقارير السابقة على <strong>بيانات عيّنة من سبعة أيام</strong>: اقتطاع أسبوع وفحص أنماط الاستخدام داخله. قبل عام، كان معظم استخدام Claude محادثةً بين مستخدم ومساعد، فكانت هذه الطريقة تلتقط صورة معقولة.</p>

<p>لكن مع النمو السريع لـ Claude Code وCowork، تحوّلت حصّة كبيرة من الجلسات إلى مهام وكيلة طويلة الأمد. ولم تعد سجلّات المحادثة تلتقط بالكامل كيف يستخدم الناس الذكاء الاصطناعي. تقول Anthropic إنها أعادت تصميم خط بياناتها في ثلاثة اتجاهات لمواكبة ذلك: رفع معدّل أخذ العيّنات لرؤية الأنماط حتى مستوى الساعة، وإدخال مصنِّف جديد يُعنوِن مخرَج كل محادثة، وتفصيل نتائج المحادثات/Cowork وواجهة 1P API شهريًّا لمزيد من الدقّة.</p>

<p>ويُضاف مسار آخر. تُقرّ Anthropic بأنها افتقرت إلى رؤية الأثر <strong>خارج</strong> جلسات المستخدم، أي كيف يُدرك الناس الذكاء الاصطناعي. لذا تعرض النتائج الأولية لـ <a href="https://www.anthropic.com/research/economic-index-survey-announcement">استبيان المؤشر الاقتصادي</a> الذي أُطلق في أبريل 2026. باختصار، يقوم التقرير على ثلاثة محاور: <strong>الإيقاعات بالساعة</strong>، و<strong>تصنيف المخرجات</strong>، و<strong>استبيان الإدراك</strong>.</p>

<p><img src="/assets/images/anthropic-economic-index-cadences-diagram.png" alt="رسم بياني يوضّح التوسّع من عيّنة سبعة أيام إلى منهجية مختلطة بثلاثة محاور (الإيقاعات بالساعة، تصنيف المخرجات، استبيان الإدراك) متّصلة بإطار قياس العائد لدى ThakiCloud" /></p>

<h2 id="المحور-الأول-الإيقاعات-بالساعة">المحور الأول: الإيقاعات بالساعة</h2>

<p>أبرز تغيير هو إدخال قياس عن بُعد يحفظ الخصوصية. فبأخذ عيّنة من شريحة من المحادثات يوميًّا وباستمرار، يلتقط التدفّقات اليومية والساعِيّة، خلافًا للقطات السبعة أيام السابقة. تتيح هذه البيانات، للمرة الأولى، رؤية كيف تنعكس إيقاعات الحياة اليومية في استخدام Claude.</p>

<p>النتائج بديهية وجديدة في آنٍ معًا. يتتبّع استخدام Claude نمط أيام العمل، بينما ترتفع الطلبات الشخصية في عطلة نهاية الأسبوع. وعند النزول ساعةً بساعة يزداد الوضوح: يطلب الناس نصائح النوم غالبًا قرابة الخامسة فجرًا، ويسألون عن الوصفات قرابة السادسة مساءً، وتتجمّع طلبات الأخبار في الصباح. كما تتفاعل الأنماط مع تواريخ بعينها: ارتفعت الطلبات المتعلقة بالضرائب قبيل الموعد النهائي الأمريكي للإقرار الضريبي في 15 أبريل.</p>

<p>وتظهر فروق بحسب طبيعة العمل أيضًا. حين يلجأ الناس إلى Claude للعمل ليلًا وفي العطلات، تميل تلك المهام نحو <strong>المهن الأعلى أجرًا</strong>، مثل مديري التسويق أو المبرمجين، الأكثر احتمالًا للعمل خارج الساعات التقليدية. في المقابل، تتراجع حصّة مهام الرُّبعين الأدنى أجرًا، كالتسويق الهاتفي والأعمال الكتابية، ليلًا وفي العطلات. وتضيف Anthropic أن النمط يصمد حتى في اختبار متانة يستبعد المهن الحاسوبية والرياضية. إنها إشارة إلى أن الذكاء الاصطناعي يعمل لا كأتمتة بسيطة بل كأداة مساعِدة لعمل عالي المهارة.</p>

<h2 id="المحور-الثاني-مصنِّف-المخرجات-artifact">المحور الثاني: مصنِّف المخرجات (Artifact)</h2>

<p>التحوّل الثاني هو تصنيف مخرجات المحادثات. صنّفت Anthropic ما يُنتجه كل من محادثات الدردشة وCowork من <strong>مخرَج (artifact)</strong> ضمن أكثر من 30 فئة: مستند، شرح، مقطع شيفرة، ورقة أكاديمية، وهكذا، أي المخرَج الأساسي الذي أنتجه Claude في تلك المحادثة.</p>

<p>حكم المصنِّف بأن <strong>93% من محادثات Claude تُنتج مخرَجًا</strong>. وأكثر الأنواع شيوعًا هي الشروحات (17%)، والمستندات والتقارير (15%)، والإرشادات (11%). وتمثّل المخرجات الحوارية كالشروحات أو الإرشادات والمخرجات المكتوبة كالمستندات أو العروض نحو الثلث لكلٍّ منها، بينما تمثّل مخرجات الشيفرة والتقنية كالتطبيقات أو السكربتات نحو السدس.</p>

<p>وتتبع ذلك نتيجة ثانية، هي درجة <strong>الاستقلالية (autonomy)</strong>. تقيس Anthropic مقدار ما يُفوَّض إلى Claude من حُكم على مقياس من 1 إلى 5. فالمهام ذات الإجابات المحدّدة سلفًا، كالترجمة أو الحساب، استقلاليتها منخفضة، أما المهام التي تتطلّب الاختيار من بدائل كثيرة، كبناء التطبيقات أو الألعاب أو العروض، فاستقلاليتها مرتفعة.</p>

<p>ويُقاس المخرَج نفسه باستقلالية أعلى حين يُصنع عبر Claude Code. ففي 26 من أصل 31 مخرَجًا معروضًا كانت الاستقلالية أعلى على Claude Code منها على الدردشة أو Cowork، بفارق متوسّط قدره <strong>0.37 نقطة</strong>. وفي السكربتات ومقاطع الشيفرة يتّسع الفارق إلى 0.53 نقطة. ونحو ثلثي هذا الفارق يأتي من تنفيذ المهام نفسها بتفويض أكبر. وتمثّل التدوينات مثالًا جيّدًا: المحادثة الوسيطة على الدردشة/Cowork لإنتاج تدوينة تمرّ بـ 13 جولة من الأخذ والردّ، بينما على Claude Code يفوّض الناس قدرًا أكبر من الحُكم. بعبارة أخرى، يمنح المستخدمون الذكاء الاصطناعي استقلالية أكبر.</p>

<h2 id="المحور-الثالث-استبيان-الإدراك">المحور الثالث: استبيان الإدراك</h2>

<p>المحور الثالث بيانات مستمدّة لا من السجلّات بل بسؤال الناس مباشرةً. أطلقت Anthropic استبيان المؤشر الاقتصادي في أبريل 2026، فسألت مستخدمي Claude الفعليين كم من عملهم يستطيع الذكاء الاصطناعي إنجازه. وتُربَط إجابات الاستبيان ببيانات الاستخدام عبر طرق تحفظ الخصوصية.</p>

<p>سُئل المشاركون عن حصّة مهام عملهم التي يستطيع الذكاء الاصطناعي إنجازها بمفرده اليوم (الانكشاف المُبلَّغ)، والحصّة التي يتوقّعون أن يتولّاها خلال 12 شهرًا (الانكشاف المتوقَّع). <strong>اختار ما يقارب 6 من كل 10 مشاركين نطاقًا أعلى للعام المقبل</strong>، و<strong>يتوقّع أكثر من الثلث أن يستطيع الذكاء الاصطناعي إنجاز معظم مهام عملهم أو كلّها تقريبًا العام المقبل</strong>.</p>

<p>والفروق بين الفئات واضحة. مال المشاركون في الدول الأقل دخلًا إلى الشعور بأن الذكاء الاصطناعي قادر على استبدال قدرٍ أكبر من عملهم. وتستشهد Anthropic بأبحاث سابقة تُظهر أن هذه الدول تميل إلى استخدام Claude بطرق أكثر أتمتة. كما تظهر فروق بحسب الخبرة: وضع أصحاب الخبرة 15 عامًا فأكثر حصّة المهام التي يستطيع الذكاء الاصطناعي إنجازها أدنى بنحو 10 نقاط مئوية من حديثي العهد في عامهم الأول، مع تفسير أن ذوي الخبرة راكموا خبرة ضمنية مرتبطة بالسياق يصعب على الذكاء الاصطناعي محاكاتها. وذكر المشاركون أن الحُكم والوعي بالسياق والاستدلال الموقفي والأبعاد العلائقية لبناء الثقة وإدارة الناس أمور لا يستطيع الذكاء الاصطناعي القيام بها. وتركّز القلق من الإحلال لدى العاملين في بداية مسارهم المهني وذوي الأجور المنخفضة.</p>

<h2 id="دلالات-لمنصّة-thakicloud-للذكاء-الاصطناعيالتعلّم-الآلي-كخدمة-على-k8s">دلالات لمنصّة ThakiCloud للذكاء الاصطناعي/التعلّم الآلي كخدمة على K8s</h2>

<p>ما يقدّمه هذا التقرير لـ ThakiCloud لا يكمن في ميزة بل في <strong>إطار قياس</strong>. ينطلق نهج Anthropic من فرضية أن «السجلّات وحدها لا تكفي لتفسير قيمة الذكاء الاصطناعي»، وهو منظور يمكننا تطبيقه مباشرةً كمشغّل منصّة ذكاء اصطناعي للمؤسسات.</p>

<p>حتى الآن، ركّزنا نحن أيضًا في شرح العائد على مقاييس النظام: عدد الاستدعاءات، والإنتاجية، وسرعة الاستجابة. لكن هذا التقرير يطرح أسئلة على طبقة مختلفة. ما الذي أُنتج في تلك المحادثة؟ هل صُنع المخرَج في ساعات العمل أم أثناء عمل إضافي ليلي؟ كم من الاستقلالية فوّضها المستخدم للذكاء الاصطناعي؟ وكم يشعر المستخدمون أنفسهم أن الذكاء الاصطناعي يحلّ محلّ عملهم؟</p>

<p>هذه الأسئلة قابلة للقياس على بنيتنا. تتولّى ThakiCloud في مكان واحد جدولة وحدات معالجة الرسوميات القائمة على Kubernetes وKueue، وخدمة vLLM، وتشغيل الوكلاء متعدد المستأجرين. وبإضافة طبقة من مصنِّف المخرجات إلى القياس عن بُعد المنبثق من هذه البنية، يمكننا التقاط متى وبأيّ صورة يُنتج موظفو العميل مخرجات بمشاركة الذكاء الاصطناعي. عندها نشرح أثر الذكاء الاصطناعي لا بعبارة «تحسين الكفاءة» المجرّدة بل بوحدات مخرجات ملموسة. ويمكن أن تصبح ملاحظة ارتفاع مهام الأجور العالية في النوبات الليلية مؤشرًا لما إذا كان الذكاء الاصطناعي يستقرّ كأداة مساعِدة لعمل عالي المهارة في مؤسسات عملائنا أيضًا.</p>

<p>كذلك تستحقّ طريقة ربط الاستبيان بالسجلّات الاقتباس. فقياس الفجوة بين بيانات الاستخدام الفعلية والقدرة المُدرَكة يكشف أيّ الفئات تستفيد أكثر بعد تبنّي الذكاء الاصطناعي وأيّها تشعر بالقلق. وهي رؤية تُغذّي مباشرةً استراتيجية إدارة التغيير الداخلية لدى العميل. وبالنسبة للعملاء المحلّيين الذين يجب أن يقيسوا داخل البنية المحلّية دون إرسال البيانات إلى الخارج، فإن تصميم القياس الحافظ للخصوصية متطلّب لا خيار، وبنية العزل متعدد المستأجرين والاستضافة الذاتية لدينا تنطبق على هذا المتطلّب تمامًا.</p>

<p>في النهاية، اتجاه Anthropic هو التزام بمواصلة صقل كيفية قياس الأثر الاقتصادي للذكاء الاصطناعي. وأحد أقوى ما يميّز ThakiCloud هو دور الشريك الذي يتجاوز توفير منصّة إلى المشاركة في تصميم إطار القياس هذا وتفسير البيانات. والقدرة على قياس عائد الذكاء الاصطناعي لا على مستوى السجلّات بل على مستوى مخرجات العمل وإدراك الموظفين ستكون ميزة تنافسية جوهرية في سوق منصّات الذكاء الاصطناعي للمؤسسات.</p>

<h2 id="الحدود-والاعتراضات">الحدود والاعتراضات</h2>

<p>توخّيًا للتوازن، تستحقّ حدود التقرير الذكر. أولًا، بما أن البيانات تأتي من مستخدمي Claude، فثمّة تحيّز في العيّنة. فهذه أنماط استخدام وإدراك لفئة تستخدم الذكاء الاصطناعي بفاعلية أصلًا، ويصعب تعميمها على كامل القوى العاملة. وتُقرّ Anthropic نفسها مرارًا بأنها لا تستطيع تحديد المهن على نحو قاطع، كما أن التقديرات بحسب المهنة عبر الزمن مستنبطة عكسيًّا من خصائص المهام، فلا يمكن الجزم بالسببية.</p>

<p>ويجب قراءة بيانات الاستبيان بحذر أكبر. فتوقّع «أن يتولّى الذكاء الاصطناعي معظم عملي العام المقبل» إدراكٌ لا قدرة موثَّقة. ويؤكّد التقرير نفسه أن القدرة المُدرَكة تأتي أعلى من الانكشاف المهني المُلاحَظ. والفجوة بين التوقّع والواقع هي ذاتها موضوع القياس، لا مسوّغًا لمعاملة التوقّع بوصفه المستقبل.</p>

<p>أخيرًا، صقل طريقة القياس لا يُكبِّر الأثر بذاته. فالرؤية بدقّة أكبر شيء، وحدوث الشيء بقدر أكبر شيء آخر. قيمة هذا التقرير ليست في خلاصة «أن الذكاء الاصطناعي حلّ محلّ هذا القدر من العمل»، بل في إعادة بناء سؤال «كيف نقيس ذلك الأثر بأمانة أكبر» عبر منهجية مختلطة متعددة الطبقات. وما ينبغي لـ ThakiCloud أخذه ليس الخلاصة بل موقف القياس.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Anthropic، <a href="https://www.anthropic.com/research/economic-index-june-2026-report">“Anthropic Economic Index report: Cadences”</a> (2026-06-26)</li>
  <li>Anthropic، <a href="https://www.anthropic.com/research/economic-index-survey-announcement">“Anthropic Economic Index Survey”</a> (2026-04)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="anthropic" /><category term="economic-index" /><category term="ai-impact" /><category term="measurement" /><category term="telemetry" /><category term="survey" /><category term="enterprise-ai" /><summary type="html"><![CDATA[يتخلّى تقرير Anthropic Economic Index «Cadences» (26 يونيو 2026) عن عيّنات الأيام السبعة لصالح قياس مستمر بالساعة، ثم يجمع مصنِّفًا للمخرجات مع بيانات استبيان لرفع قياس أثر الذكاء الاصطناعي من سجلّات المحادثة إلى منهجية مختلطة متعددة الطبقات. وإليكم كيف يمكن لـ ThakiCloud إعادة التفكير في عائد منصّات الذكاء الاصطناعي للمؤسسات.]]></summary></entry><entry xml:lang="ar"><title type="html">قرأنا الخريطة الكاملة لبنية مشروع Claude Code وقسنا مستودعنا الفعلي عليها</title><link href="https://thakicloud.github.io/ar/technique/claude-code-project-anatomy-complete-map/" rel="alternate" type="text/html" title="قرأنا الخريطة الكاملة لبنية مشروع Claude Code وقسنا مستودعنا الفعلي عليها" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/technique/claude-code-project-anatomy-complete-map</id><content type="html" xml:base="https://thakicloud.github.io/ar/technique/claude-code-project-anatomy-complete-map/"><![CDATA[<p><img src="/assets/images/claude-code-project-anatomy-complete-map-hero.png" alt="بنية تجريدية لخطوط ضوئية متعددة تتقارب نحو عقدة مركزية ثم تتفرع من جديد بشكل هرمي" />
<em>صورة تجريدية لبنية مشروع Claude Code التي تتشعب من دماغ مشروع واحد إلى قواعد ومهارات ووكلاء وذاكرة.</em></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>يكفي أن تعمل مع Claude Code فترة من الوقت حتى تتحوّل مجلدات <code class="language-plaintext highlighter-rouge">.claude</code> إلى فوضى من الأشياء المتناثرة. محتوى يستحق أن يكون قاعدة ينتهي في <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>، ومعرفة متخصصة لا تُحتاج إلا أحياناً تُدفن في قواعد مُحمَّلة دائماً، ومسارات بيئة شخصية تتسلل إلى ملفات مشتركة بين أعضاء الفريق. حين تضبب الحدود بين ما يحتويه كل مكوّن، يصبح المستخدم يدفع رموزاً توكن لسياق لا فائدة منه في كل جلسة.</p>

<p>في يونيو 2026، أثارت مقالة Prakash Bhandari بعنوان “Claude Code Project Structure: The Complete Map” اهتمام مجتمع المطورين. ترسم المقالة خريطة وحيدة لخمسة أنظمة فرعية تتحكم فيها مجلدات <code class="language-plaintext highlighter-rouge">.claude</code>: التعليمات (CLAUDE.md وrules)، وتدفقات العمل (skills وcommands)، والخبراء (agents)، والصلاحيات (settings.json)، والذاكرة (memory). إذ تُشغّل ThakiCloud مئات المهارات وعشرات الوكلاء على هذه البنية بالفعل، لم نكتفِ بقراءة المقالة بل قسنا مستودعنا عليها مباشرةً.</p>

<p>هذا المقال هو سجلّ تلك المقارنة الميدانية. نُحدد حدود دور كل مكوّن، ونقيس الأرقام الفعلية لمكوّنات مستودع <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code>، ثم نناقش لماذا تتخطى هذه البنية مجرد التنظيم حين يتعلق الأمر بتشغيل منصة SaaS متعددة المستأجرين لـ AI/ML على Kubernetes.</p>

<h2 id="ما-هي-بنية-مشروع-claude-code">ما هي بنية مشروع Claude Code؟</h2>

<p>الفكرة الجوهرية بسيطة. يقرأ Claude Code التكوين من موضعين: مجلد <code class="language-plaintext highlighter-rouge">.claude</code> في دليل المشروع، ومجلد <code class="language-plaintext highlighter-rouge">~/.claude</code> في الدليل الرئيسي. يُودَع ملفات المشروع في git لمشاركتها بين أعضاء الفريق، بينما تنطبق ملفات الدليل الرئيسي على جميع المشاريع كإعدادات شخصية. يستقر كل مكوّن في موضعه وفق هذين المسارين.</p>

<p>جوهر الخريطة يكمن في سؤال واحد: متى يُحمَّل كل مكوّن في السياق؟ بعضها يدخل السياق تلقائياً مع كل جلسة، وبعضها لا يدخل إلا حين تُفعّله طلب بعينه. هذا الفارق في توقيت التحميل هو الفارق في تكلفة التوكن، وهو ما يجعل قرار توضيع أي شيء في أي مكان مسألة تشغيلية لا مجرد تفضيل شخصي.</p>

<pre><code class="language-mermaid">flowchart TB
    ROOT["프로젝트 루트"]
    ROOT --&gt; BRAIN["CLAUDE.md&lt;br/&gt;프로젝트 브레인&lt;br/&gt;(매 세션 자동 로드)"]
    ROOT --&gt; LOCAL["CLAUDE.local.md&lt;br/&gt;개인 오버라이드&lt;br/&gt;(gitignore)"]
    ROOT --&gt; IGNORE[".claudeignore&lt;br/&gt;컨텍스트 경계"]
    ROOT --&gt; MCP[".mcp.json&lt;br/&gt;외부 도구 연결"]
    ROOT --&gt; DOTC[".claude/"]
    DOTC --&gt; SET["settings.json&lt;br/&gt;권한·훅·환경변수"]
    DOTC --&gt; RULES["rules/&lt;br/&gt;상시 규칙&lt;br/&gt;(매 턴 로드)"]
    DOTC --&gt; SKILLS["skills/&lt;br/&gt;온디맨드 전문지식&lt;br/&gt;(요청 시 로드)"]
    DOTC --&gt; AGENTS["agents/&lt;br/&gt;서브에이전트 정의"]
    DOTC --&gt; MEM["agent-memory/&lt;br/&gt;에이전트가 학습한 지식"]
    DOTC --&gt; WT["worktrees/&lt;br/&gt;병렬 격리"]
</code></pre>
<p><em>مخطط بنية مشروع Claude Code مُرتَّب وفق توقيت التحميل في السياق.</em></p>

<h2 id="حدود-دور-كل-مكوّن">حدود دور كل مكوّن</h2>

<p>القيمة الحقيقية للخريطة تتجلى في الإجابة عن: ما الذي يذهب إلى أين؟ فيما يلي ملخص مسؤولية كل مكوّن مقروناً بطريقة تطبيقنا الفعلي.</p>

<p><strong>CLAUDE.md هو دماغ المشروع.</strong> يُحمَّل تلقائياً مع كل جلسة ويمثّل الموجز المرجعي المشترك بين الفريق. تخيّله كالكرّاس الذي تسلّمه للمتعاقد الجديد في يومه الأول. أربعة أسئلة فحسب ينبغي أن يجيب عنها: ماذا نبني؟ على أي حزمة تعمل؟ أي اتفاقيات نتّبع؟ وما قواعد سير العمل؟ المبدأ الحاسم أن كل سطر يدفع إيجاراً، فـ<code class="language-plaintext highlighter-rouge">CLAUDE.md</code> المنتفخ هو في حقيقته هدر في السياق.</p>

<p><strong>CLAUDE.local.md هو تجاوز الإعدادات الشخصية.</strong> يشارك CLAUDE.md تنسيقه ذاته لكنه لا يدخل git أبداً. المسارات المحلية للبيئة، ومختصرات تصحيح الأخطاء، والتفضيلات الشخصية، وخصوصيات جهازك: هذه هي ما يذهب هنا. يجوز أن يختلف بين الزملاء، وهو الصمام الأماني الذي يُبقي <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> المشترك نظيفاً.</p>

<p><strong>.claudeignore هو حدود السياق.</strong> يستخدم صياغة <code class="language-plaintext highlighter-rouge">.gitignore</code> ذاتها ليقيّد نطاق قراءة Claude. بدونه، يستنزف <code class="language-plaintext highlighter-rouge">node_modules</code> وملفات الترحيل المولّدة وتبعيات البائع والتركيبات الضخمة السياقَ. في مستودعات الأحادي الكبيرة يصبح هذا الملف شرطاً لا خياراً.</p>

<p><strong>rules هي القواعد الدائمة.</strong> تُحمَّل تلقائياً مع كل دورة، لذا لا ينبغي أن تحتوي إلا على القواعد الثابتة التي تسري على جميع المهام. وضع وثيقة معمارية من 200 سطر في ملف قاعدة يعني استهلاك سياقها في كل جلسة حتى وإن كانت لا صلة لها بما يُنجَز. لهذا يجب أن تنام الوثائق حتى تستدعيها مهارة صريحة.</p>

<p><strong>skills هي المعرفة المتخصصة عند الطلب.</strong> لا تُحمَّل إلا حين تُفعّلها طلبٌ ما. وصفات العمل المتخصصة وخطوط أنابيب المجالات والمهام المتكررة: هذا مكانها. السؤال الفاصل بين CLAUDE.md وskills: هل يُحتاج هذا دائماً أم أحياناً؟</p>

<p><strong>agents هي تعريفات الوكلاء الفرعيين.</strong> خبراء مستقلون لكل منهم دوره وأدواته ومستوى نموذجه، يُستدعَون عند الحاجة. المنطق أن تسند مهام الاستكشاف إلى نماذج أرخص، والتنفيذ إلى نماذج متوازنة، والقرارات المعمارية إلى النماذج الأكثر تكلفة، توجيهاً مرناً وفق طبيعة المهمة.</p>

<p><strong>agent-memory هي المعرفة التي اكتسبها الوكيل بنفسه.</strong> هنا يكمن الفرق الجوهري عن CLAUDE.md: الأخير يحتوي ما أخبرته أنت به، أما agent-memory فتحتوي ما تعلّمه الوكيل من التجربة. الوكلاء طويلو المدى يراكمون الأنماط المتكررة والأخطاء والاتفاقيات غير الموثّقة.</p>

<h2 id="أين-تضع-المعرفة-الجديدة">أين تضع المعرفة الجديدة؟</h2>

<p>حتى لو استظهرت الخريطة، يظل السؤال العملي مُحيّراً حين تضيف قاعدة أو تدفق عمل جديداً. شجرة قرار التوضيع التي تقترحها المقالة تبسّط هذا الحكم.</p>

<pre><code class="language-mermaid">flowchart TB
    START["새 지식·규칙·워크플로 추가"]
    START --&gt; Q1{"항상 적용 +&lt;br/&gt;전체 팀 공유?"}
    Q1 --&gt;|예| CMD["CLAUDE.md (짧게)&lt;br/&gt;또는 .claude/rules/"]
    Q1 --&gt;|아니오| Q2{"가끔만 필요한&lt;br/&gt;전문 워크플로?"}
    Q2 --&gt;|예| SK[".claude/skills/"]
    Q2 --&gt;|아니오| Q3{"독립 역할·&lt;br/&gt;도구 조합?"}
    Q3 --&gt;|예| AG[".claude/agents/"]
    Q3 --&gt;|아니오| Q4{"개인 환경&lt;br/&gt;특이사항?"}
    Q4 --&gt;|예| LO["CLAUDE.local.md&lt;br/&gt;(gitignore)"]
    Q4 --&gt;|아니오| Q5{"에이전트가&lt;br/&gt;경험으로 배운 것?"}
    Q5 --&gt;|예| ME[".claude/agent-memory/"]
    Q5 --&gt;|아니오| PL["plugins/&lt;br/&gt;(여러 프로젝트 배포)"]
</code></pre>
<p><em>شجرة القرار لتحديد موضع أي معرفة جديدة: هل تُحتاج دائماً؟ هل تُحتاج أحياناً؟ من صنعها؟</em></p>

<p>الأخطاء الشائعة واضحة أيضاً. حشو المعرفة التي “تُحتاج أحياناً” في <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> يعني هدر توكن في كل جلسة. مستودع أحادي بلا <code class="language-plaintext highlighter-rouge">.claudeignore</code> يستنزف السياق. إيداع <code class="language-plaintext highlighter-rouge">CLAUDE.local.md</code> في git يكشف البيانات الشخصية والمسارات. تفعيل أكثر من 10 خوادم MCP دائماً يهدر نحو 10 آلاف توكن بلا استخدام.</p>

<h2 id="قياس-مستودع-thakicloud-على-هذه-الخريطة">قياس مستودع ThakiCloud على هذه الخريطة</h2>

<p>بعد قراءة الخريطة، قسنا مستودعنا عليها فعلاً. هذه هي نتائج قياس مجلد <code class="language-plaintext highlighter-rouge">.claude</code> في مستودع <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code>:</p>

<table>
  <thead>
    <tr>
      <th>المكوّن</th>
      <th>القياس الفعلي</th>
      <th>توقيت التحميل</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>CLAUDE.md</td>
      <td>94 سطراً</td>
      <td>تلقائي مع كل جلسة</td>
    </tr>
    <tr>
      <td>.claude/rules</td>
      <td>40 ملفاً</td>
      <td>تلقائي مع كل دورة</td>
    </tr>
    <tr>
      <td>.claude/skills</td>
      <td>1655 مجلداً</td>
      <td>عند الطلب</td>
    </tr>
    <tr>
      <td>.claude/agents</td>
      <td>54 تعريفاً</td>
      <td>عند الاستدعاء</td>
    </tr>
    <tr>
      <td>.claude/hooks</td>
      <td>15 ملفاً</td>
      <td>عند وقوع الحدث</td>
    </tr>
    <tr>
      <td>.claudeignore</td>
      <td>موجود (442 بايت)</td>
      <td>حدود دائمة</td>
    </tr>
    <tr>
      <td>.mcp.json</td>
      <td>موجود (166 بايت)</td>
      <td>عند اتصال الخادم</td>
    </tr>
    <tr>
      <td>.claude/settings.json</td>
      <td>موجود (5KB)</td>
      <td>مع كل جلسة</td>
    </tr>
  </tbody>
</table>

<p><img src="/assets/images/claude-code-project-anatomy-complete-map-results.png" alt="رسم بياني شريطي يجمع مكوّنات .claude في مستودع ThakiCloud مُرتَّبةً حسب توقيت التحميل" />
<em>40 قاعدة و94 سطراً من CLAUDE.md هي تكلفة دائمة تدخل السياق مع كل دورة، بينما 1655 مهارة و54 وكيلاً أصول يدخلون السياق عند الطلب فحسب.</em></p>

<p>هذه الأرقام تُثبت جوهر الخريطة بنفسها. لو أُدرجت الـ 1655 مهارة كلها في <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> أو في القواعد، لتجاوزت كل جلسة حدّ السياق فوراً. في الواقع، تُحمَّل هذه المهارات الـ 1655 عند الطلب فحسب، ويُضيّق موجّه مستقل المرشحين في كل دورة. في المقابل، تُضبط تكلفة الحضور الدائم إرادياً عند 40 قاعدة، وهو نتاج ضبط نظافة يستهدف أقل من 2KB لكل ملف قاعدة مع تخفيض أي ملف يتجاوز ذلك إلى مهارة.</p>

<p>اللافت أننا حين انتهينا من قراءة مصدر هذا المقال، استخلصناه مباشرةً في ملف قاعدة باسم <code class="language-plaintext highlighter-rouge">claude-code-project-anatomy.md</code> وأدرجناه في المستودع. أي أن “خريطة بنية المشروع” ذاتها اجتازت شجرة القرار لتستقر قاعدةً دائمة الحضور. الخريطة وضعت نفسها على الخريطة.</p>

<h2 id="دلالات-التطبيق-على-منصة-thakicloud-k8s-لـ-aiml">دلالات التطبيق على منصة ThakiCloud K8s لـ AI/ML</h2>

<p>يتجاوز هذا النظام مجرد التنظيم لأن تكلفة السياق هي تكلفة تشغيل فعلية. تُشغّل ThakiCloud وكلاء متعددي المستأجرين على Kubernetes، وتجدول موارد GPU عبر Kueue، وتخدم النماذج عبر vLLM. في هذه البيئة، تستهلك كل جلسة وكيل توكناً، وكل توكن يترجم إلى تكلفة استنتاج. تقليص السياق الدائم ينعكس مباشرةً على الدقة والتكلفة الوحدوية.</p>

<p>“التوضيع وفق توقيت التحميل” الذي تُركّز عليه الخريطة يتلاقى تماماً مع مبدأين نصغناهما مسبقاً. الأول: تراكم القدرات في المهارة لا في الـ harness، بحيث تعمل المهارة ذاتها عبر بيئات تنفيذ متعددة مع إبقاء الـ harness رفيعاً. الثاني: تأجيل ما يُحتاج أحياناً إلى عند الطلب مع إبقاء ما يُحتاج دائماً في حدوده الدنيا. شجرة القرار تُحوّل هذين المبدأين إلى حكم عملي لحظة إضافة أي مكوّن جديد.</p>

<p>للمنتج متعدد المستأجرين دلالة أعمق. حين تحتاج إلى حقن قواعد ومهارات مختلفة لكل مستأجر، تُبسّط حدودٌ واضحة بين ما هو سياق دائم وما هو عند الطلب كلاً من عزل السياق بين المستأجرين وتوزيع التكاليف. وفصل معرفة agent-memory التي يكتسبها الوكيل عن معرفة <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> التي يحددها الإنسان يُتيح تشغيل وكلاء ذاتية التعلم بأمان.</p>

<h2 id="قيود-وتحفظات">قيود وتحفظات</h2>

<p>هذه الخريطة ليست حلاً مطلقاً. إليك تحفظات صريحة.</p>

<p>أولاً، حدود المكوّنات توصيات لا قيود. لا يمنعك Claude Code نفسه من وضع المحتوى الخاطئ في المكان الخاطئ. الالتزام بالحدود يبقى مسؤولية الفريق، وكما في حالتنا، يتطلب تثبيتها قواعد نظافة توكن وبوابات موجّه بالكود. قراءة الخريطة وحدها لا تُنظّف المستودع من تلقاء ذاته.</p>

<p>ثانياً، رقم 1655 مهارة ليس إنجازاً صافياً، بل سيف ذو حدّين. كلما زاد عدد المرشحين، زادت مخاطر توجيه الموجّه مهارةً خاطئة. المهارات عند الطلب لا تستهلك توكن دائمة، لكنها تُنتج تكلفة أخرى هي دقة البحث. “عند الطلب يعني مجاناً” استنتاج مبسّط.</p>

<p>ثالثاً، هذه البنية مُخصصة لـ Claude Code. الانتقال إلى بيئة تنفيذ وكلاء أخرى يغيّر اتفاقيات الدليل وآليات التحميل. لذا من الأجدر صياغة المعرفة ذاتها بحيادية تجاه بيئة التنفيذ، مع إبقاء التوصيل بالبيئة رفيعاً قدر الإمكان.</p>

<p>أخيراً، بعض أرقام المصدر، كـ 1000 توكن تقريباً لكل خادم MCP، تقديرات تتفاوت بحسب البيئة والإصدار. الأجدر قراءتها كاتجاه: “كل ما يُحمَّل دائماً يُكلّف”، لا كأرقام مطلقة.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://www.prakashbhandari.com.np/posts/claude-code-project-structure-2026/">Claude Code Project Structure Explained: The Complete 2026 Guide</a> (Prakash Bhandari)</li>
  <li><a href="https://code.claude.com/docs/en/claude-directory">Explore the .claude directory (التوثيق الرسمي لـ Claude Code)</a></li>
  <li>المستودع المقيس: مجلد <code class="language-plaintext highlighter-rouge">.claude</code> في مستودع ThakiCloud <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> (القياس بتاريخ 2026-06-27)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="claude-code" /><category term="project-structure" /><category term="context-engineering" /><category term="agent-skills" /><category term="platform-engineering" /><summary type="html"><![CDATA[من CLAUDE.md وقواعد rules وskills وagents وhooks حتى MCP، قرأنا الخريطة الكاملة التي ترسم حدود دور كل مكوّن في مشروع Claude Code، ثم قسنا مستودعنا الحقيقي (40 قاعدة، 1655 مهارة، 54 وكيلاً) مباشرةً على تلك الخريطة لنرى ما يتطابق وما يغيب. نستعرض شجرة قرار التوضيع ومنظور تشغيل منصة SaaS لـ AI/ML على Kubernetes.]]></summary></entry><entry xml:lang="en"><title type="html">Measuring AI’s Economic Impact Beyond Log Analysis: A Look at Anthropic’s Economic Index ‘Cadences’ Report</title><link href="https://thakicloud.github.io/en/research/anthropic-economic-index-cadences/" rel="alternate" type="text/html" title="Measuring AI’s Economic Impact Beyond Log Analysis: A Look at Anthropic’s Economic Index ‘Cadences’ Report" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/research/anthropic-economic-index-cadences</id><content type="html" xml:base="https://thakicloud.github.io/en/research/anthropic-economic-index-cadences/"><![CDATA[<p><img src="/assets/images/anthropic-economic-index-cadences-hero.png" alt="Abstract image of light pulses rippling in rhythm across a subtle data grid, evoking daily cadence" /></p>

<h2 id="overview">Overview</h2>

<p>Once you bring an AI platform into an enterprise, you eventually face one question: “So how much did it actually help?” Until now, the answer has mostly been system metrics. How many API calls happened, how many tasks were processed, how many milliseconds the response took. The numbers are clean, but they never reach what executives really want to know: “What did our organization actually produce more of?”</p>

<p>That is why Anthropic’s <a href="https://www.anthropic.com/research/economic-index-june-2026-report">Economic Index report “Cadences”</a>, published on June 26, 2026, is interesting. It is not a routine usage-statistics update. It publicly declares that <strong>the way AI’s economic impact is measured has itself changed</strong>. Starting from the recognition that chat logs alone cannot explain how AI affects work, it broadens the basis of measurement along three tracks.</p>

<p>For a company like ThakiCloud, which actually operates a multi-tenant AI/ML platform on Kubernetes, this shift is not someone else’s story. The report shows, with data, the move in how we explain ROI to customers from “system metrics” toward “work outputs and worker perceptions.” This post organizes the three methodological shifts based on the report’s official material and considers what we can take from them as a platform.</p>

<h2 id="what-is-this-report">What Is This Report?</h2>

<p>Anthropic has analyzed Claude usage through the Economic Index since 2023. Every prior report leaned on <strong>seven-day sample data</strong>: slicing out one week and examining usage patterns within it. A year ago, most Claude usage was a conversation between a user and an assistant, so even this method captured a reasonable picture.</p>

<p>But as Claude Code and Cowork grew rapidly, a large share of sessions shifted to long-running agentic tasks. Chat transcripts no longer fully capture how people use AI. Anthropic says it reworked its data pipeline in three directions to keep pace: sampling at a higher rate to see patterns down to the hourly level, introducing a new classifier that labels the output of each conversation, and breaking out chat/Cowork and 1P API results at a monthly level for finer granularity.</p>

<p>One more track is added. Anthropic admits it has lacked visibility into impact <strong>outside</strong> user sessions, that is, how people perceive AI. So it presents initial results from the <a href="https://www.anthropic.com/research/economic-index-survey-announcement">Economic Index Survey</a> launched in April 2026. In short, the report is built on three axes: <strong>hourly cadences</strong>, <strong>artifact classification</strong>, and <strong>perception survey</strong>.</p>

<p><img src="/assets/images/anthropic-economic-index-cadences-diagram.png" alt="Diagram showing the expansion from a seven-day sample to a three-axis mixed-method approach (hourly cadences, artifact classification, perception survey) connected to ThakiCloud's ROI measurement framework" /></p>

<h2 id="axis-1-hourly-cadences">Axis 1: Hourly Cadences</h2>

<p>The most striking change is the introduction of privacy-preserving telemetry. By continuously sampling a slice of conversations each day, it captures daily and hourly flows, unlike the prior seven-day snapshots. This data makes it possible, for the first time, to see how the rhythms of daily life are reflected in Claude usage.</p>

<p>The results are intuitive yet new. Claude usage tracks the weekday work pattern, while personal prompts rise on weekends. Going hour by hour, it gets sharper. People most often ask for sleep advice around 5 a.m., and ask for recipes around 6 p.m. News requests cluster in the morning. Patterns also react to specific dates: tax-related requests surged just before the US filing deadline of April 15.</p>

<p>Differences by the nature of work also appear. When people do turn to Claude for work on nights and weekends, those tasks skew toward <strong>higher-wage occupations</strong>, such as marketing managers or programmers, who are more likely to work outside traditional hours. By contrast, tasks in the bottom wage quartiles, like telemarketing or clerical work, fall to a smaller share on nights and weekends. Anthropic adds that the pattern holds even in a robustness check that removes computer and mathematical occupations. It is a signal that AI is functioning not as simple automation but as an assistive tool for high-skill work.</p>

<h2 id="axis-2-the-artifact-classifier">Axis 2: The Artifact Classifier</h2>

<p>The second shift is classifying the outputs of conversations. Anthropic sorted what <strong>artifact</strong> each chat and Cowork conversation produces into more than 30 categories: a document, an explanation, a piece of code, an academic paper, and so on, meaning the primary output Claude produced in that conversation.</p>

<p>The classifier judged that <strong>93% of Claude conversations produce an artifact</strong>. The most common types are explanations (17%), documents and reports (15%), and guidance (11%). Conversational outputs like explanations or guidance and written deliverables like documents or presentations each account for about a third, while code and technical outputs like apps or scripts account for about a sixth.</p>

<p>A second finding follows, the <strong>autonomy</strong> score. Anthropic measures how much judgment is delegated to Claude on a 1-to-5 scale. Tasks with largely fixed answers, like translation or calculation, have low autonomy, while tasks that require choosing among many options, like building apps, games, or presentations, have high autonomy.</p>

<p>The same artifact is measured as having higher autonomy when made with Claude Code. Across 26 of the 31 outputs shown, autonomy was higher on Claude Code than chat or Cowork, with an average gap of <strong>0.37 points</strong>. For scripts and code snippets the gap widens to 0.53 points. About two thirds of this difference comes from the same tasks being executed with more delegation. Blog posts are a good example: the median chat/Cowork conversation producing one involves 13 rounds of back-and-forth, while on Claude Code people delegate more judgment. In other words, users are handing AI more autonomy.</p>

<h2 id="axis-3-the-perception-survey">Axis 3: The Perception Survey</h2>

<p>The third axis is data drawn not from logs but by asking people directly. Anthropic launched the Economic Index Survey in April 2026, asking actual Claude users how much of their work AI can do. Survey responses are linked to usage data through privacy-preserving methods.</p>

<p>Respondents were asked what share of their work tasks AI can do entirely on its own today (reported exposure) and what share they expect it to handle in 12 months (anticipated exposure). <strong>Close to 6 in 10 respondents chose a higher band for next year</strong>, and <strong>over a third expect AI to be able to do most or nearly all of their work tasks next year</strong>.</p>

<p>The differences across groups are clear. Respondents in lower-income countries tended to feel AI could replace more of their work. Anthropic cites prior research showing such countries tend to use Claude in more automated ways. Differences by experience also appear: workers with at least 15 years of experience placed the share of tasks AI can do roughly 10 percentage points lower than those in their first year, with the interpretation that experienced workers have accumulated tacit, context-specific expertise that AI struggles to mimic. Respondents named judgment, contextual awareness, situational reasoning, and the relational dimensions of building trust and managing people as things AI cannot do. Worries about displacement were concentrated among early-career and low-wage workers.</p>

<h2 id="implications-for-thakiclouds-k8s-aiml-saas-platform">Implications for ThakiCloud’s K8s AI/ML SaaS Platform</h2>

<p>What this report offers ThakiCloud lies not in a feature but in a <strong>measurement framework</strong>. Anthropic’s approach starts from the premise that “logs alone cannot explain AI’s value,” and that is a perspective we can apply directly as an enterprise AI platform operator.</p>

<p>Until now, we too have centered ROI explanations on system metrics: call counts, throughput, response speed. But this report poses questions at a different layer. What was produced in that conversation? Was the output made during work hours or during overnight overtime? How much autonomy did the user delegate to AI? How much do users themselves feel AI replaces their work?</p>

<p>These questions are measurable on our stack. ThakiCloud handles Kubernetes- and Kueue-based GPU scheduling, vLLM serving, and multi-tenant agent operation in one place. Layering an artifact classifier on the telemetry from this stack lets us capture when, and in what form, a customer’s employees produce outputs together with AI. Then we can explain AI’s effect not as the abstract “improved efficiency” but in concrete output units. The finding that high-wage tasks rise on overnight shifts can become a gauge for whether AI is settling in as an assistive tool for high-skill work in our customers’ organizations too.</p>

<p>The way the survey and logs are linked is also worth borrowing. Measuring the gap between actual usage data and perceived capability reveals which groups benefit most after AI adoption and which feel anxious. That is an insight that feeds directly into a customer’s internal change management strategy. For domestic customers who must measure on-premise without sending data outside, privacy-preserving measurement design is a requirement, not an option, and our multi-tenant isolation and self-hosting structure fit that requirement precisely.</p>

<p>Ultimately, Anthropic’s direction is a commitment to keep refining how AI’s economic impact is measured. One of ThakiCloud’s strong differentiators is the role of a partner that goes beyond providing a platform to co-designing this measurement framework and interpreting the data. The ability to measure AI ROI not at the log level but at the level of work outputs and worker perception will be a core competitive edge in the enterprise AI platform market.</p>

<h2 id="limitations-and-counterarguments">Limitations and Counterarguments</h2>

<p>For balance, the report’s limits deserve mention. First, since the data comes from Claude users, there is sample bias. These are the usage patterns and perceptions of a group already using AI actively, so generalizing to the whole workforce is hard. Anthropic itself repeatedly notes it cannot conclusively identify occupations, and the by-occupation estimates over time are inferred backward from task characteristics, so causation cannot be asserted.</p>

<p>The survey data should be read even more carefully. The expectation that “AI will handle most of my work next year” is a perception, not a verified capability. The report itself confirms that perceived capability runs higher than observed occupational exposure. The gap between expectation and reality is itself the object of measurement, not grounds for treating expectation as the future.</p>

<p>Finally, refining a measurement method does not by itself enlarge the impact. Seeing more precisely and something happening more are different claims. The value of this report is not the conclusion that “AI has replaced this much work,” but that it rebuilds the question “how do we measure that impact more honestly” with a layered, mixed-method approach. What ThakiCloud should take is not the conclusion but the measurement attitude.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li>Anthropic, <a href="https://www.anthropic.com/research/economic-index-june-2026-report">“Anthropic Economic Index report: Cadences”</a> (2026-06-26)</li>
  <li>Anthropic, <a href="https://www.anthropic.com/research/economic-index-survey-announcement">“Anthropic Economic Index Survey”</a> (2026-04)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="anthropic" /><category term="economic-index" /><category term="ai-impact" /><category term="measurement" /><category term="telemetry" /><category term="survey" /><category term="enterprise-ai" /><summary type="html"><![CDATA[Anthropic's Economic Index 'Cadences' report (June 26, 2026) drops seven-day samples for continuous hourly telemetry, then combines an artifact classifier with survey data to lift AI-impact measurement from chat logs to a layered, mixed-method approach. Here is how ThakiCloud can rethink enterprise AI platform ROI.]]></summary></entry><entry xml:lang="en"><title type="html">We Measured the Complete Map of Claude Code Project Structure Against Our Own Repo</title><link href="https://thakicloud.github.io/en/technique/claude-code-project-anatomy-complete-map/" rel="alternate" type="text/html" title="We Measured the Complete Map of Claude Code Project Structure Against Our Own Repo" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/technique/claude-code-project-anatomy-complete-map</id><content type="html" xml:base="https://thakicloud.github.io/en/technique/claude-code-project-anatomy-complete-map/"><![CDATA[<p><img src="/assets/images/claude-code-project-anatomy-complete-map-hero.png" alt="Abstract visualization of light beams converging on a central node before branching hierarchically outward" />
<em>An abstract representation of Claude Code project structure, showing how rules, skills, agents, and memory branch outward from a single project brain.</em></p>

<h2 id="overview">Overview</h2>

<p>Anyone who has worked with Claude Code for a while knows the feeling: the <code class="language-plaintext highlighter-rouge">.claude</code> folder quietly turns into a junk drawer. Content that belongs in rules ends up in <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>. Specialized knowledge that is only needed occasionally gets hard-coded into always-loaded rules. Personal environment paths bleed into team-shared files. Once the boundaries blur around what each component is supposed to hold, you end up paying token costs every session for context that has nothing to do with the current task.</p>

<p>In June 2026, a post titled “Claude Code Project Structure: The Complete Map” by Prakash Bhandari started circulating among developers. It maps five subsystems that the <code class="language-plaintext highlighter-rouge">.claude</code> folder controls – instructions (CLAUDE.md and rules), workflows (skills and commands), specialists (agents), permissions (settings.json), and memory – into a single coherent diagram. Since ThakiCloud already runs hundreds of skills and dozens of agents on top of this structure, we did not stop at reading the article. We held our actual repo up against the map to see how well they matched.</p>

<p>This post is a record of that comparison. We cover the role boundary of each component, the measured component counts from our <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> repo, and why this structure matters beyond mere tidiness when you are operating a Kubernetes-based AI/ML SaaS platform.</p>

<h2 id="what-claude-code-project-structure-actually-is">What Claude Code Project Structure Actually Is</h2>

<p>The core idea is straightforward. Claude Code reads configuration from two locations: the project directory’s <code class="language-plaintext highlighter-rouge">.claude</code> folder, and the home directory’s <code class="language-plaintext highlighter-rouge">~/.claude</code>. Project files are committed to git and shared across the team; home directory files apply globally to every project as personal configuration. Every component finds its place relative to these two roots.</p>

<p>The real value of the map is the answer to one question: when does each component get loaded into context? Some things arrive automatically at the start of every session. Others only arrive when a specific request triggers them. That timing difference is a token cost difference, which means deciding where to put something is not a matter of preference – it is an operational cost decision.</p>

<pre><code class="language-mermaid">flowchart TB
    ROOT["프로젝트 루트"]
    ROOT --&gt; BRAIN["CLAUDE.md&lt;br/&gt;프로젝트 브레인&lt;br/&gt;(매 세션 자동 로드)"]
    ROOT --&gt; LOCAL["CLAUDE.local.md&lt;br/&gt;개인 오버라이드&lt;br/&gt;(gitignore)"]
    ROOT --&gt; IGNORE[".claudeignore&lt;br/&gt;컨텍스트 경계"]
    ROOT --&gt; MCP[".mcp.json&lt;br/&gt;외부 도구 연결"]
    ROOT --&gt; DOTC[".claude/"]
    DOTC --&gt; SET["settings.json&lt;br/&gt;권한·훅·환경변수"]
    DOTC --&gt; RULES["rules/&lt;br/&gt;상시 규칙&lt;br/&gt;(매 턴 로드)"]
    DOTC --&gt; SKILLS["skills/&lt;br/&gt;온디맨드 전문지식&lt;br/&gt;(요청 시 로드)"]
    DOTC --&gt; AGENTS["agents/&lt;br/&gt;서브에이전트 정의"]
    DOTC --&gt; MEM["agent-memory/&lt;br/&gt;에이전트가 학습한 지식"]
    DOTC --&gt; WT["worktrees/&lt;br/&gt;병렬 격리"]
</code></pre>
<p><em>Claude Code project components organized by load timing. Click to enlarge.</em></p>

<h2 id="role-boundaries-for-each-component">Role Boundaries for Each Component</h2>

<p>Where the map earns its keep is in defining what belongs where. Here is how each component’s responsibility maps to how we actually run things.</p>

<p><strong>CLAUDE.md is the project brain.</strong> It loads automatically every session and serves as the standing brief shared across the entire team. Think of it as the onboarding document you hand a new contractor on day one. What are we building, what stack does it run on, what conventions do we follow, what are the workflow rules. The principle is to answer exactly those four questions and nothing else. Every line pays rent. A bloated <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> is wasted context.</p>

<p><strong>CLAUDE.local.md is personal override.</strong> Same format, but it never goes into git. Local environment paths, debugging shortcuts, personal preferences, anything specific to your machine lives here. Team members can have completely different versions, and that is the point – it keeps the shared <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> clean.</p>

<p><strong>.claudeignore is the context boundary.</strong> It uses the same syntax as <code class="language-plaintext highlighter-rouge">.gitignore</code> and limits what Claude can read. Without it, <code class="language-plaintext highlighter-rouge">node_modules</code>, generated migrations, vendor dependencies, and large fixtures consume your context budget. On a large monorepo it is practically mandatory.</p>

<p><strong>rules are always-on constraints.</strong> They load automatically on every turn, so only genuinely invariant rules belong here – the things that apply to every task in every session. If you put a 200-line architecture document into a rules file, that content consumes context even in sessions where it is completely irrelevant. Documents should stay dormant until a skill explicitly reads them.</p>

<p><strong>skills are on-demand expertise.</strong> They load only when a request triggers them. Specialized workflows that are not always needed, domain-specific pipelines, repeatable task recipes – these belong in skills. The dividing line between <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> and skills is the phrase “only sometimes needed.”</p>

<p><strong>agents are subagent definitions.</strong> Each agent is a specialist with its own role, tool set, and model tier, summoned when needed. The routing logic assigns cheaper models to exploration, balanced models to implementation, and the most capable models to architecture decisions.</p>

<p><strong>agent-memory is what agents have learned.</strong> This is where agent-memory and <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> fundamentally differ. <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> holds what a person explicitly told the system. Agent-memory holds what an agent accumulated through experience – repeated patterns, bugs, undocumented conventions that a long-running agent has encountered.</p>

<h2 id="deciding-where-new-knowledge-goes">Deciding Where New Knowledge Goes</h2>

<p>You can have the map memorized and still hesitate when it is time to add a new rule or workflow. The placement decision tree from the article simplifies that judgment.</p>

<pre><code class="language-mermaid">flowchart TB
    START["새 지식·규칙·워크플로 추가"]
    START --&gt; Q1{"항상 적용 +&lt;br/&gt;전체 팀 공유?"}
    Q1 --&gt;|예| CMD["CLAUDE.md (짧게)&lt;br/&gt;또는 .claude/rules/"]
    Q1 --&gt;|아니오| Q2{"가끔만 필요한&lt;br/&gt;전문 워크플로?"}
    Q2 --&gt;|예| SK[".claude/skills/"]
    Q2 --&gt;|아니오| Q3{"독립 역할·&lt;br/&gt;도구 조합?"}
    Q3 --&gt;|예| AG[".claude/agents/"]
    Q3 --&gt;|아니오| Q4{"개인 환경&lt;br/&gt;특이사항?"}
    Q4 --&gt;|예| LO["CLAUDE.local.md&lt;br/&gt;(gitignore)"]
    Q4 --&gt;|아니오| Q5{"에이전트가&lt;br/&gt;경험으로 배운 것?"}
    Q5 --&gt;|예| ME[".claude/agent-memory/"]
    Q5 --&gt;|아니오| PL["plugins/&lt;br/&gt;(여러 프로젝트 배포)"]
</code></pre>
<p><em>Placement decision tree for new knowledge. The questions run in order: is this always needed, is it occasional expertise, does it define an independent role, is it personal, or is it something an agent learned?</em></p>

<p>The most common mistakes are equally clear. Dumping “only sometimes needed” knowledge into <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> wastes tokens every session. A monorepo without <code class="language-plaintext highlighter-rouge">.claudeignore</code> bleeds context. Committing <code class="language-plaintext highlighter-rouge">CLAUDE.local.md</code> to git exposes personal information and local paths. Keeping more than ten MCP servers active at once burns roughly 10,000 tokens per session whether you use those servers or not.</p>

<h2 id="measuring-the-thakicloud-repo-against-the-map">Measuring the ThakiCloud Repo Against the Map</h2>

<p>With the map in hand, we measured the <code class="language-plaintext highlighter-rouge">.claude</code> directory of our <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> repo directly.</p>

<table>
  <thead>
    <tr>
      <th>Component</th>
      <th>Measured</th>
      <th>Load timing</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>CLAUDE.md</td>
      <td>94 lines</td>
      <td>every session, auto</td>
    </tr>
    <tr>
      <td>.claude/rules</td>
      <td>40 files</td>
      <td>every turn, auto</td>
    </tr>
    <tr>
      <td>.claude/skills</td>
      <td>1,655 directories</td>
      <td>on-demand</td>
    </tr>
    <tr>
      <td>.claude/agents</td>
      <td>54 definitions</td>
      <td>on summon</td>
    </tr>
    <tr>
      <td>.claude/hooks</td>
      <td>15 files</td>
      <td>on event</td>
    </tr>
    <tr>
      <td>.claudeignore</td>
      <td>present (442 bytes)</td>
      <td>always-on boundary</td>
    </tr>
    <tr>
      <td>.mcp.json</td>
      <td>present (166 bytes)</td>
      <td>on server connect</td>
    </tr>
    <tr>
      <td>.claude/settings.json</td>
      <td>present (5 KB)</td>
      <td>every session</td>
    </tr>
  </tbody>
</table>

<p><img src="/assets/images/claude-code-project-anatomy-complete-map-results.png" alt="Bar chart of ThakiCloud .claude components grouped by load timing" />
<em>The 40 rules and 94-line CLAUDE.md are fixed overhead that arrives every turn. The 1,655 skills and 54 agents are on-demand assets that only appear when needed.</em></p>

<p>These numbers prove the map’s central point. If all 1,655 skills had been packed into <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> or rules files, the context limit would blow on the very first session. In practice, those 1,655 skills load on-demand only, and a separate router narrows the candidate set on every turn before any skill is loaded. The always-on side of the ledger – rules – is intentionally kept at 40 files. That number is the result of a hygiene rule: keep each rules file under 2 KB, and demote anything larger to a skill.</p>

<p>One detail worth noting: after reading the source article, we immediately distilled it into a rules file named <code class="language-plaintext highlighter-rouge">claude-code-project-anatomy.md</code> and committed it to the repo. In other words, “the project structure map” itself passed through the placement decision tree once and ended up as an always-on rule that is referenced every turn. The map placed itself on the map.</p>

<h2 id="implications-for-the-thakicloud-k8s-aiml-saas-platform">Implications for the ThakiCloud K8s AI/ML SaaS Platform</h2>

<p>This structure matters beyond tidiness because context cost is operational cost. ThakiCloud runs multi-tenant agents on Kubernetes, schedules GPU resources through Kueue, and serves models through vLLM. Every agent session consumes tokens, and those tokens translate directly to inference cost. Reducing always-loaded context affects unit economics, not just accuracy.</p>

<p>The map’s emphasis on placement by load timing aligns precisely with two principles we had already formalized separately. The first is that capability belongs in skills, not in the harness – keeping the harness thin so the same skill works across multiple execution environments. The second is token hygiene: minimize what loads every turn, defer what is occasionally needed to on-demand. The placement decision tree converts those two principles into a practical judgment call at the moment of adding any new component.</p>

<p>There are also product-level implications. In a multi-tenant environment where different tenants require different rules and skills, having a clear boundary between what lives in always-on context and what stays on-demand makes tenant-to-tenant context isolation and cost attribution much cleaner. Keeping the channel where agents accumulate learned knowledge – agent-memory – separate from the channel where humans explicitly specify things – <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> – also lines up with our approach to running self-learning agents safely.</p>

<h2 id="caveats-and-counterarguments">Caveats and Counterarguments</h2>

<p>This map is not a complete solution. A few honest limitations.</p>

<p>First, component boundaries are recommendations, not enforcement. Claude Code itself will not stop you from putting skill-level content into a rules file. Maintaining the boundaries requires team discipline, and in our case it requires token hygiene rules and router gates in code. Reading the map and expecting things to stay organized by themselves does not work.</p>

<p>Second, 1,655 skills is not a number to brag about – it cuts both ways. More candidates mean more noise risk: the router has more opportunities to surface the wrong skill. On-demand loading avoids always-on token cost, but retrieval accuracy becomes a different kind of cost. “On-demand means free” is too simple a conclusion.</p>

<p>Third, this structure is specific to Claude Code. Moving to a different agent execution environment changes the directory conventions and the load mechanism. That is why knowledge should be written as environment-agnostic as possible, with only the environment-specific wiring kept thin.</p>

<p>Finally, some figures in the source article – such as roughly 1,000 tokens per MCP server – are approximations that vary with environment and version. Rather than treating them as absolutes, the right takeaway is the direction: anything that loads every turn has a cost, and that cost compounds.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li><a href="https://www.prakashbhandari.com.np/posts/claude-code-project-structure-2026/">Claude Code Project Structure Explained: The Complete 2026 Guide</a> (Prakash Bhandari)</li>
  <li><a href="https://code.claude.com/docs/en/claude-directory">Explore the .claude directory (Claude Code official documentation)</a></li>
  <li>Measured against: ThakiCloud <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> repo <code class="language-plaintext highlighter-rouge">.claude</code> directory (measured 2026-06-27)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="claude-code" /><category term="project-structure" /><category term="context-engineering" /><category term="agent-skills" /><category term="platform-engineering" /><summary type="html"><![CDATA[CLAUDE.md, rules, skills, agents, hooks, MCP -- all of it. We read the 'complete map' that defines the role boundary of every Claude Code project component, then held it up against the ThakiCloud repo (40 rules, 1,655 skills, 54 agents) to see what matched and what was missing. Includes the placement decision tree for deciding where new knowledge lives, plus observations from running a K8s AI/ML SaaS platform on top of this structure.]]></summary></entry><entry xml:lang="ko"><title type="html">AI 경제 영향 측정이 로그 분석을 넘어섭니다: Anthropic Economic Index ‘Cadences’ 보고서를 뜯어봤습니다</title><link href="https://thakicloud.github.io/ko/research/anthropic-economic-index-cadences/" rel="alternate" type="text/html" title="AI 경제 영향 측정이 로그 분석을 넘어섭니다: Anthropic Economic Index ‘Cadences’ 보고서를 뜯어봤습니다" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/research/anthropic-economic-index-cadences</id><content type="html" xml:base="https://thakicloud.github.io/ko/research/anthropic-economic-index-cadences/"><![CDATA[<p><img src="/assets/images/anthropic-economic-index-cadences-hero.png" alt="시간의 흐름을 따라 빛의 파동이 리듬을 그리며 데이터 격자 위를 흐르는 추상 이미지" /></p>

<h2 id="개요">개요</h2>

<p>엔터프라이즈에 AI 플랫폼을 들여놓고 나면, 결국 한 가지 질문 앞에 서게 됩니다. “그래서 이게 얼마나 도움이 됐는가.” 지금까지 이 질문에 대한 답은 대체로 시스템 지표였습니다. API 호출이 몇 번 일어났고, 태스크를 몇 건 처리했고, 응답이 몇 밀리초 만에 돌아왔는지. 숫자는 깔끔하지만, 정작 경영진이 알고 싶은 “우리 조직이 실제로 무엇을 더 만들어냈는가”에는 닿지 못합니다.</p>

<p>Anthropic이 2026년 6월 26일 공개한 <a href="https://www.anthropic.com/research/economic-index-june-2026-report">Economic Index 보고서 ‘Cadences’</a>가 흥미로운 이유가 여기 있습니다. 이 보고서는 단순한 사용 통계 업데이트가 아니라, <strong>AI의 경제적 영향을 측정하는 방식 자체를 바꿨다</strong>고 공개적으로 선언합니다. 채팅 로그만으로는 AI가 일에 미치는 영향을 설명할 수 없다는 인식에서 출발해, 측정의 기반을 세 갈래로 넓혔습니다.</p>

<p>ThakiCloud처럼 쿠버네티스 위에서 멀티테넌트 AI/ML 플랫폼을 실제로 운영하는 입장에서 이 전환은 남의 이야기가 아닙니다. 고객사에 ROI를 설명하는 언어가 “시스템 지표”에서 “업무 산출물과 구성원 인식”으로 옮겨가는 흐름을, 이 보고서가 데이터로 보여주기 때문입니다. 이 글은 보고서의 공식 자료를 근거로 세 가지 방법론 전환을 정리하고, 우리 플랫폼 관점에서 무엇을 가져갈 수 있는지를 짚습니다.</p>

<h2 id="이-보고서는-무엇인가">이 보고서는 무엇인가</h2>

<p>Anthropic은 2023년부터 Economic Index를 통해 Claude 사용 양상을 분석해 왔습니다. 그동안의 보고서는 모두 <strong>7일치 샘플 데이터</strong>에 기댔습니다. 일주일을 잘라내 그 안에서 사용 패턴을 들여다보는 방식입니다. 1년 전만 해도 Claude 사용의 대부분이 사용자와 어시스턴트 사이의 대화였기 때문에, 이 방식으로도 그림이 어느 정도 잡혔습니다.</p>

<p>그런데 Claude Code와 Cowork가 빠르게 성장하면서, 세션의 상당수가 길게 이어지는 에이전트 작업으로 바뀌었습니다. 채팅 기록만으로는 사람들이 AI를 어떻게 쓰는지 더 이상 온전히 담기지 않게 된 것입니다. Anthropic은 이 변화를 따라잡기 위해 데이터 파이프라인을 세 가지 방향으로 손봤다고 밝힙니다. 샘플링 비율을 높여 시간 단위까지 패턴을 보고, 대화의 산출물을 분류하는 분류기를 새로 도입하고, 채팅/Cowork와 1P API 결과를 월 단위로 나눠 더 세분화해 공개합니다.</p>

<p>여기에 한 축이 더 붙습니다. 그동안 Anthropic은 사용자 세션 <strong>바깥</strong>의 영향, 즉 사람들이 AI를 어떻게 체감하는지에 대한 가시성이 부족했다고 인정합니다. 그래서 2026년 4월에 시작한 <a href="https://www.anthropic.com/research/economic-index-survey-announcement">경제지수 설문(Economic Index Survey)</a>의 초기 결과를 함께 내놓습니다. 정리하면 이 보고서는 세 개의 축, 즉 <strong>시간 단위 케이던스</strong>, <strong>산출물 분류</strong>, <strong>인식 설문</strong>으로 짜여 있습니다.</p>

<p><img src="/assets/images/anthropic-economic-index-cadences-diagram.png" alt="기존 7일 샘플에서 시간 단위 케이던스·산출물 분류·인식 설문 세 축으로 확장되는 다층 혼합 방법론과 ThakiCloud ROI 측정 프레임워크 연결 구조도" /></p>

<h2 id="첫-번째-축-시간-단위-케이던스">첫 번째 축: 시간 단위 케이던스</h2>

<p>가장 눈에 띄는 변화는 프라이버시 보존형 텔레메트리의 도입입니다. 매일 일정 비율의 대화를 연속적으로 샘플링하는 방식으로, 기존의 7일 스냅샷과 달리 일·시간 단위의 흐름을 잡아냅니다. 이 데이터로 처음으로 일상의 리듬이 Claude 사용에 어떻게 반영되는지를 볼 수 있게 됐습니다.</p>

<p>결과는 직관에 부합하면서도 새롭습니다. Claude 사용은 주중 근무 패턴을 그대로 따라가고, 개인적인 질문은 주말에 늘어납니다. 시간대별로 들어가면 더 선명합니다. 사람들은 새벽 5시 무렵에 수면 관련 조언을 가장 많이 구하고, 저녁 6시 무렵에는 레시피를 묻습니다. 아침에는 뉴스 요청이 몰립니다. 특정 날짜에 반응하는 패턴도 보입니다. 미국 세금 신고 마감일인 4월 15일 직전에는 세금 관련 요청이 급증했습니다.</p>

<p>업무 성격에 따른 차이도 드러납니다. 야간과 주말처럼 정규 시간이 아닐 때 사람들이 일 때문에 Claude를 찾으면, 그 태스크는 <strong>고임금 직군</strong> 쪽으로 쏠립니다. 마케팅 매니저나 프로그래머처럼 전통적 근무 시간 밖에서 일하는 비중이 높은 직군이 여기 해당합니다. 반대로 텔레마케팅이나 사무 보조처럼 하위 임금 분위의 태스크는 야간·주말에 비중이 줄어듭니다. Anthropic은 컴퓨터·수학 직군을 분석에서 빼는 강건성 검증을 해도 이 경향이 유지된다고 덧붙입니다. 단순 자동화가 아니라 고숙련 업무의 보조 도구로 AI가 기능하고 있다는 신호로 읽을 수 있는 대목입니다.</p>

<h2 id="두-번째-축-산출물artifact-분류기">두 번째 축: 산출물(Artifact) 분류기</h2>

<p>두 번째 전환은 대화의 결과물을 분류하는 일입니다. Anthropic은 채팅과 Cowork 대화 각각이 어떤 <strong>산출물(artifact)</strong>을 만들어내는지를 30개가 넘는 범주로 분류했습니다. 문서, 설명, 코드 한 조각, 학술 논문처럼 그 대화에서 Claude가 만들어낸 주된 결과물을 뜻합니다.</p>

<p>분류기는 Claude 대화의 <strong>93%가 어떤 산출물을 생성</strong>한다고 판정했습니다. 가장 흔한 유형은 설명(17%), 문서 및 보고서(15%), 가이던스(11%) 순입니다. 설명이나 가이던스 같은 대화형 결과물과 문서나 프레젠테이션 같은 작성형 결과물이 각각 전체의 약 3분의 1을 차지하고, 앱이나 스크립트 같은 코드·기술 결과물이 약 6분의 1을 차지합니다.</p>

<p>여기서 흥미로운 두 번째 발견이 나옵니다. <strong>자율성(autonomy)</strong> 점수입니다. Anthropic은 Claude에게 얼마나 많은 판단을 위임하는지를 1에서 5까지의 척도로 측정합니다. 번역이나 계산처럼 답이 거의 정해진 작업은 자율성이 낮고, 앱이나 게임, 프레젠테이션을 만드는 일처럼 여러 선택지 중에서 골라야 하는 작업은 자율성이 높습니다.</p>

<p>같은 산출물이라도 Claude Code에서 만들 때 자율성이 더 높게 측정됩니다. 보여준 31개 산출물 중 26개에서 Claude Code 쪽 자율성이 챗·Cowork보다 높았고, 전체 평균으로는 <strong>0.37점</strong> 차이가 났습니다. 스크립트나 코드 조각의 경우 그 격차가 0.53점까지 벌어집니다. 이 차이의 약 3분의 2는 같은 작업을 더 많이 위임해서 처리하기 때문이라고 설명합니다. 블로그 글이 좋은 예입니다. 챗·Cowork에서 블로그 글을 만드는 대화는 중앙값 기준 13번의 주고받기를 거치지만, Claude Code에서는 사용자가 더 많은 판단을 맡깁니다. 사용자가 AI에게 더 많은 자율성을 넘기고 있다는 뜻입니다.</p>

<h2 id="세-번째-축-인식-설문">세 번째 축: 인식 설문</h2>

<p>세 번째 축은 로그가 아니라 사람에게 직접 묻는 데이터입니다. Anthropic은 2026년 4월 경제지수 설문을 시작해, 실제 Claude 이용자에게 AI가 자신의 업무를 어느 정도 수행할 수 있는지를 직접 물었습니다. 설문 응답은 프라이버시 보존 방법으로 사용 데이터와 연결됩니다.</p>

<p>응답자에게 오늘 기준으로 AI가 스스로 처리할 수 있는 업무 비중(reported exposure)과 12개월 뒤에 처리할 것으로 기대하는 비중(anticipated exposure)을 물었습니다. <strong>10명 중 6명에 가까운 응답자가 내년에 더 높은 구간을 선택</strong>했고, <strong>3분의 1 이상이 내년에는 AI가 자기 업무의 대부분 또는 거의 전부를 처리할 수 있을 것으로 기대</strong>한다고 답했습니다.</p>

<p>층위별 차이도 또렷합니다. 소득 수준이 낮은 국가의 응답자일수록 AI가 더 많은 업무를 대체할 수 있다고 느끼는 경향이 강했습니다. Anthropic은 이런 국가일수록 AI를 보강이 아니라 자동화에 쓰는 경향이 있다는 이전 연구를 함께 인용합니다. 경력에 따른 차이도 나타났습니다. 15년 이상 경력자는 AI가 할 수 있는 업무 비중을 첫해 근무자보다 약 10퍼센트포인트 낮게 봤습니다. 오래 일한 사람일수록 AI가 흉내내기 어려운 암묵적·맥락적 전문성을 쌓았기 때문이라는 해석입니다. 응답자들은 AI가 끝내 할 수 없는 일로 판단, 맥락 인식, 상황 추론, 그리고 신뢰 구축과 사람 관리 같은 관계적 차원을 꼽았습니다. 대체에 대한 우려는 경력 초년생과 저임금 직군에 집중됐습니다.</p>

<h2 id="thakicloud-k8s-aiml-saas-플랫폼-적용-및-시사점">ThakiCloud K8s AI/ML SaaS 플랫폼 적용 및 시사점</h2>

<p>이 보고서가 ThakiCloud에 주는 함의는 기능이 아니라 <strong>측정 프레임워크</strong>에 있습니다. Anthropic이 택한 접근은 “로그만으로는 AI 가치를 설명할 수 없다”는 전제에서 출발하는데, 이는 엔터프라이즈 AI 플랫폼을 운영하는 우리에게 그대로 적용 가능한 관점입니다.</p>

<p>지금까지 고객사에 ROI를 설명할 때 우리도 시스템 지표를 중심에 뒀습니다. 호출 횟수, 처리량, 응답 속도. 그런데 이 보고서는 다른 층위의 질문을 던집니다. 그 대화에서 무엇이 생성됐는가. 그 산출물은 업무 시간 안에 만들어졌는가, 야간 초과근무 중에 만들어졌는가. 사용자는 AI에게 얼마나 많은 자율성을 위임했는가. 사용자 스스로는 AI가 자기 업무를 얼마나 대체한다고 느끼는가.</p>

<p>이 질문들은 우리 스택 위에서 충분히 측정 가능합니다. ThakiCloud는 쿠버네티스와 Kueue 기반 GPU 스케줄링, vLLM 서빙, 멀티테넌트 에이전트 운용을 한곳에서 다룹니다. 여기서 나오는 텔레메트리에 산출물 분류기를 한 겹 얹으면, 고객사 직원들이 언제 어떤 유형의 결과물을 AI와 함께 만드는지를 잡아낼 수 있습니다. 그러면 AI 도입 효과를 “업무 효율 향상”이라는 추상적 표현이 아니라 구체적 산출물 단위로 설명하게 됩니다. 야근 시간대에 고임금 직군 태스크 비중이 높아진다는 발견은, 우리 고객사에서도 AI가 단순 자동화가 아니라 고숙련 업무의 보조 도구로 자리잡고 있는지를 가늠하는 지표가 될 수 있습니다.</p>

<p>설문과 로그를 연계하는 방식도 참고할 만합니다. 실제 사용 데이터와 체감 인식 사이의 괴리를 측정하면, AI 도입 후 어떤 계층이 가장 효과를 보고 어떤 계층이 불안을 느끼는지를 파악할 수 있습니다. 이는 고객사의 내부 변화 관리(Change Management) 전략 수립에 곧바로 쓰이는 인사이트입니다. 특히 온프렘 환경에서 데이터를 외부로 내보내지 않고 측정해야 하는 국내 고객사라면, 프라이버시 보존형 측정 설계는 선택이 아니라 요구 사항입니다. 우리의 멀티테넌트 격리와 self-hosting 구조는 이 요구에 정확히 맞물립니다.</p>

<p>결국 Anthropic이 보여주는 방향은 AI가 경제에 미치는 영향을 측정하는 기준을 계속 고도화하겠다는 의지입니다. ThakiCloud가 고객사에 줄 수 있는 강력한 차별점 하나는, 단순한 플랫폼 제공을 넘어 이런 측정 프레임워크를 함께 설계하고 데이터를 해석해주는 파트너 역할입니다. AI 도입 ROI를 로그 수준이 아니라 업무 산출물과 구성원 인식 수준에서 측정하는 능력이, 앞으로 엔터프라이즈 AI 플랫폼 시장의 핵심 경쟁력이 될 것이라고 봅니다.</p>

<h2 id="한계-및-반론">한계 및 반론</h2>

<p>균형을 위해 이 보고서의 한계도 짚어야 합니다. 먼저 데이터의 출처가 Claude 사용자라는 점에서 표본 편향이 있습니다. AI를 이미 적극적으로 쓰는 집단의 사용 패턴과 인식이므로, 전체 노동 인구로 일반화하기는 어렵습니다. Anthropic 자신도 직업을 확정적으로 식별할 수 없다고 여러 차례 밝힙니다. 시간대별 직군 추정 역시 태스크 성격에서 역으로 추론한 것이라 인과를 단정하기 어렵습니다.</p>

<p>설문 데이터는 더 조심스럽게 읽어야 합니다. “내년에 AI가 내 업무 대부분을 처리할 것”이라는 기대는 체감이지 검증된 역량이 아닙니다. 보고서 안에서도 실제 직업별 노출 지표보다 체감 역량이 더 높게 나타난다는 점이 확인됩니다. 기대와 현실 사이의 이 간극 자체가 측정 대상이지, 기대치를 곧 미래로 받아들일 근거는 아닙니다.</p>

<p>마지막으로, 측정 방법론의 고도화가 곧 영향의 크기를 키우는 것은 아닙니다. 더 정교하게 본다는 것과 더 크게 일어난다는 것은 다른 이야기입니다. 이 보고서의 가치는 “AI가 일을 얼마나 대체했다”는 결론이 아니라, “그 영향을 어떻게 더 정직하게 측정할 것인가”라는 질문을 다층 혼합 방법론으로 다시 세운 데 있습니다. ThakiCloud가 가져갈 것도 결론이 아니라 그 측정의 태도입니다.</p>

<h2 id="출처">출처</h2>

<ul>
  <li>Anthropic, <a href="https://www.anthropic.com/research/economic-index-june-2026-report">“Anthropic Economic Index report: Cadences”</a> (2026-06-26)</li>
  <li>Anthropic, <a href="https://www.anthropic.com/research/economic-index-survey-announcement">“Anthropic Economic Index Survey”</a> (2026-04)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="anthropic" /><category term="economic-index" /><category term="ai-impact" /><category term="measurement" /><category term="telemetry" /><category term="survey" /><category term="enterprise-ai" /><summary type="html"><![CDATA[Anthropic이 2026년 6월 26일 공개한 Economic Index 'Cadences' 보고서는 7일 샘플을 버리고 시간 단위 연속 텔레메트리로 전환했습니다. 여기에 산출물 분류기와 설문 데이터를 결합해, AI 영향 측정을 채팅 로그에서 다층 혼합 방법론으로 끌어올립니다. ThakiCloud가 엔터프라이즈 AI 플랫폼 ROI를 어떻게 다시 정의할 수 있는지 정리했습니다.]]></summary></entry><entry xml:lang="ko"><title type="html">Claude Code 프로젝트 구조의 완전한 지도를 우리 레포에 비춰봤습니다</title><link href="https://thakicloud.github.io/ko/technique/claude-code-project-anatomy-complete-map/" rel="alternate" type="text/html" title="Claude Code 프로젝트 구조의 완전한 지도를 우리 레포에 비춰봤습니다" /><published>2026-06-27T00:00:00+09:00</published><updated>2026-06-27T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/technique/claude-code-project-anatomy-complete-map</id><content type="html" xml:base="https://thakicloud.github.io/ko/technique/claude-code-project-anatomy-complete-map/"><![CDATA[<p><img src="/assets/images/claude-code-project-anatomy-complete-map-hero.png" alt="여러 갈래의 빛줄기가 하나의 중심 노드로 수렴했다가 다시 계층적으로 갈라지는 추상 구조" />
<em>하나의 프로젝트 브레인에서 규칙, 스킬, 에이전트, 메모리로 갈라지는 Claude Code 프로젝트 구조를 추상화한 이미지.</em></p>

<h2 id="개요">개요</h2>

<p>Claude Code로 일을 하다 보면 <code class="language-plaintext highlighter-rouge">.claude</code> 폴더가 어느 순간 잡동사니가 됩니다. 규칙을 넣어야 할 내용이 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>로 가고, 가끔만 필요한 전문 지식이 항상 로드되는 규칙으로 박히며, 개인 환경 경로가 팀 공유 파일에 섞입니다. 각 구성요소가 “무엇을 담아야 하는가”의 경계가 흐려지면, 매 세션마다 쓰지도 않는 컨텍스트를 토큰으로 지불하게 됩니다.</p>

<p>2026년 6월, Prakash Bhandari가 정리한 “Claude Code Project Structure: The Complete Map”라는 글이 개발자 커뮤니티에서 화제가 됐습니다. <code class="language-plaintext highlighter-rouge">.claude</code> 폴더가 통제하는 다섯 개의 하위 시스템, 즉 지시(CLAUDE.md와 rules), 워크플로(skills와 commands), 전문가(agents), 권한(settings.json), 기억(memory)을 한 장의 지도로 그린 글입니다. ThakiCloud는 이미 이 구조 위에서 수백 개의 스킬과 수십 개의 에이전트를 운용하고 있어서, 글을 읽는 데 그치지 않고 우리 레포를 그 지도에 직접 비춰봤습니다.</p>

<p>이 글은 그 비교 실측의 기록입니다. 각 구성요소의 역할 경계를 정리하고, 우리 레포(<code class="language-plaintext highlighter-rouge">ai-platform-strategy</code>)의 실제 구성요소 수를 측정해 지도와 대조한 뒤, 쿠버네티스 기반 AI/ML SaaS 플랫폼을 운영하는 관점에서 이 구조가 왜 단순한 정리정돈 이상의 의미를 갖는지 정리했습니다.</p>

<h2 id="claude-code-프로젝트-구조란-무엇인가">Claude Code 프로젝트 구조란 무엇인가</h2>

<p>핵심 발상은 단순합니다. Claude Code는 두 곳에서 설정을 읽습니다. 프로젝트 디렉터리의 <code class="language-plaintext highlighter-rouge">.claude</code>와 홈 디렉터리의 <code class="language-plaintext highlighter-rouge">~/.claude</code>입니다. 프로젝트 파일은 git에 커밋해 팀과 공유하고, 홈 디렉터리 파일은 모든 프로젝트에 적용되는 개인 설정입니다. 이 두 갈래를 기준으로 모든 구성요소가 자리를 잡습니다.</p>

<p>지도의 본질은 “각 구성요소가 언제 컨텍스트에 로드되는가”입니다. 어떤 것은 매 세션 자동으로 들어오고, 어떤 것은 요청이 트리거할 때만 들어옵니다. 이 로드 타이밍의 차이가 곧 토큰 비용의 차이이고, 그래서 무엇을 어디에 두느냐가 단순한 취향이 아니라 운영 비용 문제가 됩니다.</p>

<pre><code class="language-mermaid">flowchart TB
    ROOT["프로젝트 루트"]
    ROOT --&gt; BRAIN["CLAUDE.md&lt;br/&gt;프로젝트 브레인&lt;br/&gt;(매 세션 자동 로드)"]
    ROOT --&gt; LOCAL["CLAUDE.local.md&lt;br/&gt;개인 오버라이드&lt;br/&gt;(gitignore)"]
    ROOT --&gt; IGNORE[".claudeignore&lt;br/&gt;컨텍스트 경계"]
    ROOT --&gt; MCP[".mcp.json&lt;br/&gt;외부 도구 연결"]
    ROOT --&gt; DOTC[".claude/"]
    DOTC --&gt; SET["settings.json&lt;br/&gt;권한·훅·환경변수"]
    DOTC --&gt; RULES["rules/&lt;br/&gt;상시 규칙&lt;br/&gt;(매 턴 로드)"]
    DOTC --&gt; SKILLS["skills/&lt;br/&gt;온디맨드 전문지식&lt;br/&gt;(요청 시 로드)"]
    DOTC --&gt; AGENTS["agents/&lt;br/&gt;서브에이전트 정의"]
    DOTC --&gt; MEM["agent-memory/&lt;br/&gt;에이전트가 학습한 지식"]
    DOTC --&gt; WT["worktrees/&lt;br/&gt;병렬 격리"]
</code></pre>
<p><em>Claude Code 프로젝트의 구성요소를 로드 타이밍 기준으로 정리한 구조도. 클릭하면 확대됩니다.</em></p>

<h2 id="구성요소별-역할-경계">구성요소별 역할 경계</h2>

<p>지도가 진짜 가치를 갖는 지점은 “무엇을 어디에 담는가”의 경계입니다. 글이 정리한 각 구성요소의 책임을 우리가 실제로 운용하는 방식과 함께 정리하면 다음과 같습니다.</p>

<p><strong>CLAUDE.md는 프로젝트 브레인입니다.</strong> 매 세션 자동으로 로드되며 팀 전체가 공유하는 표준 브리프입니다. 신규 계약자에게 첫날 건네는 안내서라고 생각하면 정확합니다. 무엇을 만들고 있는가, 어떤 스택 위에서 도는가, 어떤 컨벤션을 따르는가, 워크플로 규칙은 무엇인가. 이 네 가지 질문에만 답하는 것이 원칙입니다. 모든 줄이 임대료를 낸다는 점이 중요합니다. 뚱뚱한 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>는 곧 컨텍스트 낭비입니다.</p>

<p><strong>CLAUDE.local.md는 개인 오버라이드입니다.</strong> 같은 포맷이지만 git에 절대 들어가지 않습니다. 로컬 환경 경로, 디버깅 단축키, 개인 선호, 내 머신의 특이사항이 여기 들어갑니다. 팀원끼리 달라도 되고, 공유 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>를 깔끔하게 유지하는 안전판 역할을 합니다.</p>

<p><strong>.claudeignore는 컨텍스트 경계입니다.</strong> <code class="language-plaintext highlighter-rouge">.gitignore</code>와 같은 문법으로 Claude의 읽기 범위를 제한합니다. 이것이 없으면 <code class="language-plaintext highlighter-rouge">node_modules</code>, 생성된 마이그레이션, 벤더 의존성, 대용량 픽스처가 컨텍스트를 소진합니다. 대형 모노레포에서는 사실상 필수입니다.</p>

<p><strong>rules는 상시 규칙입니다.</strong> 매 턴 자동으로 로드되므로 모든 작업에 적용되는 불변 규칙만 들어가야 합니다. 200줄짜리 아키텍처 문서를 규칙 파일에 넣으면, 그 내용이 무관한 세션에서도 매번 컨텍스트를 먹습니다. 그래서 문서는 스킬이 명시적으로 읽을 때까지 잠들어 있어야 합니다.</p>

<p><strong>skills는 온디맨드 전문지식입니다.</strong> 요청이 트리거할 때만 로드됩니다. 항상 필요하지는 않은 전문 워크플로, 도메인별 파이프라인, 반복 작업 레시피가 여기 들어갑니다. “때때로만 필요한 것”이라는 기준이 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>와 skills를 가르는 선입니다.</p>

<p><strong>agents는 서브에이전트 정의입니다.</strong> 독립적인 역할, 도구 조합, 모델 티어를 가진 전문가로, 필요할 때 소환됩니다. 탐색에는 저렴한 모델을, 구현에는 균형 잡힌 모델을, 아키텍처 결정에는 가장 비싼 모델을 배정하는 식으로 작업 성격에 따라 모델을 라우팅합니다.</p>

<p><strong>agent-memory는 에이전트가 학습한 지식입니다.</strong> <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>와의 핵심 차이가 여기 있습니다. <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>는 사람이 알려준 것이고, agent-memory는 에이전트가 경험으로 배운 것입니다. 장기 실행 에이전트가 반복 패턴, 버그, 문서화되지 않은 컨벤션을 누적합니다.</p>

<h2 id="새-지식은-어디에-두는가">새 지식은 어디에 두는가</h2>

<p>지도를 외워도 막상 새 규칙이나 워크플로를 추가할 때 어디에 둘지 헷갈립니다. 글이 제시한 배치 결정 트리는 이 판단을 단순화합니다.</p>

<pre><code class="language-mermaid">flowchart TB
    START["새 지식·규칙·워크플로 추가"]
    START --&gt; Q1{"항상 적용 +&lt;br/&gt;전체 팀 공유?"}
    Q1 --&gt;|예| CMD["CLAUDE.md (짧게)&lt;br/&gt;또는 .claude/rules/"]
    Q1 --&gt;|아니오| Q2{"가끔만 필요한&lt;br/&gt;전문 워크플로?"}
    Q2 --&gt;|예| SK[".claude/skills/"]
    Q2 --&gt;|아니오| Q3{"독립 역할·&lt;br/&gt;도구 조합?"}
    Q3 --&gt;|예| AG[".claude/agents/"]
    Q3 --&gt;|아니오| Q4{"개인 환경&lt;br/&gt;특이사항?"}
    Q4 --&gt;|예| LO["CLAUDE.local.md&lt;br/&gt;(gitignore)"]
    Q4 --&gt;|아니오| Q5{"에이전트가&lt;br/&gt;경험으로 배운 것?"}
    Q5 --&gt;|예| ME[".claude/agent-memory/"]
    Q5 --&gt;|아니오| PL["plugins/&lt;br/&gt;(여러 프로젝트 배포)"]
</code></pre>
<p><em>새 지식을 어디에 배치할지 결정하는 트리. 항상 필요한지, 가끔 필요한지, 누가 만든 지식인지를 순서대로 묻습니다.</em></p>

<p>가장 흔한 실수도 명확합니다. “가끔만 필요한” 지식을 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>에 다 때려넣으면 매 세션 토큰을 낭비합니다. <code class="language-plaintext highlighter-rouge">.claudeignore</code>가 없는 모노레포는 컨텍스트가 소진됩니다. <code class="language-plaintext highlighter-rouge">CLAUDE.local.md</code>를 git에 커밋하면 개인 정보와 경로가 노출됩니다. MCP 서버를 10개 이상 상시 활성화하면 사용하지 않아도 매번 약 1만 토큰을 낭비합니다.</p>

<h2 id="thakicloud-레포를-이-지도에-비춰보기">ThakiCloud 레포를 이 지도에 비춰보기</h2>

<p>지도를 읽었으니 우리 레포를 거기에 비춰봤습니다. <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> 레포의 <code class="language-plaintext highlighter-rouge">.claude</code> 디렉터리를 실제로 측정한 결과는 다음과 같습니다.</p>

<table>
  <thead>
    <tr>
      <th>구성요소</th>
      <th>실측</th>
      <th>로드 타이밍</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>CLAUDE.md</td>
      <td>94줄</td>
      <td>매 세션 자동</td>
    </tr>
    <tr>
      <td>.claude/rules</td>
      <td>40개 파일</td>
      <td>매 턴 자동</td>
    </tr>
    <tr>
      <td>.claude/skills</td>
      <td>1655개 디렉터리</td>
      <td>온디맨드</td>
    </tr>
    <tr>
      <td>.claude/agents</td>
      <td>54개 정의</td>
      <td>소환 시</td>
    </tr>
    <tr>
      <td>.claude/hooks</td>
      <td>15개</td>
      <td>이벤트 발생 시</td>
    </tr>
    <tr>
      <td>.claudeignore</td>
      <td>존재 (442바이트)</td>
      <td>상시 경계</td>
    </tr>
    <tr>
      <td>.mcp.json</td>
      <td>존재 (166바이트)</td>
      <td>서버 연결 시</td>
    </tr>
    <tr>
      <td>.claude/settings.json</td>
      <td>존재 (5KB)</td>
      <td>매 세션</td>
    </tr>
  </tbody>
</table>

<p><img src="/assets/images/claude-code-project-anatomy-complete-map-results.png" alt="ThakiCloud 레포의 .claude 구성요소를 로드 타이밍별로 집계한 막대 그래프" />
<em>규칙 40개와 CLAUDE.md 94줄은 매 턴 들어오는 상시 비용이고, 스킬 1655개와 에이전트 54개는 필요할 때만 들어오는 온디맨드 자산입니다.</em></p>

<p>이 숫자가 말해주는 것이 지도의 핵심을 그대로 증명합니다. 스킬 1655개를 전부 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code>나 규칙에 넣었다면 매 세션이 즉시 컨텍스트 한계를 넘었을 것입니다. 실제로 이 1655개는 온디맨드로만 로드되고, 어떤 스킬을 띄울지는 별도의 라우터가 매 턴 후보를 좁혀 결정합니다. 반대로 상시 비용 영역인 규칙은 40개로 의도적으로 억제하고 있습니다. 규칙 파일당 2KB 이하를 목표로 하고, 그 이상이 되면 스킬로 강등하는 위생 규칙을 둔 결과입니다.</p>

<p>흥미로운 지점은 우리가 이 글의 출처를 읽고 곧바로 <code class="language-plaintext highlighter-rouge">claude-code-project-anatomy.md</code>라는 규칙 파일로 증류해 레포에 넣었다는 사실입니다. 즉 “프로젝트 구조 지도”라는 지식 자체가 배치 결정 트리를 한 번 통과해, 매 턴 참조되는 상시 규칙으로 자리 잡았습니다. 지도가 스스로를 지도 위에 배치한 셈입니다.</p>

<h2 id="thakicloud-k8s-aiml-saas-플랫폼-적용-시사점">ThakiCloud K8s AI/ML SaaS 플랫폼 적용 시사점</h2>

<p>이 구조가 단순한 정리정돈을 넘어서는 이유는 컨텍스트 비용이 곧 운영 비용이기 때문입니다. ThakiCloud는 쿠버네티스 위에서 멀티테넌트 에이전트를 운용하고, GPU 자원은 Kueue로 스케줄링하며, 모델은 vLLM으로 서빙합니다. 이 환경에서 에이전트 세션 하나하나가 토큰을 소비하고, 그 토큰은 곧 추론 비용입니다. 상시 로드되는 컨텍스트를 줄이는 것은 정확도뿐 아니라 단가에 직접 영향을 줍니다.</p>

<p>지도가 강조하는 “로드 타이밍에 따른 배치”는 우리가 이미 별도로 정리해 온 두 가지 원칙과 정확히 맞물립니다. 첫째는 능력을 harness가 아니라 스킬에 쌓는다는 원칙으로, 동일한 스킬이 여러 실행 환경을 가로질러 작동하도록 harness는 얇게 유지합니다. 둘째는 매 턴 들어오는 것은 최소로, 가끔 필요한 것은 온디맨드로 미룬다는 토큰 위생 원칙입니다. 글의 배치 결정 트리는 이 두 원칙을 신규 구성요소를 추가하는 순간의 실무 판단으로 바꿔줍니다.</p>

<p>플랫폼 제품 관점에서도 함의가 있습니다. 멀티테넌트 환경에서 테넌트별로 다른 규칙과 스킬을 주입해야 할 때, 무엇을 상시 컨텍스트로 둘지와 무엇을 온디맨드로 둘지의 경계가 명확하면 테넌트 간 컨텍스트 격리와 비용 배분이 깔끔해집니다. agent-memory처럼 에이전트가 학습한 지식을 사람이 검토하는 채널과, 사람이 처음부터 지정하는 <code class="language-plaintext highlighter-rouge">CLAUDE.md</code> 채널을 분리해 두는 것도, 자가 학습하는 에이전트를 안전하게 운용하려는 우리 방향과 동일합니다.</p>

<h2 id="한계-및-반론">한계 및 반론</h2>

<p>이 지도가 만능은 아닙니다. 몇 가지 한계를 정직하게 짚습니다.</p>

<p>첫째, 구성요소 경계는 권고이지 강제가 아닙니다. Claude Code 자체가 “이 내용은 규칙이 아니라 스킬로 가야 한다”고 막아주지 않습니다. 경계를 지키는 것은 결국 팀의 규율이고, 우리처럼 토큰 위생 규칙과 라우터 게이트를 코드로 둬야 실제로 강제됩니다. 지도만 외운다고 자동으로 깔끔해지지 않습니다.</p>

<p>둘째, 스킬 1655개라는 숫자는 자랑이 아니라 양날의 검입니다. 후보가 많을수록 라우터가 잘못된 스킬을 띄울 노이즈 위험이 커집니다. 온디맨드라서 상시 토큰은 안 먹지만, 검색 정확도라는 다른 비용이 발생합니다. “온디맨드면 공짜”라는 단순한 결론은 위험합니다.</p>

<p>셋째, 이 구조는 Claude Code에 특화돼 있습니다. 다른 에이전트 실행 환경으로 옮기면 디렉터리 규약과 로드 메커니즘이 달라집니다. 그래서 지식 자체는 가능한 한 실행 환경 중립적으로 기술하고, 환경별 배선은 얇게 유지하는 편이 장기적으로 안전합니다.</p>

<p>마지막으로, 출처 글의 일부 수치(예: MCP 서버당 약 1천 토큰)는 환경과 버전에 따라 달라질 수 있는 근사치입니다. 절대값으로 받기보다 “상시 로드되는 것은 모두 비용이다”라는 방향성으로 읽는 것이 맞습니다.</p>

<h2 id="출처">출처</h2>

<ul>
  <li><a href="https://www.prakashbhandari.com.np/posts/claude-code-project-structure-2026/">Claude Code Project Structure Explained: The Complete 2026 Guide</a> (Prakash Bhandari)</li>
  <li><a href="https://code.claude.com/docs/en/claude-directory">Explore the .claude directory (Claude Code 공식 문서)</a></li>
  <li>실측 대상: ThakiCloud <code class="language-plaintext highlighter-rouge">ai-platform-strategy</code> 레포 <code class="language-plaintext highlighter-rouge">.claude</code> 디렉터리 (2026-06-27 측정)</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="claude-code" /><category term="project-structure" /><category term="context-engineering" /><category term="agent-skills" /><category term="platform-engineering" /><summary type="html"><![CDATA[CLAUDE.md, rules, skills, agents, hooks, MCP까지. Claude Code 프로젝트의 모든 구성요소가 각각 어떤 역할 경계를 갖는지 정리한 '완전한 지도'를 읽고, ThakiCloud의 실제 레포(규칙 40개, 스킬 1655개, 에이전트 54개)를 그 지도에 직접 비춰 무엇이 맞고 무엇이 빠졌는지 실측했습니다. 새 지식을 어디에 둘지 결정하는 배치 트리와 K8s AI/ML SaaS 플랫폼 운영 관점을 함께 정리합니다.]]></summary></entry><entry xml:lang="ar"><title type="html">وكيل ذكاء اصطناعي يكتب الأوراق البحثية - نقل سير عمل الكتابة بحزمة Skill مفتوحة المصدر</title><link href="https://thakicloud.github.io/ar/dev/ai-agent-research-paper-skills/" rel="alternate" type="text/html" title="وكيل ذكاء اصطناعي يكتب الأوراق البحثية - نقل سير عمل الكتابة بحزمة Skill مفتوحة المصدر" /><published>2026-06-26T00:00:00+09:00</published><updated>2026-06-26T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/dev/ai-agent-research-paper-skills</id><content type="html" xml:base="https://thakicloud.github.io/ar/dev/ai-agent-research-paper-skills/"><![CDATA[<p>كلما اقترب موعد تسليم الورقة البحثية، وجد الباحث نفسه يكرر نفس المهام: يُعيد صياغة المقدمة، ويتحقق من انسجام حجج الملخص مع أدلتها، ويُسبق المراجع إلى الجمل الإشكالية. هذه الخبرة عادةً ما تظل حبيسة ذاكرة المشرف أو موزّعة في ملاحظات متفرقة. المشروع المفتوح المصدر <a href="https://github.com/Master-cai/Research-Paper-Writing-Skills">Research-Paper-Writing-Skills</a> الذي أثار اهتماماً واسعاً على X مؤخراً يُجمّع هذه الخبرة في حزمة Skill يستطيع وكيل الترميز الذكي استدعاءها مباشرةً. والأهم ليس أنها “مجموعة برومبتات أخرى”، بل أنها صيغة قابلة للنقل تُضمَّن بالتساوي في Codex وClaude Code وGemini.</p>

<p><img src="/assets/images/ai-agent-research-paper-skills-hero.png" alt="صورة مجردة تُظهر وحدة معرفية مركزية تتفرع منها ثلاثة تدفقات بيانات نحو ثلاثة أدوات مختلفة" /></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>يقوم هذا المشروع على ملاحظات تعليمية نشرها الأستاذ بنغ سيدا (彭思达) من جامعة تشجيانغ الصينية في مستودع <a href="https://github.com/pengsida/learning_research">learning_research</a>، ويُعيد صياغة خبرة كتابة الأوراق البحثية في هيئة حزمة Agent Skill. وفق وصف المستودع، يركز المشروع على أوراق ML وCV وNLP، وقد مرّ بعمليات تنظيم وهيكلة تستهدف Codex وClaude Code وGemini. الإسهام الجوهري ليس نسخ نص الملاحظات الأصلية، بل تفكيك النصائح المتناثرة إلى وحدات عمل يمكن للوكيل استدعاؤها باعتبارها قدرات قابلة لإعادة الاستخدام.</p>

<p>لماذا تستقطب هذه الصيغة الاهتمام الآن؟ مع انتشار وكلاء الترميز الذكي، بات الناس يعتبرون “كيف ومتى تُوجّه هذا النموذج” أصلاً لا تقل قيمته عن النموذج نفسه. معرفة العمل المنظمة جيداً يكفي بناؤها مرة واحدة لتتكرر عبر أدوات وأشخاص متعددين. والمهام ذات الإجراءات الواضحة ومعايير الجودة المحددة - ككتابة الأوراق البحثية - تلائم هذه الصيغة بشكل خاص. ThakiCloud بدورها تُشغّل جزءاً كبيراً من عملياتها الداخلية عبر مئات الـ Skills، ولذا ترى في هذا الاتجاه تحولاً هيكلياً في تشغيل الوكلاء لا مجرد موضة عابرة.</p>

<h2 id="ما-هو-agent-skill">ما هو Agent Skill؟</h2>

<p>Agent Skill حزمة تُخبر الوكيل بكيفية تنفيذ مهمة بعينها. تتمحور عادةً حول ملف تعليمات <code class="language-plaintext highlighter-rouge">SKILL.md</code>، وتضم عند الحاجة وثائق مرجعية وسكريبتات وقوالب. لها ثلاث خصائص جوهرية: أولاً، تخضع لإدارة الإصدارات - يمكن تتبع تاريخ تعديلاتها في المستودع فتتراكم أصلاً لا تنتهي بانتهاء البرومبت. ثانياً، تُستدعى عند الحاجة فقط - بدلاً من حشو كل المعرفة في السياق دفعة واحدة، يُحمَّل فقط الـ Skill المرتبط بالمهمة في تلك اللحظة. ثالثاً، لا تتقيد بـ harness بعينه - الهدف أن يُشغَّل الـ Skill نفسه في Claude Code وCodex وGemini على حد سواء.</p>

<p>هذه الخاصية الثالثة هي ما يُجلّي قيمة المشروع أكثر من غيره. النماذج تتبدل وأدوات CLI تتبدل، لكن معرفة العمل كـ”كيف تكتب مقدمة جيدة” تدوم أطول بكثير. حين تبني قدراتك في الـ Skill لا في الأداة، لن تضطر إلى إعادة بناء خبرتك في كل مرة تُبدّل فيها الأداة. هذا ما نسميه داخلياً مبدأ “harness رفيع، Skill كثيف”: نُبقي الـ harness - حلقة النموذج والصلاحيات وإدخال/إخراج الملفات - رفيعاً، ونُكدّس المعرفة الميدانية والحكم وحالات الفشل في الـ Skill.</p>

<p><img src="/assets/images/ai-agent-research-paper-skills-diagram.png" alt="هيكل يُظهر حزمة Skill واحدة قابلة للنقل تحتوي على ملف SKILL.md ومواد مرجعية، مُدمجة بالتساوي في ثلاثة harness: Claude Code وCodex وGemini، لتنفيذ مهام كتابة الأوراق البحثية" /></p>

<p>جوهر الشكل أعلاه أن حزمة الـ Skill واحدة في الوسط. الأدوات الثلاثة لا تحمل كل منها برومبتاً مختلفاً؛ بل تتشارك نفس معرفة العمل. هنا يكمن الفارق الجوهري عن لصق سطر برومبت في نافذة دردشة.</p>

<h2 id="استعراض-research-paper-writing-skills">استعراض Research-Paper-Writing-Skills</h2>

<p>المهام التي تتناولها الحزمة تتطابق مع المراحل الفعلية لكتابة الورقة البحثية. من أمثلة الاستخدام المنشورة: استدعاء <code class="language-plaintext highlighter-rouge">$research-paper-writing</code> لتحسين المقدمة وصقل فقراتها الأولى، أو إعادة كتابة الملخص مع التحقق من توافق الادعاءات مع الأدلة. أي أن البنية لا تقدم طلباً مبهماً كـ”اكتب لي بشكل جيد”، بل تفصل المهام الفرعية المتكررة في كتابة الأوراق إلى قدرات مستقلة. وهذا ينسجم مع مبدأ التصميم الجيد للبرومبت: فعل واحد يقابله ناتج واحد.</p>

<p>اللافت أيضاً أن المشروع يستهدف أدوات ترميز ذكاء اصطناعي متعددة في آنٍ واحد. المستخدم يُفعّل نفس القدرة بمجرد نسخ الحزمة إلى مجلد الـ Skill الخاص ببيئته. هذا التوجه نحو harnesses متعددة ليس سمة هذا المشروع وحده؛ بل يتشاركه عدد من المشاريع المفتوحة المصدر التي ظهرت مؤخراً كمجموعات Skills أكاديمية مبنية على Codex، ومكتبات Skill للبحث الذكاء الاصطناعي العامة. علامة على أن ثمة محاولات متزامنة لنقل سير عمل البحث بأكمله إلى بيئة Skills.</p>

<p>ملاحظة ضرورية: كُتب هذا المقال استناداً إلى الوصف العام للمستودع وأمثلة الاستخدام المنشورة، ولم يُقطع بأرقام تفصيلية كعدد النجوم أو تكوين الملفات الداخلي لأنها قد تتغير بمرور الوقت. إن كنت تدرس الاعتماد الفعلي، فراجع مستودع المصدر والترخيص وطريقة إسناد ملاحظات المؤلف الأصلي مباشرةً.</p>

<h2 id="التثبيت-والاستخدام">التثبيت والاستخدام</h2>

<p>نموذج تثبيت Agent Skill بسيط في مجمله. تنزّل الحزمة وتضعها في مسار الـ Skill الذي تتعرف عليه الأداة، فيستدعي الوكيل الـ Skill المناسب بحسب المهمة. التدفق العام كالتالي:</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="c"># استنساخ المستودع</span>
git clone https://github.com/Master-cai/Research-Paper-Writing-Skills.git

<span class="c"># نسخه إلى مجلد Skill الخاص بأداتك (راجع توثيق كل أداة للمسار الصحيح)</span>
<span class="c"># مثال: وضعه تحت .claude/skills/ في مشروع Claude Code</span>
<span class="nb">cp</span> <span class="nt">-r</span> Research-Paper-Writing-Skills/&lt;skill-dir&gt; .claude/skills/
</code></pre></div></div>

<p>بعد الوضع في مكانه، تستدعي الـ Skill من جلسة الوكيل وتُعطيه المهمة. تُلقي طلباً بلغة طبيعية لصقل مسودة مقدمة أو فحص انسجام ادعاءات الملخص مع أدلتها، فتُطبَّق الإجراءات ومعايير التحقق المضمّنة في الـ Skill. بما أن مسار تعرف الـ Skill وأعراف استدعائه تتفاوت قليلاً بين الأدوات، يُستحسن اتباع توثيق كل أداة للمسار الفعلي. الأهم أن الـ Skill المُثبَّت مرة واحدة يُعاد استخدامه في كل جلسات تلك الأداة - فيختفي عناء لصق البرومبت نفسه في كل مرة.</p>

<h2 id="التطبيق-والدلالات-في-منصة-thakicloud-للذكاء-الاصطناعي-على-kubernetes">التطبيق والدلالات في منصة ThakiCloud للذكاء الاصطناعي على Kubernetes</h2>

<p>منصة ThakiCloud للذكاء الاصطناعي تُشغّل وكلاء ومهام دُفعية لعملاء متعددين فوق Kubernetes. عملياتنا الداخلية بنيت أصلاً على محور الـ Skills، لذا الصيغة التي يعرضها هذا المشروع ليست غريبة عنا. الأهم هو أن النمط ذاته ينتشر بسرعة خارجياً.</p>

<p>أولاً، ثمة قيمة مباشرة لعلماء البيانات وكوادر البحث. الفرق التي تتعامل مع المنصة تكتب أوراقاً بحثية وتقارير تقنية بشكل متكرر. تثبيت Skills كتابة بحثية مُختبَرة فوق الأدوات الداخلية المعيارية يتيح مراجعة جوانب كهيكل المقدمة وانسجام الادعاءات-الأدلة في الملخص بمعيار متسق. هذه طريقة لرفع متوسط الجودة دون الحاجة إلى ترقية رتبة النموذج.</p>

<p>ثانياً، استقلالية الـ harness تنسجم مع التشغيل متعدد المستأجرين. قد يتباين عملاء مختلفون في بيئة الوكيل المفضلة لديهم، لكن حين تُخزَّن القدرة في الـ Skill يمكن إعادة استخدام نفس معرفة العمل بصرف النظر عن البيئة. وبما أن القدرة لا ترتبط بأداة مورّد بعينه، يسهل نقل نفس الأصول إلى بيئات العملاء ذوي المتطلبات الصارمة للاستضافة الذاتية. وهذا يتوافق مع استراتيجيتنا التي تُولي الأولوية للاستضافة الذاتية وكفاءة التكلفة.</p>

<p>ثالثاً، يُقدّم المشروع درساً حول ضرورة الانضباط في التعامل مع الـ Skills بوصفها أصولاً تشغيلية. الـ Skill يُكبّد تكلفة سياق في كل جلسة من لحظة فهرسته. لذا نُمرّر كل Skill جديد عندنا بسؤال: “هل سيُخطئ الوكيل بغيابه؟”، ونُدوّن حالات الفشل صراحةً. تطبيق نفس البوابة عند اعتماد Skills خارجية يُقلّل من مخاطر تراكم Skills يُضعف دقة البحث بدلاً من تعزيزها.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>لهذا النهج نقاط ضعف واضحة. أولاً، لا توجد مقاييس نشر موضوعية تقيس جودة النصوص الناتجة. كتابة الأوراق البحثية مهمة تستلزم بطبيعتها حكماً بشرياً، ولا مناص من أن يراجع الإنسان المسودة التي أنتجها الـ Skill بمعاييره. لهذا لم نورد أرقاماً أدائية في هذا المقال - لا يوجد قياس ميداني مُوثَّق، واختراع الأرقام هو آخر ما ينبغي فعله.</p>

<p>ثانياً، ثمة مسألة المصادر والأعمال المشتقة. الحزمة نتاج إعادة هيكلة ملاحظات عامة لمؤلف آخر. حتى لو كان الإسناد صريحاً، يقع على عاتق الجهة المعتمِدة مسؤولية التحقق المباشر من الترخيص ونطاق إسناد المصدر. يزداد هذا أهمية حين تُضاف الحزمة إلى معايير داخلية مؤسسية.</p>

<p>ثالثاً، المساعدة في الكتابة لا تحل محل التفكير. الورقة الجيدة تنبثق من بحث جيد. الـ Skill يُسهم في الصياغة والمراجعة فحسب؛ لا يُحيل نتائج متواضعة إلى ورقة رصينة. عدم الخلط بين ما تملأه الأداة وما يتحمله الباحث حتى النهاية شرط لاستخدام هذه الصيغة بشكل صحي.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Research-Paper-Writing-Skills: <a href="https://github.com/Master-cai/Research-Paper-Writing-Skills">https://github.com/Master-cai/Research-Paper-Writing-Skills</a></li>
  <li>ملاحظات المؤلف الأصلية learning_research (بنغ سيدا): <a href="https://github.com/pengsida/learning_research">https://github.com/pengsida/learning_research</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="dev" /><category term="ai-agent" /><category term="agent-skills" /><category term="claude-code" /><category term="paper-writing" /><category term="llm" /><summary type="html"><![CDATA[مشروع مفتوح المصدر يُحوّل خبرة الأستاذ في كتابة الأوراق البحثية إلى حزمة Skill قابلة للاستدعاء من Codex أو Claude Code أو Gemini. نستعرض الفارق عن مجموعات البرومبت التقليدية، وأهمية صيغة Agent Skill، ودلالة هذا الاتجاه من منظور ThakiCloud التي تُشغّل منصة وكلاء تضم مئات الـ Skills.]]></summary></entry><entry xml:lang="ar"><title type="html">NVIDIA GLM-5.2-NVFP4: خدمة نموذج MoE رائد بحجم 753B بدقة 4 بت</title><link href="https://thakicloud.github.io/ar/llmops/nvidia-glm-5-2-nvfp4/" rel="alternate" type="text/html" title="NVIDIA GLM-5.2-NVFP4: خدمة نموذج MoE رائد بحجم 753B بدقة 4 بت" /><published>2026-06-26T00:00:00+09:00</published><updated>2026-06-26T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/nvidia-glm-5-2-nvfp4</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/nvidia-glm-5-2-nvfp4/"><![CDATA[<p><img src="/assets/images/nvidia-glm-5-2-nvfp4-hero.png" alt="صورة تجريدية لشبكة عصبية بدقة 16 بت تتكثّف في نواة مدمجة بدقة 4 بت" />
<em>تصوّر مفاهيمي لتكثيف أوزان 16 بت إلى 4 بت.</em></p>

<p>بالنسبة لأي فريق يحاول خدمة نموذج استدلال من الطراز الرائد على بنيته التحتية الخاصة، فإن أول جدار يصطدم به هو ذاكرة وحدة معالجة الرسوميات (GPU). تحميل 753 مليار معامل بدقة 16 بت يتطلب ما يقارب 1.5 تيرابايت، أي عدة عُقد GPU. نموذج <code class="language-plaintext highlighter-rouge">nvidia/GLM-5.2-NVFP4</code>، الذي صدر على Hugging Face في 25 يونيو 2026، يكمّم نموذج GLM-5.2 من ZAI (zai-org) إلى 4 بت في محاولة لخفض هذا الجدار.</p>

<p>هذه المقالة ليست تعريفاً بنموذج GLM-5.2 نفسه. كيف يعيد طول رموز الاستدلال في النموذج تشكيل حسابات تكلفة الاستضافة الذاتية مشروح في <a href="https://thakicloud.github.io/ar/llmops/glm-5-2-reasoning-token-economics/">مقالة اقتصاديات رموز الاستدلال</a>، وتكميم GGUF بدقة 1 بت للعتاد الاستهلاكي في <a href="https://thakicloud.github.io/ar/llmops/unsloth-glm-5-2-1bit-gguf/">مقالة Unsloth GGUF</a>. هذه المقالة تنظر إلى مسار مركز البيانات: ما البنية التي اختارها تكميم NVFP4 الرسمي من NVIDIA، وعلى أي عتاد يُخدَم، وماذا يعني ذلك لمشغّل يدير خدمة متعددة المستأجرين.</p>

<p>كل رقم دقة هنا هو قياس رسمي منشور في بطاقة نموذج NVIDIA. النموذج بحجم 753B مخصص لـ Blackwell فقط ويتطلب توازياً موتّرياً بمقدار 8، لذا لم نتمكن من إعادة إنتاجه في بيئة تطوير ThakiCloud. لذلك فهذه المقالة تحليل مبني على مواد عامة ولم نختلق أي أرقام إعادة إنتاج. الأرقام التي تختلف بين المصادر مُعلَّمة بـ <code class="language-plaintext highlighter-rouge">[تقديري]</code>.</p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p><code class="language-plaintext highlighter-rouge">nvidia/GLM-5.2-NVFP4</code> هو نسخة من <code class="language-plaintext highlighter-rouge">zai-org/GLM-5.2</code> لـ ZAI مكمَّمة بأداة NVIDIA Model Optimizer (ModelOpt). النموذج الأساس هو بنية مزيج خبراء (MoE) للاستدلال والبرمجة، بإجمالي 753 مليار معامل يُفعَّل منها 40 مليار فقط لكل رمز. بنيته الشبكية هي <code class="language-plaintext highlighter-rouge">GlmMoeDsaForCausalLM</code>، ويستخدم انتباهاً متناثراً مع مُفهرِس IndexShare لدعم سياق يصل إلى مليون رمز. الترخيص هو MIT، مثل النموذج الأساس، ويتيح الاستخدام التجاري وغير التجاري.</p>

<p>جوهر الأمر في جملة واحدة: <strong>MoE يقلّل الحوسبة، والتكميم الانتقائي بـ NVFP4 يقلّل الذاكرة، والأجزاء الحسّاسة للدقة تُستثنى عمداً من التكميم.</strong> بفضل بنية MoE، حتى عند 753B تظل الحوسبة لكل رمز محصورة في خبراء الـ 40B المفعَّلين. ثم يُنزِل NVFP4 أوزان الخبراء الموجَّهين، التي تشكّل معظم بصمة الذاكرة، من 16 بت إلى 4 بت، مع إبقاء الخبير المشترك غير مكمَّم بدقة BF16 لتقليل خسارة الدقة.</p>

<p>التوقيت مهم. صدور نموذج مفتوح الأوزان قوي بترخيص MIT يتزامن مع إعادة NVIDIA إصداره، مُحسَّناً لعتادها، في صيغة قابلة للخدمة مباشرة. بالنسبة للمؤسسات التي توازن سيادة النماذج، هذه ليست قضية سياسات مجردة بل خيار معماري آنيّ: أي GPU يشغّل ماذا، وكيف.</p>

<h2 id="ما-هو-هذا-النموذج">ما هو هذا النموذج</h2>

<p>GLM-5.2 هو نموذج استدلال وبرمجة من نوع MoE من ZAI. على عكس النموذج الكثيف (dense) التقليدي، يضع عدة شبكات خبراء داخل كل كتلة محوِّل ويفعّل مجموعة فرعية فقط لكل رمز إدخال. يحمل GLM-5.2 إجمالي 753 مليار معامل، لكن 40 مليار فقط تشارك فعلياً في توليد رمز معيّن. “سعته المعرفية” من فئة 753B، بينما حوسبة الاستدلال أقرب إلى نموذج كثيف بحجم 40B.</p>

<p>علاوة على ذلك، يستخدم GLM-5.2 انتباهاً متناثراً مع مُفهرِس IndexShare. التصميم يدعم سياق مليون رمز مع تجنّب تكلفة الانتباه الكامل الذي يقارن كل زوج رموز. تسمّي بطاقة النموذج هذه البنية <code class="language-plaintext highlighter-rouge">glm_moe_dsa</code> وتتطلب <code class="language-plaintext highlighter-rouge">transformers&gt;=5.3.0</code> للتشغيل. هاتان الطبقتان من التناثر، تناثر MoE وتناثر الانتباه، تتكاملان لتقديم استدلال من الطراز الرائد بحوسبة اقتصادية نسبياً، وهذه نقطة انطلاق GLM-5.2.</p>

<p>NVFP4 هو نوع بيانات عائم بدقة 4 بت عرّفته NVIDIA. المفتاح أنه عائم وليس عدداً صحيحاً بـ 4 بت. على وجه التحديد، يحزم قيماً عائمة صغيرة (E2M1) في كتل من 16 عنصراً ويرفق بكل كتلة مقياس FP8 (E4M3)، وهو تحجيم على مستوى الكتل بمرحلتين. لأن كل كتلة تتتبّع مداها الديناميكي الخاص، يحافظ على أذيال التوزيع أفضل بكثير من التكميم الصحيح البسيط. تذكر NVIDIA بوضوح في بطاقة النموذج أن هذا ليس نموذجاً درّبته من الصفر بل نسخة مكمَّمة من نموذج طرف ثالث، أُنتجت بأداة NVIDIA Model Optimizer مفتوحة المصدر.</p>

<h2 id="المفتاح-هو-التكميم-الانتقائي">المفتاح هو التكميم “الانتقائي”</h2>

<p><img src="/assets/images/nvidia-glm-5-2-nvfp4-diagram.png" alt="مخطط لاستراتيجية التكميم الانتقائي ومسار الخدمة في GLM-5.2-NVFP4" />
<em>تُكمَّم فقط المعاملات الخطية لخبراء MoE الموجَّهين إلى NVFP4؛ ويبقى الخبير المشترك والانتباه بدقة BF16.</em></p>

<p>أهم قرار تصميمي في هذا النموذج هو “ما الذي لم يُكمَّم”. باقتباس بطاقة النموذج مباشرة: “تُكمَّم فقط أوزان وتنشيطات المعاملات الخطية داخل كتل المحوِّل في خبراء MoE. الخبير المشترك غير مكمَّم.” باختصار:</p>

<ul>
  <li><strong>مكمَّم إلى NVFP4 (4 بت)</strong>: أوزان وتنشيطات المعاملات الخطية لخبراء MoE الموجَّهين. بما أن هنا تعيش معظم معاملات الـ 753B، يأتي تقريباً كل توفير الذاكرة من هنا.</li>
  <li><strong>محفوظ بدقة BF16 (16 بت)</strong>: الخبير المشترك، ومسار الانتباه المتناثر IndexShare. هذه يعبرها كل رمز، فلها أثر كبير على الدقة.</li>
</ul>

<p>الاستراتيجية منطقية بسبب كيفية توزيع معاملات MoE. الخبراء الموجَّهون كثيرون ويهيمنون على إجمالي عدد المعاملات، لكن كل رمز يستخدم القليل منهم فقط. أما الخبير المشترك والانتباه فيحملان حصة أصغر من المعاملات لكن يعبرهما كل رمز. لذا فإن “4 بت بقوة حيث يوجد الكثير المستخدَم بتناثر، و16 بت بدقة حيث يوجد القليل لكنه يُستخدم دائماً” مقايضة سليمة تلتقط الذاكرة والدقة معاً. هذا التكميم الانتقائي هو السبب الجذري لبقاء جدول الدقة شبه خالٍ من الخسارة.</p>

<p>استخدمت المعايرة (calibration) مجموعات بيانات عائلة Nemotron من NVIDIA. تسمّي بطاقة النموذج Nemotron-SFT-Instruction-Following-Chat-v2 وNemotron-Science-v1 وNemotron-Competitive-Programming-v1 وNemotron-SFT-Agentic-v2 وNemotron-Math-v2 وNemotron-SFT-SWE-v2 وNemotron-SFT-Multilingual-v1 كبيانات معايرة. المزيج يشمل الاستدلال والعلوم والبرمجة والوكلاء والرياضيات ومتعدد اللغات، بما يتماشى مع طبيعة معايير التقييم.</p>

<h2 id="القياسات-المنشورة-الدقة-مقابل-fp8">القياسات المنشورة: الدقة مقابل FP8</h2>

<p><img src="/assets/images/nvidia-glm-5-2-nvfp4-results.png" alt="رسم بياني شريطي يقارن خط أساس FP8 ودرجات معايير NVFP4" />
<em>قياسات عامة من بطاقة نموذج nvidia/GLM-5.2-NVFP4. خط الأساس هو GLM-5.2-FP8.</em></p>

<p>المقارنة التي نشرتها NVIDIA في بطاقة النموذج أدناه. اللافت أن خط الأساس ليس BF16 بل <code class="language-plaintext highlighter-rouge">GLM-5.2-FP8</code> المضغوط أصلاً. أي أن هذا هو السؤال الأصعب: “كم يخسر 4 بت مقارنة بنموذج خُفِّض أصلاً إلى 8 بت”، بدلاً من “مقارنة بالأصل غير المضغوط”.</p>

<table>
  <thead>
    <tr>
      <th>المعيار</th>
      <th>خط الأساس (FP8)</th>
      <th>NVFP4</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>GPQA Diamond</td>
      <td>89.52</td>
      <td>89.39</td>
    </tr>
    <tr>
      <td>SciCode</td>
      <td>49.85</td>
      <td>49.04</td>
    </tr>
    <tr>
      <td>IFBench</td>
      <td>74.95</td>
      <td>75.81</td>
    </tr>
    <tr>
      <td>AA-LCR</td>
      <td>69.38</td>
      <td>70.13</td>
    </tr>
    <tr>
      <td>τ²-Bench Telecom</td>
      <td>97.9</td>
      <td>98.25</td>
    </tr>
  </tbody>
</table>

<p>كانت إعدادات القياس درجة حرارة 1.0 وtop_p 0.95، بحد أقصى للرموز الجديدة 100000 لـ GPQA Diamond و64000 للبقية. قِيس AA-LCR بـ SGLang؛ والبقية بـ vLLM. المعايير الخمسة تقيّم على التوالي الاستدلال العلمي بمستوى الدراسات العليا (GPQA Diamond، 448 سؤالاً)، والبرمجة العلمية (SciCode)، واتّباع التعليمات (IFBench)، واستذكار السياق الطويل (AA-LCR)، واستخدام الأدوات الوكيلي (τ²-Bench Telecom).</p>

<p>انخفض GPQA (−0.13) وSciCode (−0.81) قليلاً، بينما كان IFBench (+0.86) وAA-LCR (+0.75) وτ²-Bench Telecom (+0.35) أعلى فعلياً تحت NVFP4. قد يبدو تفوّق 4 بت على 8 بت غير بديهي، لكن فروقاً بهذا الحجم تُقرأ بأمان أكبر كضوضاء تباين أخذ العينات لا كخسارة تكميم. الرسالة الجوهرية أن “ضغط FP8 خطوة إضافية إلى 4 بت يُبقي الدقة ثابتة فعلياً”، وهي نتيجة مباشرة لاستراتيجية التكميم الانتقائي الموصوفة أعلاه.</p>

<h2 id="النشر-vllm-وsglang">النشر: vLLM وSGLang</h2>

<p>يدعم هذا النموذج رسمياً بيئتي التشغيل SGLang وvLLM، ويتطلب عتاد NVIDIA Blackwell، ويعمل على Linux. لأن نوى موتّرات NVFP4 موجودة فقط في جيل Blackwell، فإن عدم القدرة على استخدام مسار 4 بت هذا مباشرة على وحدات GPU الأقدم قيد مهم. أمر الخدمة عبر SGLang الذي توفّره بطاقة النموذج هو:</p>

<div class="language-sh highlighter-rouge"><div class="highlight"><pre class="highlight"><code>pip <span class="nb">install</span> <span class="nt">-U</span> <span class="s2">"transformers&gt;=5.3.0"</span> <span class="o">&amp;&amp;</span> <span class="se">\</span>
python3 <span class="nt">-m</span> sglang.launch_server <span class="se">\</span>
    <span class="nt">--model</span> nvidia/GLM-5.2-NVFP4 <span class="se">\</span>
    <span class="nt">--tensor-parallel-size</span> 8 <span class="se">\</span>
    <span class="nt">--quantization</span> modelopt_fp4 <span class="se">\</span>
    <span class="nt">--tool-call-parser</span> glm47 <span class="se">\</span>
    <span class="nt">--reasoning-parser</span> glm45 <span class="se">\</span>
    <span class="nt">--trust-remote-code</span> <span class="se">\</span>
    <span class="nt">--chunked-prefill-size</span> 131072 <span class="se">\</span>
    <span class="nt">--mem-fraction-static</span> 0.80
</code></pre></div></div>

<p>بضع إشارات تستحق القراءة هنا. <code class="language-plaintext highlighter-rouge">--tensor-parallel-size 8</code> يعني أن النموذج يفترض عُقدة من 8 وحدات GPU لا واحدة. <code class="language-plaintext highlighter-rouge">--quantization modelopt_fp4</code> يخبر بيئة التشغيل بالتعرّف على صيغة NVFP4 التي أنتجها ModelOpt. <code class="language-plaintext highlighter-rouge">--chunked-prefill-size 131072</code> يقسّم التعبئة المسبقة عند معالجة سياق المليون رمز لمنع قفزات الذاكرة، وهي قيمة تحكم الاستقرار في خدمة السياق الطويل. <code class="language-plaintext highlighter-rouge">--tool-call-parser glm47</code> و<code class="language-plaintext highlighter-rouge">--reasoning-parser glm45</code> يحلّلان صيغتَي استدعاء الأدوات ورموز الاستدلال لعائلة GLM، وهما يرتبطان مباشرة بأحمال العمل الوكيلية.</p>

<p>من ناحية الذاكرة، تقدير تقريبي: خدمة 753B بدقة BF16 تحتاج نحو 1.5 تيرابايت [تقديري]. بما أن الخبراء الموجَّهين يهيمنون على عدد المعاملات ويُنزَلون إلى 4 بت، تنخفض ذاكرة الأوزان الفعلية إلى نحو الثلث فتقع في نطاق قابل للتحميل على عُقدة واحدة بتوازٍ موتّري ثماني (تُبلِغ مرايا NVFP4 المجتمعية عن نحو 1.37 تيرابايت إلى 459 جيجابايت، أي نحو 3 أضعاف [تقديري]). لأن بطاقة النموذج لا تذكر الحجم الدقيق بالجيجابايت قبل التكميم وبعده، يحمل هذا الرقم علامة <code class="language-plaintext highlighter-rouge">[تقديري]</code>. ما لا لبس فيه أن أمر <code class="language-plaintext highlighter-rouge">--tensor-parallel-size 8</code> نفسه يشير إلى أن “8 وحدات Blackwell يمكنها خدمة نموذج استدلال بحجم 753B بسياق مليون رمز”.</p>

<h2 id="تطبيقه-على-منصة-thakicloud-السحابية-لخدمات-aiml-على-k8s">تطبيقه على منصة ThakiCloud السحابية لخدمات AI/ML على K8s</h2>

<p>تشغّل ThakiCloud منصة متعددة المستأجرين تجدوِل وحدات GPU عبر Kueue على K8s وتخدم النماذج عبر vLLM. في هذه البيئة، يهمّ نموذج مكمَّم مسبقاً من الطراز الرائد مثل <code class="language-plaintext highlighter-rouge">nvidia/GLM-5.2-NVFP4</code> بثلاث طرق.</p>

<p>أولاً، <strong>يتّسع نطاق مرشّحي الخدمة.</strong> يُستبعَد نموذج استدلال من فئة 753B عادةً مبكراً من النظر في الاستضافة الذاتية، لكن إذا جعل تكميم 4 بت الأوزان مع هامش KV تناسب عُقدة Blackwell واحدة بـ 8 وحدات GPU، تصبح الخدمة الذاتية داخل المؤسسة خياراً واقعياً. باستخدام ResourceFlavor وClusterQueue في Kueue لتخصيص تجمّع عُقد Blackwell لاستدلال NVFP4، يتحوّل هامش الذاكرة المكتسب عبر التكميم مباشرة إلى عدد المستأجرين المخدومين معاً. بالنسبة للعملاء الذين لا يستطيعون إرسال البيانات إلى واجهات برمجية خارجية، خصوصاً القطاع العام والمالية حيث تُشترَط الاستضافة الذاتية وسيادة البيانات، فإن إبقاء الاستدلال الرائد داخلياً ميزة تنافسية بحد ذاتها.</p>

<p>ثانياً، <strong>لست مضطراً لتشغيل خط أنابيب التكميم بنفسك.</strong> معايرة وتكميم 753B بـ ModelOpt يتطلبان وقت GPU وهندسة كبيرين. إذا أمكننا أخذ نموذج معتمَد من NVIDIA ووضعه مباشرة على vLLM/SGLang، يمكننا تركيز الموارد على التوجيه متعدد المستأجرين والتوسّع التلقائي ومراقبة التكلفة بدلاً من التحقق من التكميم. ومع ذلك، يحوي نظام مهارات ThakiCloud بالفعل سير عمل داخلياً يكمّم عائلة Qwen3-MoE إلى NVFP4، لذا فإن الوصفة التي طبّقتها NVIDIA على GLM-5.2، أي “الخبراء إلى 4 بت، الخبير المشترك والانتباه بـ BF16”، تصبح نمطاً عاماً يمكننا اقتباسه مباشرة عند تكميم نماذج مجال العملاء بأنفسنا.</p>

<p>ثالثاً، <strong>يستحق التكميم الانتقائي الإدراج في معايير اعتماد النماذج لدينا.</strong> المبدأ الذي أظهره هذا النموذج، “بقوة حيث يوجد الكثير المتناثر، وبتحفّظ حيث يُستخدم دائماً”، ينطبق كما هو عند تكميم نماذج MoE أخرى داخلياً. بدلاً من سحق الكل ببساطة إلى 4 بت، يمكن أن يصبح الحفاظ على الخبير المشترك والانتباه بنداً في بوابة اعتماد النماذج. غير أن قيد Blackwell-only مرتبط مباشرة بتكوين تجمّع GPU لدينا، لذا يجب أن تذكر خارطة طريق الاعتماد أن استخدام مسار NVFP4 يفترض تأمين عُقد Blackwell.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>أكبر قيد هو <strong>التبعية للعتاد.</strong> يفترض مسار NVFP4 بـ 4 بت نوى موتّرات Blackwell، لذا فإن البيئات التي تملك أجيالاً أقدم فقط مثل Hopper (H100/H200) لا يمكنها تحقيق فوائد هذا النموذج كما هي. سردية “4 بت تجعله رخيصاً” تصحّ فقط عندما تكون عُقد Blackwell مؤمَّنة أو مخطَّطة، وهي فعلاً تفترض إنفاقاً رأسمالياً جديداً.</p>

<p>ثانياً، <strong>نطاق المعايير.</strong> جدول الدقة في بطاقة النموذج محصور في خمسة معايير، جميعها قريبة من مهام الاستدلال والبرمجة والوكلاء باللغة الإنجليزية. الجودة الواقعية متعددة اللغات بما فيها الكورية، واستقرار الاستذكار عند ملء سياق المليون رمز حتى آخره، لا يمكن استنتاجهما من الجدول العام وحده. تقييم منفصل على بيانات مجالنا يقيس التراجع مقابل BF16/FP8 ضروري قبل الاعتماد.</p>

<p>ثالثاً، <strong>عدم يقين أرقام الذاكرة.</strong> كما ذُكر، لا تنشر بطاقة النموذج الحجم الدقيق بالجيجابايت قبل التكميم وبعده. تقدير الذاكرة في هذه المقالة محسوب عكسياً من عدد المعاملات ونطاق التكميم، لذا في النشر الفعلي، إضافة ذاكرة KV ومخازن التعبئة المسبقة للمليون رمز تجعل الذاكرة الفعلية لكل عُقدة أكبر من تقدير الأوزان وحدها. يجب أن يبني التخطيط التشغيلي على ذروة الذاكرة لا على ذاكرة الأوزان.</p>

<p>رابعاً، <strong>وجها التكميم الانتقائي.</strong> إبقاء الخبير المشترك والانتباه بـ BF16 حمى الدقة، لكنه أيضاً يجعل توفير الذاكرة أصغر من “الكل بـ 4 بت”. أي أن هذا النموذج اختار “ضغطاً يحمي الدقة” لا “أقصى ضغط”. لبيئة تكلفة قصوى تهدف إلى تشغيله على وحدة GPU واحدة لمحطة عمل، تناسب مقايضة GGUF بـ 1 بت الأكثر جرأة، بجودة أدنى، بشكل أفضل.</p>

<p>باختصار، <code class="language-plaintext highlighter-rouge">nvidia/GLM-5.2-NVFP4</code> حالة لإنزال نموذج استدلال MoE رائد بحجم 753B إلى 4 بت دون خسارة دقة، ما يجعل الخدمة الذاتية على عُقدة Blackwell بـ 8 وحدات GPU خياراً واقعياً. من منظور ThakiCloud، يضيف ورقة أخرى لتقديم الاستدلال الرائد للعملاء ذوي متطلبات الاستضافة الداخلية وسيادة البيانات، ومناسبة لإدراج المبدأ العام “التكميم الانتقائي” في معايير اعتماد النماذج. لكن ذلك الباب لا يُفتَح إلا بمفتاح Blackwell.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li><a href="https://huggingface.co/nvidia/GLM-5.2-NVFP4">nvidia/GLM-5.2-NVFP4 · Hugging Face</a></li>
  <li><a href="https://huggingface.co/zai-org/GLM-5.2">النموذج الأساس GLM-5.2 (ZAI) · Hugging Face</a></li>
  <li><a href="https://github.com/NVIDIA/Model-Optimizer">NVIDIA Model Optimizer · GitHub</a></li>
  <li><a href="https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/">Introducing NVFP4 for Efficient and Accurate Low-Precision Inference · NVIDIA Technical Blog</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="nvfp4" /><category term="quantization" /><category term="vllm" /><category term="sglang" /><category term="glm" /><category term="moe" /><category term="inference-optimization" /><category term="model-optimizer" /><summary type="html"><![CDATA[كمّمت NVIDIA نموذج الاستدلال GLM-5.2 من ZAI (MoE بحجم 753B) إلى NVFP4 (4 بت) ونشرته على Hugging Face. بدلاً من سحق كل الأوزان إلى 4 بت، تُكمَّم فقط المعاملات الخطية لخبراء MoE الموجَّهين، بينما يبقى الخبير المشترك والانتباه بدقة BF16، وهو تكميم انتقائي يحافظ على الدقة شبه ثابتة مقابل خط أساس FP8. نستعرض استراتيجية التكميم والقياسات المنشورة وأوامر النشر عبر vLLM/SGLang من منظور منصة الخدمة متعددة المستأجرين على K8s لدى ThakiCloud.]]></summary></entry><entry xml:lang="ar"><title type="html">Ornith-1.0: نموذج برمجة مفتوح المصدر يبني سقالات التعلم المعزز بنفسه</title><link href="https://thakicloud.github.io/ar/llmops/ornith-1-self-scaffolding-coding-model/" rel="alternate" type="text/html" title="Ornith-1.0: نموذج برمجة مفتوح المصدر يبني سقالات التعلم المعزز بنفسه" /><published>2026-06-26T00:00:00+09:00</published><updated>2026-06-26T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/ornith-1-self-scaffolding-coding-model</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/ornith-1-self-scaffolding-coding-model/"><![CDATA[<p><img src="/assets/images/ornith-1-self-scaffolding-coding-model-hero.png" alt="صورة تجريدية تجسّد بنية التسقيل الذاتي التي تبني سقالاتها بنفسها" />
<em>صورة تجسّد التعلم المعزز بالتسقيل الذاتي حين يبني النموذج سقالات تدريبه بنفسه.</em></p>

<p>بات التنافس بين نماذج البرمجة مفتوحة الأوزان يتجاوز سؤال “كم تبلغ درجة المعيار؟” إلى سؤال أعمق: “بأي منهجية تدريب تحققت تلك الدرجة؟” <code class="language-plaintext highlighter-rouge">Ornith-1.0</code> الذي أصدرته DeepReinforce في 25 يونيو 2026 هو نموذج تصدّر فيه المنهجية ذاتها العناوين. صُمّم التعلم المعزز فيه ليجعل النموذج يولّد الحلول ويكتب في الوقت ذاته <strong>سقالات التدريب (scaffold)</strong> التي تقود تلك الحلول.</p>

<p>هذا المقال لا يعرض نتائج إعادة تشغيل المعايير بشكل مستقل. تشغيل نموذج بحجم 397B على معايير البرمجة يستلزم عقد GPU متعددة وساعات استدلال، لذا لم يُجرَ ذلك في هذا التحليل الآني. وعليه، فجميع الأرقام الواردة هنا <strong>أرقام أعلنتها DeepReinforce في مواد مفتوحة</strong>، وما يتضارب بين المصادر مُشار إليه بـ<code class="language-plaintext highlighter-rouge">[تقديري]</code>. لم تُخترع أي أرقام.</p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p><code class="language-plaintext highlighter-rouge">Ornith-1.0</code> ليس نموذجاً واحداً، بل عائلة نماذج مفتوحة المصدر متخصصة في البرمجة. تنقسم إلى أربعة أحجام: 9B كثيف، و31B كثيف، و35B Mixture-of-Experts (MoE)، و397B MoE الرائد، وجميعها بترخيص MIT منشور على نطاق <code class="language-plaintext highlighter-rouge">deepreinforce-ai</code> في Hugging Face وجاهز للتنزيل الفوري. إلى جانبها نسخ مكمّمة: 9B و35B بصيغة GGUF، و35B و397B بصيغة FP8، مما يدل على أن طيف النشر (من GPU فردي على الحافة إلى عقد متعددة في مراكز البيانات) كان مقصوداً منذ البداية.</p>

<p>من منظور ThakiCloud، يبرز أمران فوراً: الترخيص وإمكانية الاستضافة الذاتية. MIT لا يفرق بين التجاري وغير التجاري، ولا يحمل أي عبء قانوني من الشروط الفيروسية أو البنود غير التجارية. للمؤسسات الراغبة في تشغيل عوامل برمجة على بنيتها التحتية الخاصة دون إرسال الكود إلى واجهات برمجة خارجية، هذا الترخيص هو الجواب الأكثر وضوحاً بـ”نعم”.</p>

<p>يمكن تلخيص جوهر النموذج في جملة واحدة: <strong>لا تتعلم Ornith-1.0 في مرحلة التعلم المعزز الحلولَ وحسب، بل تتعلم أيضاً السقالات المهمية التي تقود تلك الحلول.</strong> ومعالجة السقالة بوصفها هدفاً يتطور عوضاً عن كونها أداة ثابتة هي الفارق عن نماذج RL البرمجية الأخرى.</p>

<p>وصف التغريدة الأصلية للنموذج بأنه “أول نموذج مفتوح المصدر من مختبر أمريكي يبرمج على مستوى الحدود.” غير أن مقر DeepReinforce لم يتحقق بشكل مستقل من المصادر المفتوحة، لذا يُركز هذا المقال على الآليات القابلة للتحقق والأرقام المعلنة، لا على أُطر الجنسية.</p>

<h2 id="ما-هذا-النموذج">ما هذا النموذج؟</h2>

<p><code class="language-plaintext highlighter-rouge">Ornith-1.0</code> مبني على تدريب ما بعد التدريب المسبق (post-training) فوق نماذج أساس مدرّبة مسبقاً. أعلنت DeepReinforce أنها استخدمت Gemma 4 وعائلة Qwen 3.5 كأساس، أي أن الأمر لا يتعلق بتدريب مسبق من الصفر، بل بتطبيق <strong>تعلم معزز مخصص</strong> على قواعد مفتوحة قوية لرفع قدرات البرمجة. يتشابه هذا مع ما تفعله NVIDIA حين تعيد توزيع نماذج جهات خارجية مكمّمة، أي مبدأ “القاعدة أصل مشترك، والتمييز في ما بعد التدريب”، وهو نمط تقسيم عمل بارز في المنظومة المفتوحة الراهنة.</p>

<p>النموذج في جوهره نموذج استدلال (reasoning). يفتح استجاباته بكتلة <code class="language-plaintext highlighter-rouge">&lt;think&gt; … &lt;/think&gt;</code> ليطوّر عملية التفكير أولاً قبل إعطاء الإجابة النهائية. وصفة الخدمة المعلنة توجّه إلى تفعيل محلل reasoning يفصل عملية التفكير في حقل <code class="language-plaintext highlighter-rouge">reasoning_content</code> مستقل، ومحلل tool-call يعرض كتل استدعاء الأدوات بصيغة <code class="language-plaintext highlighter-rouge">tool_calls</code> متوافقة مع OpenAI. القصد التصميمي واضح: يُوصل مباشرة في حلقات العوامل. أقصى طول للسياق هو 262,144 رمز، وهو طول يستهدف مهام البرمجة ذات الأفق الطويل التي تدفع فيها مستودعات كاملة دفعة واحدة.</p>

<p>DeepReinforce ليست وافداً جديداً على التعلم المعزز. <code class="language-plaintext highlighter-rouge">CUDA-L1</code> الصادر عام 2025 استخدم التعلم المعزز لتحسين نواة CUDA تلقائياً، وأفاد بتسارع متوسط 3.12× وتسارع ذروة يبلغ عشرات الأضعاف على مهام GPU متعددة. الخط البحثي المتواصل القائل “اجعل الكود/النواة تحسّن نفسها بالتعلم المعزز” يمتد الآن إلى هذا النموذج البرمجي.</p>

<h2 id="الجوهر-تعلم-معزز-بتسقيل-ذاتي">الجوهر: تعلم معزز بتسقيل ذاتي</h2>

<p>في معظم تدريب RL العاملاتي، يُثبّت البشر السقالة (بنية التوجيه، واتفاقيات استخدام الأدوات، وإطار تحليل المهمة) ثم تتعلم السياسة ضمنها فحسب. إن كانت السقالة جيدة ارتفعت الدرجات، وإن كانت رديئة صطدمت السياسة بسقف بمعزل عن جودتها. والمشكلة أن السقالة المثالية تختلف من مهمة إلى أخرى. تتجاوز Ornith-1.0 ذلك بأن ترفع السقالة من <strong>ثابت</strong> إلى <strong>متغيّر قابل للتعلم</strong>.</p>

<p>وفق وصف DeepReinforce، تسير كل خطوة RL في مرحلتين: أولاً يقترح النموذج <strong>سقالة مكيّفة</strong> شرطياً بالمهمة المعطاة، ثم يولّد <strong>طرح حل (rollout)</strong> شرطياً بتلك السقالة. يُنشر مكسب المكافأة على كلتا المرحلتين، أي أن “أي سقالة بُنيت؟” و”ماذا حُلّ فوقها؟” كلاهما يُقيَّم ويُحسَّن معاً. السقالة تصبح هدفاً يتطور بالتزامن مع السياسة.</p>

<pre><code class="language-mermaid">flowchart LR
    T["المهمة (Task)"] --&gt; S1
    subgraph RLSTEP["خطوة RL (مرحلتان)"]
      direction TB
      S1["المرحلة 1: اقتراح السقالة&lt;br/&gt;(شرطي بالمهمة)"] --&gt; S2["المرحلة 2: طرح الحل&lt;br/&gt;(شرطي بالسقالة)"]
    end
    S2 --&gt; R["المكافأة (reward)"]
    R -. "ينتشر إلى السقالة" .-&gt; S1
    R -. "ينتشر إلى السياسة" .-&gt; S2
    S1 -. "تطور مشترك" .- S2
</code></pre>

<p>أهمية هذا التصميم تتجلى في وجهين: أولاً يزول عنق الزجاجة المتمثل في ضبط السقالات يدوياً من قِبل البشر، فحتى لو تغيّر توزيع المهام يعيد النموذج بناء سقالاته. ثانياً لأن السقالة معرّضة مباشرة لإشارة المكافأة، يمكن تصحيح نمط الفشل الشائع “السياسة سليمة لكن السقالة رديئة فتضيع الدرجات” داخل حلقة التعلم ذاتها. يتشابه هذا مع فكرة <a href="https://thakicloud.github.io/ar/llmops/">نمط Loop Engineering</a> حين تُستخدم أدوات خارجية (مترجمات، اختبارات) إشارةً للمكافأة، مع خطوة إضافية: <strong>السقالة ذاتها</strong> أصبحت هدفاً تلقى المكافأة.</p>

<h2 id="المعايير-المعلنة">المعايير المعلنة</h2>

<p>الأرقام الرائدة التي أعلنتها DeepReinforce لنموذجها الأكبر هي كالتالي. جميعها بحسب إعلان الشركة ولم تُعاد نسخها في بيئتنا.</p>

<table>
  <thead>
    <tr>
      <th>المعيار</th>
      <th>Ornith-1.0-397B</th>
      <th>للمقارنة</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>SWE-Bench Verified</td>
      <td>82.4</td>
      <td>Claude Opus 4.8: 87.6 (الوحيد الذي يتفوق في القائمة)</td>
    </tr>
    <tr>
      <td>Terminal-Bench 2.1</td>
      <td>77.5</td>
      <td>الأعلى بين نماذج مفتوحة المصدر من حجم مماثل وفق الإعلان</td>
    </tr>
    <tr>
      <td>SWE-Bench Pro</td>
      <td>62.2 <code class="language-plaintext highlighter-rouge">[تقديري]</code></td>
      <td>تباين بين المصادر</td>
    </tr>
  </tbody>
</table>

<p>تدّعي DeepReinforce تحقيق أعلى أداء بين النماذج مفتوحة المصدر من الحجم ذاته على Terminal-Bench 2.1 وSWE-Bench وNL2Repo وOpenClaw. ويبرز تحديداً أن 35B MoE يتفوق على بعض النماذج الأكبر حجماً، ما يُفسَّر بأن ندرة MoE مقترنة بما بعد التدريب التسقيلي الذاتي ترفع الكفاءة نسبةً إلى عدد المعاملات النشطة. بيد أن معايير SWE-Bench تتفاوت تفاوتاً كبيراً بين نسخها (Verified/Pro/الأصلية)، والمقارنة المباشرة دون التحقق من النسخة المستخدمة ضربٌ من المجازفة، ولهذا وُضعت قيمة SWE-Bench Pro بعلامة <code class="language-plaintext highlighter-rouge">[تقديري]</code>.</p>

<p>أهم ما يلفت انتباه المشغّل ليس الأرقام ذاتها، بل أن <strong>مصدرها آلية مُعلنة</strong>. أرقام النماذج المغلقة لا يمكن إعادة إنتاجها، أما الأوزان المُرخّصة بـMIT والوصف التدريبي المنشور فإنهما يفتحان باب التحقق المستقل.</p>

<h2 id="التثبيت-والخدمة">التثبيت والخدمة</h2>

<p>صُمّمت Ornith-1.0 لتعمل مباشرة على مكدسات الاستدلال القياسية. منطق تدرّج التحقق ينطبق هنا: ابدأ بالأصغر. صُمّم 9B للعمل على GPU فردي، وهو نقطة انطلاق مناسبة لاختبار تكامل أنابيب العمل.</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="c"># تنزيل الأوزان من Hugging Face (مثال: 9B)</span>
huggingface-cli download deepreinforce-ai/Ornith-1.0-9B <span class="se">\</span>
  <span class="nt">--local-dir</span> ./ornith-1.0-9b
</code></pre></div></div>

<p>بما أنه نموذج استدلال واستدعاء أدوات في آن، يلزم عند الخدمة تفعيل محلل reasoning ومحلل tool-call معاً ليُفصلا عملية التفكير واستدعاءات الأدوات في حقول منظّمة. الشكل النموذجي لتشغيل vLLM هو الآتي، وأسماء المحللات الدقيقة تُرجع إلى بطاقة النموذج.</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="c"># خدمة vLLM (شكل نموذجي، أسماء المحللات تتبع بطاقة النموذج)</span>
vllm serve deepreinforce-ai/Ornith-1.0-9B <span class="se">\</span>
  <span class="nt">--max-model-len</span> 262144 <span class="se">\</span>
  <span class="nt">--enable-auto-tool-choice</span> <span class="se">\</span>
  <span class="nt">--tool-call-parser</span> &lt;محدد في بطاقة النموذج&gt; <span class="se">\</span>
  <span class="nt">--reasoning-parser</span> &lt;محدد في بطاقة النموذج&gt;
</code></pre></div></div>

<p>عند تشغيل 397B MoE الرائد، الذاكرة هي العائق الأول. لذا نُشرت نسخة FP8 (<code class="language-plaintext highlighter-rouge">Ornith-1.0-397B-FP8</code>) منذ البداية: تخفّض ذاكرة الأوزان بنسبة النصف مقارنة بـBF16، مما يقلص عدد العقد ودرجة التوازي الموتّري. أما 35B MoE فهو نقطة التوازن المثلى التي يمثّل فيها MoE ميزته الجوهرية “معاملات نشطة أقل، طاقة معرفية أكبر”، وهو مرشح واقعي للخدمة على عقدة واحدة بـGPU متعدد.</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="c"># 397B: نسخة FP8 مع توازي موتّري للتعامل مع جدار الذاكرة (هيكل إرشادي)</span>
vllm serve deepreinforce-ai/Ornith-1.0-397B-FP8 <span class="se">\</span>
  <span class="nt">--tensor-parallel-size</span> 8 <span class="se">\</span>
  <span class="nt">--max-model-len</span> 262144 <span class="se">\</span>
  <span class="nt">--enable-auto-tool-choice</span>
</code></pre></div></div>

<h2 id="التطبيق-والدلالات-على-منصة-thakicloud-لـk8s-aiml-saas">التطبيق والدلالات على منصة ThakiCloud لـK8s AI/ML SaaS</h2>

<p>تُجدوِل منصة ThakiCloud للذكاء الاصطناعي أحمال GPU عبر Kueue فوق K8s، وتخدم الاستدلال متعدد المستأجرين عبر vLLM، وتُشغّل عوامل متعددة المستأجرين. نموذج كـOrnith-1.0 ذو صلة بهذا المكدس في ثلاثة محاور:</p>

<p>أولاً <strong>السيادة على نموذج عوامل البرمجة الداخلية</strong>. الكود من أكثر الأصول حساسية. الطلب على تشغيل عوامل برمجة داخل البنية التحتية الخاصة أو المستأجر المخصص دون إرسال الكود إلى واجهات برمجة مغلقة حاجةٌ كبرى في البيئات المقيّدة بمتطلبات تداول البيانات كالقطاع المالي والحكومي والدفاعي. رخصة MIT مع أوزان قابلة للاستضافة الذاتية هي الإجابة الدقيقة على هذا الطلب. سياق 262K والإخراج بصيغة <code class="language-plaintext highlighter-rouge">tool_calls</code> المتوافقة مع OpenAI تتيح استبدال النموذج الأساسي في حلقات عوامل قائمة دون إعادة هندسة.</p>

<p>ثانياً <strong>طيف الأحجام يتوافق مع حسابات التكلفة متعددة المستأجرين</strong>. يمكن توزيع الأدوار: 9B للمهام المساعدة الخفيفة أو مستويات المستأجرين المنخفضة التكلفة، و35B MoE كنموذج الخدمة الرئيسي بكفاءة عالية للمعاملات النشطة، و397B لأحواض المهام الصعبة حصراً. في بيئة تجدوِل GPU عبر Kueue، تحويل “أي حجم لأي مستأجر بأي أولوية” مباشرةً إلى تكلفة وحدة. امتلاك خيار الحجم في عائلة واحدة يعني المرونة التشغيلية وتحسين التكلفة في آنٍ.</p>

<p>ثالثاً <strong>المنهجية التسقيلية الذاتية تطرح دلالة أعمق لنا</strong>. تُشغّل ThakiCloud عوامل متخصصة بالنطاق لعملاء متعددين. تكلفة ضبط السقالات يدوياً لكل مهمة ترتفع خطياً مع تضاعف النطاقات. فكرة “رفع السقالة إلى هدف قابل للتعلم” هي نمط يمكن اقتباسه مباشرة حين تصمّم أنابيب عمل داخلية لتحسين توجيهات عوامل النطاق واتفاقيات الأدوات تلقائياً بإشارة المكافأة، بدلاً من الاعتماد على ضبط بشري في كل مرة. حتى لو لم تُعتمد الأوزان ذاتها، الآلية قابلة للزرع في محرك سير عمل داخلي.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>أبرز القيود هو <strong>التناظر اللامتكافئ في التحقق</strong>. الأوزان والوصف التدريبي منشوران، لكن أرقام المعايير المعلنة قياسات داخلية لم تُعاد نسخها هنا. معايير SWE-Bench تتفاوت تفاوتاً كبيراً بحسب النسخة والتهيئة، والنموذج ذاته يُعطي نتائج مختلفة بحسب درجة الحرارة وإعدادات إعادة المحاولة والبيئة. الانتقال المباشر من هذه الأرقام إلى استنتاج “تجاوز النماذج الحدودية” استنتاجٌ متسرع. قرار التبنّي الفعلي يحتاج تقييماً مستقلاً على عيّنة من قواعد الكود الداخلية.</p>

<p>ثانياً <strong>التكلفة التشغيلية</strong>. 397B MoE جذاب بأرقامه، لكن ذاكرة GPU وعدد العقد المطلوبان حاجزان واقعيان عند الاستضافة الذاتية. نسخة FP8 تخفّف ذلك، لكن المقايضة “مفتوح المصدر إذاً مجاني” لا تصح، والأدق هو “مفتوح المصدر إذاً تكلفة البنية التحتية علينا”. مقارنة تكلفة رمز واجهة البرمجة المغلقة بتكلفة عقدة الاستضافة الذاتية يستلزم تحليلاً بنمط الحمل الفعلي.</p>

<p>ثالثاً <strong>تساؤل التعميم في التسقيل الذاتي</strong>. التصميم القائل بأن النموذج يبني سقالته بنفسه أنيقٌ من حيث المفهوم، لكن ليس هناك تحقق خارجي حتى الآن من أن جودة السقالة لا تتدهور على مهام بعيدة عن توزيع التدريب. لا يمكن استبعاد احتمال أن تكون السقالة قد انحدرت نحو التخصص المفرط في أشكال معايير محددة. هذا مما سيتضح حين تُنشر إعادة إنتاج مستقلة بالأوزان المفتوحة.</p>

<p>خلاصة القول: Ornith-1.0 نموذج يستحق الاهتمام لمنهجيته قبل درجاته. كونه مرخّصاً بـMIT يجعله مرشحاً واقعياً لعوامل البرمجة ذاتية الاستضافة، وآلية التسقيل الذاتي فكرة يستحق اقتباسها في تصميم أنابيب تدريب العوامل سواء اعتُمدت الأوزان أم لا. لكن جميع أرقام المعايير تبقى “أرقاماً مُعلنة” ريثما تخضع للتقييم الذاتي.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>DeepReinforce، “Ornith-1.0: Self-Scaffolding LLMs for Agentic Coding” (يونيو 2026): <a href="https://deep-reinforce.com/ornith_1_0.html">https://deep-reinforce.com/ornith_1_0.html</a></li>
  <li>بطاقات النموذج على Hugging Face: <a href="https://huggingface.co/deepreinforce-ai/Ornith-1.0-397B">https://huggingface.co/deepreinforce-ai/Ornith-1.0-397B</a>، <a href="https://huggingface.co/deepreinforce-ai/Ornith-1.0-9B">https://huggingface.co/deepreinforce-ai/Ornith-1.0-9B</a></li>
  <li>GitHub: <a href="https://github.com/deepreinforce-ai/Ornith-1">https://github.com/deepreinforce-ai/Ornith-1</a></li>
  <li>MarkTechPost، “DeepReinforce Releases Ornith-1.0” (2026-06-25): <a href="https://www.marktechpost.com/2026/06/25/deepreinforce-releases-ornith-1-0-an-open-source-coding-model-family-that-learns-its-own-rl-scaffolds/">https://www.marktechpost.com/2026/06/25/deepreinforce-releases-ornith-1-0-an-open-source-coding-model-family-that-learns-its-own-rl-scaffolds/</a></li>
  <li>Tech Times (2026-06-26): <a href="https://www.techtimes.com/articles/319122/20260626/open-source-coding-model-ornith-10-writes-its-own-training-scaffold-reinforcement-learning.htm">https://www.techtimes.com/articles/319122/20260626/open-source-coding-model-ornith-10-writes-its-own-training-scaffold-reinforcement-learning.htm</a></li>
  <li>DeepReinforce، CUDA-L1 (بحث سابق): <a href="https://deepreinforce-ai.github.io/cudal1_blog/">https://deepreinforce-ai.github.io/cudal1_blog/</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="ornith" /><category term="deepreinforce" /><category term="reinforcement-learning" /><category term="coding-agent" /><category term="self-scaffolding" /><category term="open-weights" /><category term="vllm" /><category term="moe" /><summary type="html"><![CDATA[Ornith-1.0 الصادر عن DeepReinforce في 25 يونيو 2026 هو عائلة نماذج برمجة مفتوحة المصدر تعتمد آلية التسقيل الذاتي (self-scaffolding)، حيث يكتب النموذج بنفسه سقالات التدريب بالتعلم المعزز. أربعة أحجام: 9B و31B كثيفان و35B و397B MoE، رخصة MIT، سياق 262K، وSWE-Bench Verified 82.4، مع تحليل من منظور خدمة الاستدلال متعدد المستأجرين وعوامل البرمجة الذاتية على K8s في ThakiCloud.]]></summary></entry><entry xml:lang="ar"><title type="html">ذاكرة الوكيل أصبحت الآن نظام بيانات: تحليل Agent-Native Memory من منظور إدارة البيانات</title><link href="https://thakicloud.github.io/ar/research/agent-native-memory-system/" rel="alternate" type="text/html" title="ذاكرة الوكيل أصبحت الآن نظام بيانات: تحليل Agent-Native Memory من منظور إدارة البيانات" /><published>2026-06-26T00:00:00+09:00</published><updated>2026-06-26T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/agent-native-memory-system</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/agent-native-memory-system/"><![CDATA[<p><img src="/assets/images/agent-native-memory-system-hero.png" alt="صورة تجريدية تُظهر بيانات طبقية تتدفق عبر بنية شبكية تجمع بين الشبكات العصبية وقواعد البيانات، مع خلايا ذاكرة تتشكل وتتلاشى" /></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>من عمل مع وكلاء LLM لفترة كافية، يصطدم حتماً بالجدار ذاته: الوكيل يُجيب بكفاءة على الاستفسارات الفردية، لكنه حين يواجه مهام ممتدة لأيام أو سياقات تتقاطع عبر جلسات متعددة، ينسى ما فعله. من هنا ظهر مفهوم “ذاكرة الوكيل”، الذي بدأ في صورته الأولى مجرد تنويع على RAG: تخزين المحادثة في مخزن متجهي ثم استرجاعها.</p>

<p>غير أن ورقة arXiv المنشورة في 23 يونيو 2026 بعنوان <a href="https://arxiv.org/abs/2606.24775">Are We Ready For An Agent-Native Memory System?</a> تطرح منظوراً يمكن تلخيصه في جملة واحدة: ذاكرة الوكيل لم تعد أداةً للتعزيز بالاسترجاع، بل تطورت لتصبح <strong>نظام إدارة بيانات متكاملاً (data management system)</strong> يتولى التخزين الدائم والاسترجاع والتحديث والدمج وإدارة دورة الحياة الديناميكية معاً. هذه الورقة هي التي لخّصها dair_ai بالقول: “ذاكرة الوكيل أصبحت الآن نظام بيانات”.</p>

<p>أهمية هذا المنظور بالنسبة لمن يُشغّل وكلاء متعددي المستأجرين فوق Kubernetes كما تفعل ThakiCloud، أن الذاكرة تتحول من “ميزة” إلى “نظام تشغيلي”، وهذا يستتبع فوراً قرارات تتعلق بالتكلفة والمتانة والهندسة المعمارية. تستند هذه المقالة إلى الملخص الرسمي للورقة و<a href="https://github.com/OpenDataBox/MemoryData">الكود المنشور</a> لاستخلاص الحجج الجوهرية وما يمكن أن تُفيد به منصتنا.</p>

<blockquote>
  <p>📄 <strong>المراجعة المتعمقة الكاملة (DOCX)</strong>: <a href="https://drive.google.com/file/d/1wLivKobOMtAKQ1zwCmG-O8wdebyZRbcz/view">نزّل المراجعة التفصيلية من Google Drive</a>.</p>
</blockquote>

<h2 id="ما-الذي-تبحثه-هذه-الدراسة">ما الذي تبحثه هذه الدراسة؟</h2>

<p>إشكالية الورقة بسيطة لكنها حادة: كانت طرق تقييم ذاكرة الوكيل حتى الآن تقتصر في معظمها على <strong>مقاييس النجاح الشامل من طرف إلى طرف (end-to-end)</strong>. درجات مثل F1 أو BLEU تُجيب فقط على “هل أجاب الوكيل بصورة صحيحة؟”، فيما يبقى النظام الداخلي للذاكرة التي أنتجت تلك الإجابة صندوقاً أسود مغلقاً.</p>

<p>ينتج عن ذلك غياب الإجابات عن أسئلة جوهرية يحتاجها المشغّل: ما <strong>التكلفة التشغيلية</strong> للحفاظ على الذاكرة؟ ما <strong>مقايضات البنية المعمارية</strong> التي تترتب على طريقة تركيب الوحدات؟ وما مستوى <strong>المتانة</strong> حين تتبدل المعرفة باستمرار؟ لا تستطيع درجة واحدة الإجابة عن أي من هذه التساؤلات.</p>

<p>لذلك أجرى المؤلفون، وهم Wei Zhou وXuanhe Zhou وGuoliang Li وZhiyu Li وFeiyu Xiong وآخرون، ولافتٌ أن في صفوفهم باحثين متخصصين في أنظمة قواعد البيانات مما يشكّل هوية الورقة، تجارب منهجية على الذاكرة <strong>من منظور إدارة البيانات</strong>. ويتجسد هذا في إطار تحليلي يُفكّك ذاكرة الوكيل إلى أربع وحدات جوهرية.</p>

<pre><code class="language-mermaid">flowchart TB
    AE[تنفيذ الوكيل&lt;br/&gt;Agent Execution]
    EX[الاستخراج&lt;br/&gt;Extraction]
    RS["التمثيل والتخزين&lt;br/&gt;Representation &amp; Storage"]
    RR["الاسترجاع والتوجيه&lt;br/&gt;Retrieval &amp; Routing"]
    MA[الصيانة&lt;br/&gt;Maintenance]
    RF[دقة التمثيل&lt;br/&gt;Representation Fidelity]
    RP[دقة الاسترجاع&lt;br/&gt;Retrieval Precision]
    UC[دقة التحديث&lt;br/&gt;Update Correctness]
    LS[الاستقرار طويل الأمد&lt;br/&gt;Long-horizon Stability]

    AE --&gt;|كتابة| EX
    EX --&gt; RS
    RS --&gt;|قراءة| RR
    RR --&gt; AE
    RS -.دمج.-&gt; MA
    MA --&gt; RS
    RS --&gt; RF
    RR --&gt; RP
    MA --&gt; UC
    MA --&gt; LS
</code></pre>

<p><em>البنية المعمارية للوحدات الأربع لنظام الذاكرة الأصيل للوكيل وتدفقات بياناتها. انقر المخطط لتكبيره.</em></p>

<p>الوحدات الأربع هي:</p>

<ol>
  <li><strong>التمثيل والتخزين (Representation &amp; Storage)</strong>: بأي شكل تُحفظ الذكريات وأين تُخزّن؟ طريقة التمثيل، متجهات أو رسوم بيانية أو أشجار أو نص عادي، تُحدد مباشرةً <strong>دقة التمثيل (representation fidelity)</strong>.</li>
  <li><strong>الاستخراج (Extraction)</strong>: مرحلة انتقاء ما يستحق التذكر خلال تنفيذ الوكيل. لا يمكن تخزين كل الرموز، فهنا يُفرز الإشارة من الضجيج.</li>
  <li><strong>الاسترجاع والتوجيه (Retrieval &amp; Routing)</strong>: مرحلة الوصول إلى الذكرى الصحيحة في اللحظة المناسبة وإعادتها عبر المسار الملائم. يتجلى هنا مقياس <strong>دقة الاسترجاع (retrieval precision)</strong>.</li>
  <li><strong>الصيانة (Maintenance)</strong>: مرحلة دمج الذكريات القديمة وتحديثها وتنظيفها. هنا تُحدَّد <strong>دقة التحديث (update correctness)</strong> و<strong>الاستقرار طويل الأمد (long-horizon stability)</strong>.</li>
</ol>

<p>من يعرف قواعد البيانات لن يجد هذا الإطار غريباً: التمثيل والتخزين يوازيان محرك التخزين، والاستخراج يوازي خط أنابيب الاستيعاب، والاسترجاع والتوجيه يوازيان مخطط الاستعلام، والصيانة توازي الضغط وجمع البيانات المهملة. في هذا التوازي تكمن الدلالة التي تُسمّيها الورقة “منظور إدارة البيانات”.</p>

<h2 id="الاكتشافات-الجوهرية">الاكتشافات الجوهرية</h2>

<p>تُقيّم الورقة على هذا الإطار <strong>12 نظام ذاكرة تمثيلياً و2 خطوط أساسية مرجعية</strong> عبر <strong>5 أعباء عمل معيارية و11 مجموعة بيانات</strong>. قياس أنظمة متعددة بمقياس موحّد، لا نموذج واحد ولا مجموعة بيانات واحدة، هو ما يمنح هذه الدراسة ثقلها. ثمة ثلاثة استنتاجات يمكن استخلاصها مباشرةً من الملخص.</p>

<p><strong>أولاً، لا توجد بنية واحدة تُهيمن على جميع الحالات.</strong> الإجابة عن سؤال “أيّ بنية ذاكرة هي الأفضل؟” هي “يتوقف الأمر”. والأدق: تكمن الفاعلية في مدى توافق بنية الذاكرة مع <strong>عنق الزجاجة في عبء العمل (workload bottleneck)</strong>. البنية المثلى لعبء عمل يُشكّل فيه الاسترجاع عنق الزجاجة تختلف عنها في عبء عمل تكون فيه عمليات التحديث هي العائق. هذا يدحض مباشرةً الوصفات المبسّطة من قبيل “ذاكرة الرسم البياني هي الأفضل دائماً” أو “يكفي مخزن المتجهات”.</p>

<p><strong>ثانياً، تفكيك الوحدات يكشف مواطن المسؤولية بدقة.</strong> يُكمّي المؤلفون عبر تجارب استئصال (ablation) دقيقة الأثرَ المنفرد لكل وحدة على دقة التمثيل ودقة الاسترجاع ودقة التحديث والاستقرار طويل الأمد. ما كان مختبئاً في درجة شاملة واحدة، “أيّ الوحدات تُفسد ماذا”، يصبح ظاهراً للعيان. من منظور التشغيل، هذه هي القيمة الحقيقية: حين تُعطي الذاكرة إجابة خاطئة، يجب أن نتمكن من تحديد ما إذا كانت المشكلة في الاستخراج أم في الاسترجاع حتى يمكن الإصلاح.</p>

<p><strong>ثالثاً، تُبرز الصيانة مقايضات واضحة بين التكلفة والأداء.</strong> في أعباء العمل الواقعية، تُظهر النتائج أن <strong>الصيانة المحلية (localized maintenance) أكثر كفاءةً من الإعادة الشاملة للتنظيم (global reorganization)</strong>. معالجة الأجزاء المتغيرة فقط أقل تكلفةً من إعادة بناء الذاكرة بأكملها دورياً، وهي الحدسية ذاتها التي تجعل الضغط التدريجي في قواعد البيانات أرخص من إعادة البناء الكاملة. في الخدمات الحساسة للتكلفة، يمكن لهذا السطر الواحد أن يُغيّر قرارات التصميم.</p>

<p>خلاصة القول: لا تقدّم هذه الورقة وصفةً لـ”كيفية بناء ذاكرة وكيل أفضل”، بل تضع <strong>إطاراً لقياس ذاكرة الوكيل ومقارنتها بوصفها نظاماً</strong>. وعلى هذا الإطار تُثبت غياب الحل الواحد الأمثل، وتكشف أن توافق عبء العمل وتكاليف الصيانة هما الرافعتان الحقيقيتان.</p>

<h2 id="الدلالات-والتطبيقات-على-منصة-thakicloud-k8s-aiml-saas">الدلالات والتطبيقات على منصة ThakiCloud K8s AI/ML SaaS</h2>

<p>تُشغّل منصة ThakiCloud للذكاء الاصطناعي وكلاء متعددي المستأجرين فوق Kubernetes، وثمة نقاط اتصال مباشرة بين منظور هذه الورقة وواقع منصتنا.</p>

<p><strong>اعتبار الذاكرة نظام بيانات يُدار لكل مستأجر.</strong> إذا كانت ذاكرة الوكيل نظام إدارة بيانات، فهذا يعني أن لكل مستأجر تكاليف تخزين ومواعيد استجابة وأحمال تحديث مستقلة تستوجب الإدارة. في بيئة متعددة المستأجرين، ضمان ألا تمتص صيانة ذاكرة مستأجر واحد موارد GPU أو I/O مستأجرين آخرين هو مشكلة من الطراز ذاته الذي نُعالجه بـKueue حين نُجدوّل أحمال GPU ونعزلها. الذاكرة أيضاً ينبغي أن تُعامَل بوصفها “عبء عمل له ميزانية موارد” لا “ميزة”.</p>

<p><strong>تصميم لا يفرض بنية ذاكرة واحدة.</strong> خلاصة “لا توجد بنية واحدة تُهيمن على جميع الحالات” تعني أن المنصة ينبغي ألا تُثبّت واجهة خلفية واحدة للذاكرة، بل توفر <strong>تجريداً يتيح استبدال بنية الذاكرة وإعادة تكوينها بحسب عبء العمل</strong>. حسب ما إذا كان وكيل العميل يتعامل مع محادثات طويلة الأمد أو تحديثات معرفية متكررة، يجب إمكانية التبديل بين بنية تُركّز على الاسترجاع وأخرى تُركّز على الصيانة. التفكيك إلى أربع وحدات يُشكّل حدود التجريد القابلة للاستبدال بصورة طبيعية.</p>

<p><strong>أصول من منظور التشغيل المحلي وكفاءة التكلفة.</strong> نتيجة أن الصيانة المحلية أرخص من إعادة التنظيم الشاملة بالغة الأهمية خاصةً للعملاء الذين يستضيفون بنيتهم محلياً. إنها توفر مبدأ تصميم يُمكّنهم من التحكم في تكاليف صيانة الذاكرة ضمن ميزانية GPU وتخزين محدودة دون التبعية لخدمات الذاكرة الخارجية المُدارة. في بيئات العملاء التي تحول فيها متطلبات السيادة الرقمية أو أمن البيانات دون استخدام واجهات API خارجية، تُصبح القدرة على “التنبؤ بتكاليف الذاكرة والتحكم فيها داخل المجموعة الخاصة” ميزةً تنافسية قائمة بذاتها.</p>

<p>ثمة خطوتان عمليتان يمكننا اتخاذهما الآن: الأولى اتخاذ تفكيك الوحدات الأربع وتصنيف أعباء العمل من <a href="https://github.com/OpenDataBox/MemoryData">كود MemoryData</a> نقطةَ انطلاق لقياس ذاكرة المستأجرين بمقاييس لكل وحدة (دقة التمثيل / دقة الاسترجاع / دقة التحديث / الاستقرار طويل الأمد) بدلاً من درجة شاملة واحدة. الثانية تصميم سياسة الصيانة بحيث تُعطى الأولوية للتحديث المحلي على إعادة التنظيم الشاملة، مما يُرسّخ سقفاً للتكلفة في مرحلة التصميم ذاتها.</p>

<h2 id="القيود-والانتقادات">القيود والانتقادات</h2>

<p>للموضوعية، ثمة نقاط ينبغي مراعاتها قبل تبنّي هذا البحث على علّاته.</p>

<p>أولاً، <strong>هذه ورقة قياسية وليست اقتراحاً لنظام ذاكرة جديد.</strong> من يتوقع خارطة طريق لـ”كيفية بناء ذاكرة أفضل” قد يخيب ظنه؛ ما يُقدَّم هو إطار مقارنة وتشخيص، وتُشار إلى “اتجاهات واعدة نحو ذاكرة أصيلة للوكيل” لكن التنفيذ يبقى مهمةً لأبحاث لاحقة.</p>

<p>ثانياً، <strong>محدودية التعميم في المعيار.</strong> 5 أعباء عمل و11 مجموعة بيانات ليست قليلة، لكن النطاق الذي يواجهه الوكيل فعلياً أوسع بكثير. خلاصة “يتفاوت الأمثل بحسب عنق الزجاجة في عبء العمل” تعني ضمنياً أنه إذا اختلف توزيع أعباء عمل عملائنا الفعلية عن توزيع هذا المعيار، فلن تنتقل التصنيفات الواردة في الورقة مباشرةً إلى سياقنا. القياس في كل بيئة نشر على حدة يبقى ضرورياً.</p>

<p>ثالثاً، <strong>التحيز المحتمل الناجم عن تركيبة المؤلفين.</strong> ميل المؤلفين نحو أنظمة قواعد البيانات يُقوّي إطار “رؤية الذاكرة كإدارة بيانات”، لكنه قد يُضعف الإضاءة على المنظورات الأخرى كالذاكرة الإبيسودية أو إدارة الذاكرة القائمة على تعلم السياسات. إدارة البيانات عدسة قوية، لكنها ليست العدسة الوحيدة.</p>

<p>بالرغم من ذلك، رسالة الورقة الجوهرية، “اقيس ذاكرة الوكيل بوصفها نظاماً”، لا يسهل دحضها بالنسبة لمنصة كمنصتنا تضطر فعلاً إلى تشغيل هذه الذاكرة. حين تبدأ برؤية الذاكرة بمنظور الوحدات والتكاليف لا الدرجات، يصبح ما يمكن إصلاحه مرئياً للمرة الأولى.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>الورقة: <a href="https://arxiv.org/abs/2606.24775">Are We Ready For An Agent-Native Memory System? (arXiv 2606.24775)</a></li>
  <li>HF Papers: <a href="https://hf.co/papers/2606.24775">hf.co/papers/2606.24775</a></li>
  <li>الكود المنشور: <a href="https://github.com/OpenDataBox/MemoryData">github.com/OpenDataBox/MemoryData</a></li>
  <li>السياق الأصلي: dair_ai، “Agent memory is a data system now”</li>
</ul>

<blockquote>
  <p>📄 <strong>المراجعة المتعمقة الكاملة (DOCX)</strong>: <a href="https://drive.google.com/file/d/1wLivKobOMtAKQ1zwCmG-O8wdebyZRbcz/view">نزّل المراجعة التفصيلية من Google Drive</a>.</p>
</blockquote>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="agent-memory" /><category term="llm-agent" /><category term="data-management" /><category term="long-term-memory" /><category term="retrieval" /><category term="benchmark" /><category term="on-premise" /><summary type="html"><![CDATA[تتناول ورقة arXiv 2606.24775 بعنوان 'Are We Ready For An Agent-Native Memory System?' ذاكرة وكلاء LLM باعتبارها نظام إدارة بيانات متكاملاً لا مجرد RAG، وتُفكّك 12 نظام ذاكرة إلى 4 وحدات وتقيسها. نستعرض هنا الحجج الجوهرية ودلالاتها من منظور منصة ThakiCloud، استناداً إلى الملخص الرسمي والكود المنشور.]]></summary></entry></feed>