<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-06-23T18:44:59+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ar"><title type="html">Sakana Fugu: عصر التنسيق حيث تقود النماذج النماذج</title><link href="https://thakicloud.github.io/ar/agentops/sakana-fugu-orchestration-model/" rel="alternate" type="text/html" title="Sakana Fugu: عصر التنسيق حيث تقود النماذج النماذج" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/agentops/sakana-fugu-orchestration-model</id><content type="html" xml:base="https://thakicloud.github.io/ar/agentops/sakana-fugu-orchestration-model/"><![CDATA[<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>على مدار السنوات الماضية، قامت قفزات الذكاء الاصطناعي في مجملها على قوة الحجم: تدريب نماذج أضخم على بيانات أوفر، والتنافس بنموذج أحادي ضخم. غير أن المشكلات الحقيقية الصعبة تستدعي معرفةً ومهاراتٍ متنوعة تتخطى بمراحل أي معيار مقاييس منفرد. تحديد النموذج الأنسب لكل مهمة، والفصل بين التخطيط والتنفيذ، والجمع بين نقاط قوة نماذج مختلفة – الذكاء الجمعي – يبرز بوصفه محور المنافسة القادمة.</p>

<p>في الثاني والعشرين من يونيو 2026، أطلقت Sakana AI ومقرها طوكيو منتجَها <strong>Sakana Fugu</strong> مستهدفةً هذا التحول بدقة. Fugu نظام وكلاء متعدد يُنسق نماذج LLM متعددة ديناميكيًا، بينما تظهر للمستخدم على شكل واجهة برمجة نموذج واحد. الجانب اللافت أن Fugu بحد ذاته “نموذج لغوي مُدرَّب على استدعاء نماذج أخرى.” نموذج يقود نماذج.</p>

<p>يحلل هذا المقال بنية Fugu من منظور ThakiCloud، مشغِّل منصات الوكلاء متعددي المستأجرين. نفحص لماذا يمثل تغليف التنسيق داخل نموذج واحد خيارًا تصميميًا ذا قيمة، وكيف ينبغي قراءة مقاييس الأداء المُعلنة ذاتيًا، وأي تناقضات تكمن في منطق تسويق المنتج القاضي بأنه يقلص التبعية للبائع.</p>

<hr />

<h2 id="ما-هذه-التقنية">ما هذه التقنية</h2>

<p>Sakana Fugu نظام وكلاء متعدد يتصرف كنموذج واحد. حين يرسل المستخدم طلبًا إلى نقطة نهاية واحدة، يقرر Fugu بنفسه كيفية التعامل معه: الطلبات البسيطة يعالجها مباشرة، أما الأعمال الأكثر تعقيدًا فيُوجِّهها إلى فريق من النماذج المتخصصة المُنسَّقة. اختيار النماذج والتفويض والتحقق والتوليف كلها تجري داخليًا، فلا تطفو تعقيدات نظام الوكلاء المتعدد على سطح كود المستخدم.</p>

<p><img src="/assets/images/sakana-fugu-orchestration-model-diagram.png" alt="بنية تنسيق Sakana Fugu: خلف واجهة برمجية واحدة، يُنسق Fugu ديناميكيًا مجموعة وكلاء" /></p>

<p>هذا ممكن لأن Fugu ليس مجموعة قواعد توجيه، بل <strong>نموذج لغوي مُدرَّب على التنسيق ذاته</strong>. يتخصص Fugu في فهم متى يُفوِّض، وكيف تتواصل الوكلاء، وكيف يُدمج نواتجها في إجابة واحدة موثوقة. يستند هذا النهج إلى ورقتَي بحث نشرتهما Sakana AI في ICLR 2026: TRINITY (arXiv:2512.04695) التي تُقدم منسقًا تطوريًا لنماذج LLM، وConductor (arXiv:2512.04388) التي تدرس تعلُّم تنسيق الوكلاء باللغة الطبيعية.</p>

<p>تفصيل تصميمي يستحق الإشارة: يمكن لـ Fugu <strong>استدعاء نُسَخه الخاصة بصورة تكرارية</strong> داخل مجموعة الوكلاء. من الخارج تستدعي نموذجًا واحدًا، ومن الداخل منظومة متخصصة منسقة هي التي تؤدي العمل. صُممت مجموعة الوكلاء لتكون قابلة للاستبدال بهدف معلن هو تقليص الاعتماد على مزود بعينه.</p>

<hr />

<h2 id="البنية-المعمارية-نظام-بيئي-تعاوني-خلف-واجهة-برمجية-واحدة">البنية المعمارية: نظام بيئي تعاوني خلف واجهة برمجية واحدة</h2>

<p>الادعاء المحوري لـ Fugu هو أن “نموذج التنسيق هو الحدود التالية.” منذ تأسيسها، أكدت Sakana AI أن أقوى أنظمة الذكاء الاصطناعي ستكون أنظمة بيئية تعاونية لا نماذج ضخمة معزولة. Fugu هو التجسيد المنتجي لهذا الاعتقاد.</p>

<p>تقنيًا، يعالج Fugu أربع مراحل داخلية ضمن استدعاء واجهة برمجية واحد:</p>

<ul>
  <li><strong>الاختيار (Selection)</strong>: يقرأ طبيعة الطلب ويحدد ما إذا كان سيتولاه مباشرة أم يستعين بنماذج متخصصة.</li>
  <li><strong>التفويض (Delegation)</strong>: يفصل التخطيط عن التنفيذ ويوزع المهام الفرعية على الوكلاء المناسبين.</li>
  <li><strong>التحقق (Verification)</strong>: يراجع ناتج كل وكيل داخليًا.</li>
  <li><strong>التوليف (Synthesis)</strong>: يدمج النتائج في إجابة واحدة متسقة.</li>
</ul>

<p>كل هذا يجري خلف سطر واحد من واجهة برمجية متوافقة مع OpenAI. يتناقض ذلك مع أطر الوكلاء التقليدية التي تُلقي على عاتق المطور تعقيداتٍ من تعريف الرسوم البيانية وتوجيه الرسائل وإدارة الحالة. Fugu محاولة لاستيعاب تلك التعقيدات داخل أوزان النموذج. بالمقارنة مع بنية فرق الوكلاء متعددة الأدوار التي تديرها ThakiCloud فعلًا، يخطو Fugu خطوة إضافية: يجعل المُنسِّق نموذجًا مُدرَّبًا لا شفرة برمجية مكتوبة يدويًا.</p>

<p>تمتلك Sakana AI سوابق تؤيد هذا الاتجاه؛ إذ حل ALE-Agent المنسق البرمجي في المرتبة الحادية والعشرين في مسابقة برمجة شارك فيها ألف خبير بشري. Fugu يمتد من تلك التجربة إلى منتج تنسيق للأغراض العامة.</p>

<hr />

<h2 id="النموذجان-fugu-وfugu-ultra">النموذجان: Fugu وFugu Ultra</h2>

<p>عند الإطلاق، يتوفر Fugu بنموذجين مُصمَّمَين لأحجام عمل مختلفة، ويُمكن الوصول إليهما عبر واجهة برمجية واحدة متوافقة مع OpenAI.</p>

<p><strong>Fugu (الأساسي)</strong> يوازن بين الأداء وانخفاض زمن الاستجابة. يناسب افتراضيًا الخدمات التفاعلية كمساعدة البرمجة ومراجعة الكود وروبوتات المحادثة. يمكن للفرق ذات متطلبات البيانات والخصوصية والامتثال استثناء وكلاء بعينهم من المجموعة. هذه القدرة على الاستثناء ذات قيمة للصناعات المُنظَّمة والعملاء الخاضعين لمتطلبات سيادة البيانات.</p>

<p><strong>Fugu Ultra</strong> مُضبَّط لتعظيم جودة الإجابة في المسائل الصعبة متعددة الخطوات. يستعين بمجموعة أعمق من الوكلاء المتخصصين حين تتقدم الدقة والعمق. أفاد مستخدمون أوائل باستخدامهم Fugu Ultra في مهام كثيفة الاستخدام كأبحاث الذكاء الاصطناعي وإعادة استنساخ الأوراق البحثية وتحليل الأمن السيبراني والبحث في الأدبيات والبراءات.</p>

<p>الفصل بين النموذجين هو آلية تعرض المفاضلة بين التكلفة والجودة للمستخدم. التنسيق ينطوي بطبيعته على استدعاءات نماذج متعددة، فاستعمال مجموعة أعمق يرفع زمن الاستجابة والتكلفة معًا. Fugu يعرض هذه المفاضلة على شكل خطين منتجيين.</p>

<hr />

<h2 id="كيف-تقرأ-معايير-الأداء">كيف تقرأ معايير الأداء</h2>

<p>أعلنت Sakana AI أن Fugu Ultra يُجاري نماذج رائدة كـ Fable 5 وMythos Preview من Anthropic في معايير الأداء الصعبة لمجالات الهندسة والعلوم والاستدلال. هذا الادعاء يستوجب قراءة متأنية.</p>

<p>أولًا، <strong>جميع نتائج خط الأساس باستثناء نتائج Fugu نفسه مصدرها تقارير مزودي النماذج أنفسهم</strong>، لا مقارنة مستقلة خاضعة لشروط موحدة. ثانيًا، أهداف المقارنة – Fable 5 وMythos Preview – غير متاحة للعموم <strong>وغير مدرجة في مجموعة وكلاء Fugu</strong>. أي أن Fugu يدّعي اقتراب أدائه من نموذجين لا يستدعيهما داخليًا. ثالثًا، استُخدم mini-swe-agent scaffolding في تقييم مهام عائلة SWE، ونوع الـ scaffolding يؤثر تأثيرًا ماديًا في النتائج، فلا يمكن اعتبارها مقارنةً في ظروف متكافئة.</p>

<p>في المرحلة الراهنة، تظل قضية “تكافؤ Fugu Ultra مع النماذج الحدية” <strong>ادعاءً قائمًا على تقارير ذاتية</strong>. الأرقام التفصيلية مُجمَّعة في التقرير التقني لـ Sakana AI (github.com/SakanaAI/fugu)، لكن ريثما تتراكم عمليات التحقق المستقلة، التمييز بين الأرقام التسويقية والأداء المُتحقَّق منه أمر لازم. لا يستشهد هذا المقال بأرقام فردية غير مُتحقَّق منها، بل يُسجِّل طبيعة الادعاءات فحسب.</p>

<hr />

<h2 id="الانعكاسات-على-منصة-thakicloud-للذكاء-الاصطناعي-وتعلم-الآلة-على-k8s">الانعكاسات على منصة ThakiCloud للذكاء الاصطناعي وتعلم الآلة على K8s</h2>

<p>التساؤلات التي يطرحها Fugu تتقاطع مع استراتيجية منصة ThakiCloud بدقة. تُشغِّل ThakiCloud وكلاء متعددي المستأجرين في بيئات عملاء متنوعة، وتدير سحابة عمليات وكلاء تُسمى Praxis فوق K8s وجدولة GPU القائمة على Kueue وخدمة vLLM. الأطروحة التي يسعى Fugu لإثباتها – أن “طبقة التنسيق نفسها تصبح منتجًا” – تتجه في الاتجاه ذاته الذي نسلكه.</p>

<p>جوهر المسألة <strong>التحوط ضد التبعية للبائع</strong>. استشهدت Sakana AI بمخاطر الاعتماد على مزود واحد مبررًا لإطلاق Fugu. كما أظهرت قضية ضوابط التصدير المتعلقة بنماذج Fable وMythos من Anthropic، قد تتغير حدود الوصول إلى واجهة برمجية بعينها بين عشية وضحاها جراء التحولات التنظيمية أو السياسات الدبلوماسية. في قطاعات حساسة كالحكومة والمال والبنية التحتية، الاعتماد على واجهة برمجية لشركة واحدة ثغرة حقيقية. هذا المنطق هو ذاته الذي دفع ThakiCloud للتأكيد على التوطين الكامل والاستضافة الذاتية.</p>

<p>من منظور ThakiCloud، يتيح تصميم Fugu استخدامين: الأول هو قيمته بوصفه <strong>تطبيقًا مرجعيًا لأنماط التنسيق</strong>؛ فبنية التوجيه الديناميكي للنماذج المفتوحة المُستضافة ذاتيًا على K8s – بالجمع بين نماذج البرمجة والاستدلال والتخصص الحقلي حسب طبيعة المهمة – فكرة قابلة للتطبيق مباشرة على عمليات وكلاء Praxis. الثاني هو <strong>الامتثال القائم على الاستثناء</strong>: إمكانية استثناء وكلاء بعينهم من المجموعة ترتبط بشكل طبيعي بسياسات تقييد النماذج المسموح بها لكل مستأجر في البيئة متعددة المستأجرين.</p>

<p>غير أن نقاط التمايز التي تمتلكها ThakiCloud عن Fugu واضحة. Fugu واجهة برمجية مغلقة، بينما تقدم ThakiCloud مسارًا <strong>لاستضافة طبقة التنسيق ذاتيًا داخل بيئة العميل</strong>. للعملاء المحليين الذين يجب عليهم معالجة متطلبات السيادة وكفاءة التكلفة والأمن القومي، يُعدّ خيار “وضع التنسيق داخل مجموعتنا الخاصة” فارقًا حاسمًا. ضبط نموذج مفتوح بمستوى Qwen3 لحقل متخصص ثم استضافة طبقة التنسيق ذاتيًا فوقه قادر على تحقيق قدرة تنافسية وافية بتكلفة خدمة أقل.</p>

<hr />

<h2 id="القيود-والحجج-المضادة">القيود والحجج المضادة</h2>

<p>Fugu منتج جدير بالاهتمام، لكن منطقه التسويقي يحمل نقاطًا تستحق التدقيق.</p>

<p>أكبر التناقضات أنه <strong>يخلق تبعية جديدة بينما يدّعي تقليص التبعية للبائع</strong>. Fugu واجهة برمجية تجارية مغلقة، وليس نموذجًا مفتوح الأوزان. منتج أُطلق على خلفية أن الاعتماد على مزود واحد خطرٌ يستوجب بدوره الاعتماد على مزود واحد جديد هو Sakana AI. وحقيقة عدم توفر Fugu في الاتحاد الأوروبي/المنطقة الاقتصادية الأوروبية عند الإطلاق تُثبت أن هذا المنتج هو الآخر رهينٌ بالتنظيم والسياسات الإقليمية. التحوط الحقيقي ضد التبعية للبائع لا يتحقق إلا باستضافة ذاتية للتنسيق.</p>

<p>ثانيًا، <strong>التكلفة وزمن الاستجابة غير قابلَين للتنبؤ</strong>. بنية تستدعي فيها نموذج نماذجَ أخرى – وأحيانًا نفسه بصورة تكرارية – تجعل التنبؤ بعدد استدعاءات النماذج التي يُطلقها طلب واحد داخليًا أمرًا عسيرًا. أوضاع كـ Fugu Ultra التي تستعين بمجموعات أعمق قد ترفع الجودة لكنها ترفع التكلفة وزمن الاستجابة بالقدر ذاته. للفرق الإنتاجية المُلزَمة بإدارة اتفاقيات مستوى الخدمة والميزانيات، كيفية التحكم في هذه العدم القدرة على التنبؤ هي التحدي المحوري.</p>

<p>ثالثًا، <strong>التحقق وتصحيح الأخطاء أصعب</strong>. كون مسار التفويض الداخلي مطمورًا في أوزان النموذج ميزة لسهولة الاستخدام، لكنه يعني أن تتبع الحكم الذي أصدره وكيل بعينه حين تخرج إجابة خاطئة أمر عسير. في البيئات التشغيلية التي تُولي الاهتمامَ لقابلية المراقبة، يُشكّل هذا الغموض عبئًا.</p>

<p>رابعًا، وكما أُشير سابقًا، <strong>ادعاءات الأداء لا تزال في مرحلة الإعلان الذاتي</strong>. أهداف المقارنة نماذج غير منشورة لا تُضمَّن في المجموعة، وخطوط الأساس تقارير ذاتية للمزودين. تأجيل الحكم حتى تتراكم عمليات إعادة الاستنساخ والتحقق المستقلة هو الموقف العقلاني.</p>

<p>رغم هذه التحفظات، يظل التساؤل الذي يطرحه Fugu – “هل يمكن أن يكون التنسيق قدرة مكتسبة بالتدريب لا شفرة مكتوبة يدويًا؟” – تساؤلًا سيواجهه كل مشغّل منصة وكلاء متعددة. تعتزم ThakiCloud الإجابة عن هذا التساؤل بـ <strong>تنسيق قابل للاستضافة الذاتية وللمراقبة</strong> بوصفه ميزةً تمايزية.</p>

<hr />

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Sakana AI, “Sakana Fugu: One Model to Command Them All”, 2026-06-22, <a href="https://sakana.ai/fugu-release/">sakana.ai/fugu-release</a></li>
  <li>Sakana Fugu Technical Report, Fugu Team, Sakana AI, 2026, <a href="https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf">github.com/SakanaAI/fugu</a></li>
  <li>Xu et al., “TRINITY: An Evolved LLM Coordinator”, ICLR 2026, <a href="https://arxiv.org/abs/2512.04695">arXiv:2512.04695</a></li>
  <li>Nielsen et al., “Learning to Orchestrate Agents in Natural Language with the Conductor”, ICLR 2026, <a href="https://arxiv.org/abs/2512.04388">arXiv:2512.04388</a></li>
  <li>THE DECODER, “Sakana AI’s Fugu orchestrates multiple LLMs to match Anthropic’s Fable and Mythos benchmarks”, 2026-06-22, <a href="https://the-decoder.com/sakana-ais-fugu-orchestrates-multiple-llms-to-match-anthropics-fable-and-mythos-benchmarks/">the-decoder.com</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="agentops" /><category term="sakana-ai" /><category term="multi-agent" /><category term="orchestration" /><category term="llm-routing" /><category term="vendor-lock-in" /><summary type="html"><![CDATA[Fugu الذي أصدرته Sakana AI هو نظام تنسيق يُحكم التنسيق الديناميكي بين نماذج LLM متعددة بينما يبدو للمستخدم كواجهة برمجة نموذج واحد. نحلل هنا لماذا تكتسب هذه البنية أهمية من منظور منصات الوكلاء المتعددة، وما تعنيه بالنسبة لعمليات الوكلاء متعددة المستأجرين في ThakiCloud.]]></summary></entry><entry xml:lang="ar"><title type="html">شراكة Micron-Anthropic: الذاكرة تصبح ساحة المعركة في بنية AI التحتية</title><link href="https://thakicloud.github.io/ar/news/micron-anthropic-ai-memory-infrastructure/" rel="alternate" type="text/html" title="شراكة Micron-Anthropic: الذاكرة تصبح ساحة المعركة في بنية AI التحتية" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/news/micron-anthropic-ai-memory-infrastructure</id><content type="html" xml:base="https://thakicloud.github.io/ar/news/micron-anthropic-ai-memory-infrastructure/"><![CDATA[<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>يتحول مركز الثقل في سباق الذكاء الاصطناعي من النماذج إلى البنية التحتية، ومن الحوسبة داخل تلك البنية إلى الذاكرة. نمت قدرة معالجة GPU بسرعة، غير أن العائق العملي الحقيقي لاستدلال نماذج اللغة الكبيرة بات يتمثل في مدى سرعة تزويد تلك المعالجات بالبيانات، أي عرضة النطاق الترددي للذاكرة.</p>

<p>في 22 يونيو 2026، أعلنت شركة الذاكرة أشباه الموصلات Micron وشركة الذكاء الاصطناعي Anthropic عن شراكة استراتيجية. تتجاوز هذه الشراكة بكثير مجرد عقد توريد مكونات؛ إذ تجمع عقد توريد متعدد السنوات، والتصميم المشترك لبنية الذاكرة والتخزين لأعباء عمل الذكاء الاصطناعي، والاستثمار في حقوق الملكية، في تحالف شامل واحد. تشير هذه الشراكة إلى أن الذاكرة لم تعد مكونًا سلبيًا، بل أصبحت متغيرًا فاعلًا في تصميم أنظمة الذكاء الاصطناعي.</p>

<p>يقرأ هذا المقال الشراكة من منظور <strong>التقنية التحتية</strong> لا ردود فعل سوق الأسهم. يتناول سبب تحوّل الذاكرة إلى ساحة معركة في بنية الذكاء الاصطناعي التحتية، وما يغيره التصميم المشترك للذاكرة والتخزين، والانعكاسات على ThakiCloud بوصفها مشغّلة لمنصة خدمة AI/ML مستندة إلى K8s.</p>

<hr />

<h2 id="ما-الذي-جرى">ما الذي جرى</h2>

<p>يتضمن صميم الشراكة المُعلَنة ثلاثة محاور.</p>

<p><strong>أولًا، عقد توريد متعدد السنوات.</strong> ستوفر Micron لـAnthropic ذاكرة النطاق الترددي العالي (HBM)، وذاكرة DRAM، وأقراص الحالة الصلبة (SSD)، وهي المنتجات الرئيسية لمراكز البيانات. يُعدّ هذا عقدًا طويل الأمد لضمان حجوم توريد مستقرة، لا عملية شراء لمرة واحدة.</p>

<p><strong>ثانيًا، التصميم المشترك لبنية الذاكرة والتخزين.</strong> اتفقت الشركتان على تصميم بنيتَي ذاكرة وتخزين مُحسَّنتَين لأعباء عمل الذكاء الاصطناعي معًا. بعبارة أخرى، هذا تعاون لمواءمة تهيئة الذاكرة ومسارات البيانات مع أنماط تدريب النماذج والاستدلال لدى Anthropic. هذا الجانب هو ما يُميّز الصفقة بوضوح عن مجرد عقد توريد عادي.</p>

<p><strong>ثالثًا، الاستثمار الاستراتيجي في حقوق الملكية.</strong> ضخّت Micron استثمارًا استراتيجيًا في جولة تمويل Series H لشركة Anthropic، دون الإفصاح عن مبلغ الاستثمار. من خلال هذه الجولة، قُيِّمت Anthropic بنحو 965 مليار دولار [تقديري]، لتصبح أعلى شركة ذكاء اصطناعي خاصة قيمةً، مع مشاركة Samsung وSK hynix وAltimeter Capital وSequoia وAmazon وفقًا للتقارير. يتضمن الاتفاق أيضًا نشر Claude عبر عمليات Micron الداخلية.</p>

<p>ارتفع سهم Micron قرابة 5.5% مباشرة عقب الإعلان. غير أن محور هذا المقال ليس سعر السهم، بل الانعكاسات التقنية التي يحملها هذا التحالف لتصميم بنية الذكاء الاصطناعي التحتية.</p>

<hr />

<h2 id="لماذا-تُعدّ-الذاكرة-عائق-البنية-التحتية-للذكاء-الاصطناعي">لماذا تُعدّ الذاكرة عائق البنية التحتية للذكاء الاصطناعي</h2>

<p>يُعدّ الاستدلال في نماذج اللغة الكبيرة عملًا مقيَّدًا بالذاكرة في جوهره. في كل مرة يُولَّد فيها رمز (token)، يجب قراءة المجموعة الكاملة لأوزان النموذج من الذاكرة. مهما بلغت سرعة وحدات المعالجة، فإن GPU ستقف مكتوفة تنتظر البيانات إن لم تُسَدَّ بالأوزان بسرعة كافية. لذا تتحدد إنتاجية الاستدلال في الغالب بعرضة النطاق الترددي للذاكرة لا بطاقة المعالجة.</p>

<p><img src="/assets/images/micron-anthropic-ai-memory-infrastructure-diagram.png" alt="التسلسل الهرمي لذاكرة خادم استدلال الذكاء الاصطناعي: تقع ذاكرة HBM الأقرب إلى GPU وهي أسرع نقطة عنق زجاجة" /></p>

<p>يتضح التسلسل الهرمي لذاكرة خادم استدلال الذكاء الاصطناعي في المخطط أعلاه.</p>

<ul>
  <li><strong>HBM (ذاكرة النطاق الترددي العالي)</strong>: الذاكرة فائقة السرعة الأقرب إلى GPU. توفر نطاقًا تردديًا يبلغ تيرابايتات في الثانية، وتحتضن أوزان النموذج النشطة وذاكرة KV cache. تُعدّ HBM عنق الزجاجة المباشر لإنتاجية الاستدلال.</li>
  <li><strong>DRAM (ذاكرة النظام)</strong>: طاقتها أكبر من HBM لكنها أبطأ. تُستخدم لتبادل الأوزان التي لا تتسع لها HBM أو لحفظ سياقات أطول.</li>
  <li><strong>SSD (التخزين)</strong>: الأبطأ لكن الأكبر طاقةً. تحتضن نقاط تفتيش النموذج والبيانات الباردة وحصة متنامية من إلغاء تحميل KV cache.</li>
</ul>

<p>حين توفّر شركة واحدة التسلسل الهرمي بأكمله، يغدو تحسين حركة البيانات عبر كل الطبقات ممكنًا وفق فلسفة تصميم متسقة. كون Micron تغطي HBM وDRAM وSSD هو الأصل الاستراتيجي المحوري في هذه الشراكة.</p>

<hr />

<h2 id="ما-الذي-يغيره-التصميم-المشترك-للذاكرة-والتخزين">ما الذي يغيره التصميم المشترك للذاكرة والتخزين</h2>

<p>حتى الآن، كانت الذاكرة تُشترى في معظم الأحيان كسلعة وفق مواصفات قياسية. الجانب اللافت في هذه الشراكة هو أن Micron وAnthropic ستُصمّمان معًا <strong>بنية ذاكرة وتخزين مُفصَّلة لأعباء عمل الذكاء الاصطناعي</strong>. يُلمّح ذلك إلى تحولات عدة.</p>

<p>أولًا، يمكن أن تنعكس أنماط الوصول إلى البيانات في الاستدلال والتدريب مباشرةً على تصميم الذاكرة. على سبيل المثال، مسارات إلغاء تحميل KV cache بكفاءة من HBM إلى DRAM أو SSD، والبنى التي تُقلص تكلفة العبور بين طبقات التسلسل الهرمي للذاكرة في معالجة السياق الطويل، هي مسائل تحلّ بشكل أفضل حين يصمّمها معًا مزود النموذج ومزود الذاكرة.</p>

<p>ثانيًا، تُظهر الشراكة أن بنية الذكاء الاصطناعي التحتية تتجه نحو <strong>التكامل الرأسي</strong> بصورة متزايدة. إنها إشارة إلى أن شركات الذكاء الاصطناعي الرائدة تسعى إلى تأمين ليس GPU فحسب، بل الذاكرة أيضًا على مستوى سلسلة التوريد ومرحلة التصميم. مشاركة شركات ذاكرة كـSamsung وSK hynix في جولة Series H ذاتها تُقرأ في السياق نفسه. قدرة توريد الذاكرة تتحول إلى جزء من القدرة التنافسية في الذكاء الاصطناعي.</p>

<hr />

<h2 id="منظور-منصة-thakicloud-k8s-aiml-saas">منظور منصة ThakiCloud K8s AI/ML SaaS</h2>

<p>هذه صفقة بين شركات كبرى، لكنها تحمل دروسًا مباشرة لـThakiCloud بوصفها مشغّلة لمنصة خدمة AI/ML مستندة إلى K8s.</p>

<p>أولًا، يتأكد من جديد أن <strong>الذاكرة هي نقطة الانطلاق لتحسين تكاليف الخدمة</strong>. تُشغّل ThakiCloud الاستدلال متعدد المستأجرين فوق جدولة GPU المستندة إلى vLLM وKueue. في هذه البيئة، الرافعة الأكثر فاعلية لزيادة الإنتاجية هي في الغالب استخدام الذاكرة لا المعالجة. إدارة KV cache واستراتيجيات الدفعات وتوزيع النماذج المُعيَّر وفق طاقة HBM هي التقنيات المحورية لمعالجة طلبات متزامنة أكثر على GPU ذاتها. سبب استقطاب تقنيات كـPagedAttention في vLLM للاهتمام يعود في نهاية المطاف إلى كفاءة الذاكرة.</p>

<p>ثانيًا، ثمة <strong>اقتصاديات البنية التحتية للذكاء الاصطناعي على الموقع المحلي</strong>. توجّه الشركات الرائدة نحو تأمين الذاكرة أصلًا استراتيجيًا يُبرز بصورة متناقضة قيمة الاستضافة الذاتية على الموقع المحلي. حين يُخدَّم النموذج على GPU وذاكرة يمتلكها العميل، تتحدد التكلفة الإجمالية للملكية (TCO) بالقدرة على ضبط التسلسل الهرمي للذاكرة وفق عبء العمل. تستطيع ThakiCloud تقديم تكاليف استدلال أكثر قابلية للتنبؤ وكفاءة مقارنةً بالاعتماد على API السحابية، وذلك بتحسين توزيع النموذج وتهيئة الذاكرة ضمن مجموعات العملاء.</p>

<p>ثالثًا، هناك <strong>منظور السيادة وسلسلة التوريد</strong>. كون الذاكرة قد أصبحت ساحة معركة في منافسة الذكاء الاصطناعي يدفع إلى إعادة التفكير في هشاشة البنى التي يعتمد فيها العملاء المحليون في آنٍ واحد على سحابة خارجية وسلسلة توريد خارجية. الطلب على الاحتفاظ بالبيانات والبنية التحتية داخليًا عبر الاستضافة المحلية والذاتية يتعزز في هذا السياق، ولا سيما في المجالات الخاضعة لمتطلبات الأمن القومي أو التنظيم.</p>

<hr />

<h2 id="تحفظات-وحجج-مضادة">تحفظات وحجج مضادة</h2>

<p>لتجنب الإفراط في تأويل هذه الشراكة، تستحق بعض النقاط الإشارة.</p>

<p>أولًا، ما زال قدر وافر من المعلومات المتاحة للعموم في مستوى <strong>البيان الصحفي</strong>. لم يُكشف عن المخرجات التقنية التي سيثمر عنها التصميم المشترك لبنية الذاكرة والتخزين، ولا عن مبالغ الاستثمار وحجوم التوريد. لذا يحتاج الأثر الفعلي للشراكة إلى تأكيد عبر منتجات وبيانات مستقبلية؛ والتقييم في هذه المرحلة أقرب إلى تفسير اتجاه.</p>

<p>ثانيًا، من الأهمية بمكان <strong>التمييز بين الدوافع التجارية والمالية والمعنى التقني</strong>. الاستثمار في حقوق الملكية ونشر Claude داخليًا آليتان لتعزيز الروابط التجارية، ولا تضمنان بذاتهما تقدمًا في تكنولوجيا الذاكرة. أرقام كتقييم 965 مليار دولار [تقديري] أو نسبة ارتفاع السهم تعكس توقعات السوق ولا تتصل مباشرةً بأداء البنية التحتية.</p>

<p>ثالثًا، رغم صحة فرضية أن عرضة النطاق الترددي للذاكرة هي عنق الزجاجة بشكل عام عبر أعباء عمل الاستدلال، فإنها <strong>لا تنطبق بالدرجة ذاتها في جميع الحالات</strong>. مع النماذج الأصغر أو الإنتاجية العالية للدفعات أو المراحل المكثفة حوسبيًا، قد تكون الحوسبة هي عنق الزجاجة. يجب تجنب التبسيط القائل بأن “المزيد من الذاكرة يحل كل شيء”؛ قياس عنق الزجاجة تجريبيًا لكل عبء عمل والاستجابة وفقًا لذلك هو المنهج الصحيح.</p>

<p>خلاصة القول، تُعدّ شراكة Micron-Anthropic إشارة ذات معنى إلى أن المنافسة في بنية الذكاء الاصطناعي التحتية تتوسع لتتجاوز الحوسبة نحو التسلسل الهرمي للذاكرة بأكمله. تعتزم ThakiCloud توظيف هذا الاتجاه أساسًا لتعزيز نقاط قوتنا في الخدمة الموفرة للذاكرة واقتصاديات الاستضافة المحلية.</p>

<hr />

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Micron Technology, “Micron and Anthropic Announce Strategic Agreement to Scale Next-Generation AI Infrastructure”, 2026-06-22, <a href="https://investors.micron.com/news-releases/news-release-details/micron-and-anthropic-announce-strategic-agreement-scale-next">investors.micron.com</a></li>
  <li>Yahoo Finance, “Micron and Anthropic Announce Strategic Agreement to Scale Next-Generation AI Infrastructure”, 2026-06-22, <a href="https://finance.yahoo.com/technology/ai/articles/micron-anthropic-announce-strategic-agreement-130000301.html">finance.yahoo.com</a></li>
  <li>Crypto Briefing, “Micron signs supply agreement with Anthropic AI, invests in Series H round”, 2026-06-22, <a href="https://cryptobriefing.com/micron-anthropic-supply-agreement-series-h/">cryptobriefing.com</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="micron" /><category term="anthropic" /><category term="hbm" /><category term="ai-infrastructure" /><category term="memory" /><summary type="html"><![CDATA[ستوفر Micron لشركة Anthropic ذواكر HBM وDRAM وأقراص SSD، وستشاركها في تصميم بنية ذاكرة أعباء عمل الذكاء الاصطناعي، وقد استثمرت في جولة Series H. يحلل هذا المقال لماذا تُعدّ عرضة النطاق الترددي للذاكرة العائقَ الحقيقي في استدلال LLM، وما تعنيه هذه الشراكة من منظور بنية الذكاء الاصطناعي على الموقع المحلي.]]></summary></entry><entry xml:lang="ar"><title type="html">تحليل المستندات بمستوى SOTA باستخدام نموذج بحجم 0.9B: تجربة عملية مع PaddleOCR-VL على النصوص العربية والكورية</title><link href="https://thakicloud.github.io/ar/research/paddleocr-vl-09b-multilingual-document-parsing/" rel="alternate" type="text/html" title="تحليل المستندات بمستوى SOTA باستخدام نموذج بحجم 0.9B: تجربة عملية مع PaddleOCR-VL على النصوص العربية والكورية" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/paddleocr-vl-09b-multilingual-document-parsing</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/paddleocr-vl-09b-multilingual-document-parsing/"><![CDATA[<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-hero.png" alt="تصوير مجرد يوضح تحول المستندات الشفافة إلى شبكة منظمة من العقد" />
<em>تعبير تجريدي عن مسار تحويل المستندات إلى بيانات منظمة.</em></p>

<blockquote>
  <p>📄 <strong>المراجعة المتعمقة الكاملة (DOCX)</strong>: <a href="https://drive.google.com/file/d/1aFDms1DJR0iMABZcOX3kxPw23SSlOchT/view">نزّل المراجعة التفصيلية من Google Drive</a>.</p>
</blockquote>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>تحليل المستندات، أي تحويلها إلى بنية قابلة للقراءة آلياً، بات أكثر أهمية في عصر RAG والعوامل الذكية. فالصفحة الواحدة من PDF قد تجمع نصاً سردياً وجداول ومعادلات ومخططات وتخطيطاً متعدد الأعمدة، وعلى النموذج أن يفك هذا التشابك بترتيب قراءة دقيق حتى تستطيع النماذج اللغوية الكبيرة الاستفادة منه. حتى وقت قريب، كان هذا الميدان حكراً على النماذج متعددة الوسائط العملاقة كـ GPT-4o وGemini 2.5 Pro، أو على أدوات المعالجة الأنبوبية الثقيلة.</p>

<p><strong>PaddleOCR-VL</strong> الصادر عن فريق PaddlePaddle (Baidu) يزعزع هذه المعادلة. فنموذجه الأساسي PaddleOCR-VL-0.9B لا يتجاوز 960 مليون معامل، نموذج رؤية-لغة بالغ الصغر، غير أنه يُفيد بأداء متصدر في تحليل المستندات على مستوى الصفحة كاملاً، وكذلك في التعرف على المكونات الفردية. الرخصة Apache-2.0 تتيح الاستخدام التجاري بحرية، ويشهد النموذج إقبالاً واسعاً على Hugging Face إذ تجاوز عدد التنزيلات 120,000 مرة.</p>

<p>في ThakiCloud نشغّل فعلياً بنية تحتية للاستدلال متعدد المستأجرين ومعالجة المستندات على منصة AI/ML SaaS مبنية على Kubernetes. لهذا لم نكتفِ بمراجعة النموذج نظرياً، بل ثبّتناه وأجرينا عليه استدلالاً فعلياً على مستندات تجمع الكورية والإنجليزية والعربية. نوضح هنا ما إذا كان النموذج الصغير جديراً بالاستخدام الفعلي، وأين يناسب منصتنا.</p>

<h2 id="ما-هذه-التقنية">ما هذه التقنية؟</h2>

<p>الفكرة المحورية في PaddleOCR-VL أنها لا تعتمد على نموذج ضخم واحد من البداية للنهاية يعالج كل شيء. فالأسلوب الشامل يعتمد على فك ترميز ذاتي الانحدار الطويل الذي يرفع تكلفة الكمون والذاكرة، ويُضخّم الهلوسة وعدم الاستقرار في التخطيطات المتعددة الأعمدة والمختلطة. عوضاً عن ذلك، تفصل PaddleOCR-VL المهمة إلى مرحلتين.</p>

<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-diagram.png" alt="مخطط توضيحي لخط أنابيب PaddleOCR-VL ثنائي المراحل" />
<em>البنية ثنائية المراحل التي تفصل تحليل التخطيط عن التعرف على المكونات.</em></p>

<p><strong>المرحلة الأولى، تحليل التخطيط (PP-DocLayoutV2)</strong>: نموذج خفيف متخصص يرصد المناطق الدلالية في المستند ويصنّفها ويتنبأ بترتيب القراءة. يستخدم RT-DETR للكشف عن الكائنات، وشبكة مؤشر مكوّنة من ست طبقات محوّلة للتنبؤ بترتيب القراءة. بفصل استدلال التخطيط عن نموذج الرؤية-اللغة الثقيل، تحقق النماذج نتائج مستقرة حتى في التخطيطات متعددة الأعمدة.</p>

<p><strong>المرحلة الثانية، التعرف على المكونات (PaddleOCR-VL-0.9B)</strong>: تتلقى هذه المرحلة المناطق التي رصدتها المرحلة الأولى وتتعرف بدقة على النص والجداول والمعادلات والمخططات. تتبع البنية نمط LLaVA مع مشفّر بصري ذي دقة ديناميكية على غرار NaViT (مُهيَّأ من نموذج الرؤية Keye-VL) لمعالجة الصور بأي دقة دون تشويه. يربط مُسقِط MLP مزدوج الطبقات مع تفعيل GELU (بحجم دمج 2) السمات البصرية بفضاء تضمينات النموذج اللغوي، فيما يعمل المُفكِّك ERNIE-4.5-0.3B المعزز بـ 3D-RoPE مُفكِّكاً. اختيار نموذج لغوي صغير مقصود: كلما صغر المُفكِّك تسارع فك الترميز رمزاً بعد رمز.</p>

<p>تُكمل وحدة مُعالجة لاحقة خفيفة الدورة بدمج مخرجات المرحلتين في Markdown وJSON منظّمَين. يدعم النموذج 109 لغة تشمل الكورية واليابانية والعربية والسيريلية والديفانغاري (الهندية) إضافة إلى الأبجديات اللاتينية.</p>

<h2 id="التثبيت-والتكامل">التثبيت والتكامل</h2>

<p>لنُجرِ التثبيت بأنفسنا. البيئة: MacBook بمعالج Apple Silicon (macOS، معالج مركزي فقط، بلا تسريع GPU)، Python 3.12.8. تعمل PaddleOCR-VL فوق منظومة PaddlePaddle، فنثبّت الحزمتين التاليتين:</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="c"># التثبيت في البيئة الافتراضية المشتركة (.venv) وفق قواعد python-runtime</span>
<span class="nv">VIRTUAL_ENV</span><span class="o">=</span><span class="s2">"</span><span class="nv">$PWD</span><span class="s2">/.venv"</span> uv pip <span class="nb">install </span>paddlepaddle paddleocr
<span class="c"># الإصدارات المثبتة: paddlepaddle==3.3.1, paddleocr==3.7.0</span>
</code></pre></div></div>

<p>عند المحاولة الأولى للاستدلال ظهر الخطأ التالي:</p>

<div class="language-text highlighter-rouge"><div class="highlight"><pre class="highlight"><code>RuntimeError: A dependency error occurred during pipeline creation.
Please refer to the installation documentation to ensure all required dependencies are installed.
</code></pre></div></div>

<p>يتطلب خط أنابيب PaddleOCR-VL تبعيات إضافية خاصة بتحليل المستندات. حلّينا الأمر بسطر واحد:</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="nv">VIRTUAL_ENV</span><span class="o">=</span><span class="s2">"</span><span class="nv">$PWD</span><span class="s2">/.venv"</span> uv pip <span class="nb">install</span> <span class="s2">"paddleocr[doc-parser]"</span>
</code></pre></div></div>

<p>شيفرة الاستدلال نفسها مختصرة؛ يقوم خط الأنابيب بتنزيل النماذج اللازمة تلقائياً:</p>

<div class="language-python highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="kn">from</span> <span class="n">paddleocr</span> <span class="kn">import</span> <span class="n">PaddleOCRVL</span>

<span class="n">pipe</span> <span class="o">=</span> <span class="nc">PaddleOCRVL</span><span class="p">()</span>                 <span class="c1"># تنزيل النموذج تلقائياً عند الاستدعاء الأول
</span><span class="n">out</span> <span class="o">=</span> <span class="n">pipe</span><span class="p">.</span><span class="nf">predict</span><span class="p">(</span><span class="sh">"</span><span class="s">sample_doc.png</span><span class="sh">"</span><span class="p">)</span> <span class="c1"># صورة المستند ← مخرجات منظمة
</span><span class="k">for</span> <span class="n">res</span> <span class="ow">in</span> <span class="n">out</span><span class="p">:</span>
    <span class="n">res</span><span class="p">.</span><span class="nf">save_to_markdown</span><span class="p">(</span><span class="n">save_path</span><span class="o">=</span><span class="sh">"</span><span class="s">paddleocr_out</span><span class="sh">"</span><span class="p">)</span>
</code></pre></div></div>

<p>ثمة نقطة جديرة بالإشارة: اختارت <code class="language-plaintext highlighter-rouge">paddleocr==3.7.0</code> تلقائياً <strong>PP-DocLayoutV3</strong> نموذجاً للتخطيط، و<strong>PaddleOCR-VL-1.6-0.9B</strong> نموذجاً للتعرف. بمعنى أن الحزمة لا تجلب الإصدار الأوّلي الوارد في الورقة البحثية (2510.14528)، بل نموذج 1.6 المحدَّث ونموذج تخطيط أحدث. رقم “96.33% SOTA على OmniDocBench” الذي انتشر على تويتر ينتمي تحديداً إلى PaddleOCR-VL-1.6 (وفق OmniDocBench v1.6)، وهو مختلف عن الأرقام الأولية التي أوردتها الورقة البحثية. سنوضح هذا التمييز لاحقاً.</p>

<h2 id="نتائج-التجربة-الفعلية">نتائج التجربة الفعلية</h2>

<p>أنشأنا صورة اصطناعية تجمع الكورية والإنجليزية والعربية وأرقاماً ومعادلات بسيطة لاستخدامها في الاختبار، مستوحاة من فواتير ThakiCloud وتقارير التكاليف في صفحة واحدة. القياسات الفعلية في بيئة المعالج المركزي:</p>

<ul>
  <li>تهيئة النموذج (الاستدعاء الأول، شاملاً التنزيل): <strong>74.7 ثانية</strong></li>
  <li>الاستدلال (predict): <strong>32.65 ثانية / صفحة واحدة</strong></li>
  <li>الوقت الإجمالي (من الاستيراد حتى الحفظ): 137.4 ثانية</li>
  <li>سجل بنية المُفكِّك: GQA (انتباه مجمّع الاستعلامات)، num_heads 16 / num_key_value_heads 2</li>
</ul>

<p>كانت مخرجات Markdown للتعرف على النحو التالي:</p>

<div class="language-markdown highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="gu">## ThakiCloud Document Intelligence</span>
Kubernetes AI/ML SaaS Platform - Invoice No. 2026-0623
타키클라우드 멀티테넌트 추론 비용 보고서
GPU hours: 1,284 Total: $9,640.00
E = mc^2 sum_{i=1}^{n} x_i
</code></pre></div></div>

<p>اللافت أن النموذج التقط العنوان الإنجليزي بوصفه ترويساً في Markdown (<code class="language-plaintext highlighter-rouge">##</code>)، وتعرّف بدقة على الجملة الكورية “타키클라우드 멀티테넌트 추론 비용 보고서”، وقرأ الأرقام والرموز النقدية ($9,640.00، GPU hours 1,284) دون أخطاء. جودة التعرف على الكورية مستقرة بشكل لافت لنموذج بهذا الحجم.</p>

<p>ثمة ملاحظة أمينة تستحق التسجيل: السطر العربي في صورتنا الاصطناعية لم يُحوَّل إلى نص، بل صُنِّف كمنطقة صورة. هذا ليس قصوراً في النموذج بل مشكلة في صورة الاختبار؛ إذ أن الرسم باستخدام PIL للعربية لم يعالج صحيح التشكيل واتصال الحروف وثنائية الاتجاه، فخرجت الحروف منفصلة، فاعتبرتها مرحلة التخطيط عنصراً مرسوماً. مسافة التحرير التي تُفيد بها الورقة للتعرف على الأسطر العربية هي 0.122 وهي منخفضة كافياً، ما يعني أن نتائج مختلفة ستظهر مع مستندات عربية حقيقية. هذه التجربة بحد ذاتها تمنحنا درساً تشغيلياً: جودة المعالجة الأولية والرسم تحدد جودة المخرجات.</p>

<p>فيما يلي الأرقام التي أوردتها الورقة البحثية من المعايير العامة. المخطط أدناه يعرض مسافات التحرير لعدد من اللغات من مجموع 109 لغة (الأقل كلما كان أفضل):</p>

<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-results.png" alt="مخطط مسافة التحرير لتعرف PaddleOCR-VL على النص متعدد اللغات" />
<em>إبراز الكورية والعربية، وهما السوقان الرئيسيتان لـ ThakiCloud. المصدر: arXiv:2510.14528.</em></p>

<p>الكورية عند 0.052 والعربية عند 0.122، كلتا اللغتين المستهدفتين تُظهران مسافات تحرير جيدة. على صعيد الأداء الشامل على مستوى الصفحة، تُشير الورقة البحثية إلى أن النموذج حقق 92.86 في المجموع على OmniDocBench v1.5، متفوقاً على MinerU2.5-1.2B (90.67) الذي يليه مباشرة.</p>

<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-bench.png" alt="مخطط مقارنة الدرجات الإجمالية على OmniDocBench v1.5" />
<em>نموذج 0.9B يتفوق على نموذج 1.2B في الدرجة الإجمالية. المصدر: arXiv:2510.14528 Table 2.</em></p>

<p>عند الاستشهاد بالأرقام لا بد من توضيح الإصدار. الورقة البحثية (2510.14528) أفادت بـ 92.86 على OmniDocBench v1.5؛ والإصدار اللاحق PaddleOCR-VL-1.5 أفاد بـ 94.5% على v1.5، فيما أفاد PaddleOCR-VL-1.6 بـ 96.33% على v1.6 كرقم [تقديري] (أرقام الإصدارات اللاحقة مستندة إلى تقارير منفصلة). الرقم 96.33% الذي ظهر على تويتر ينتمي إلى أحدث إصدار 1.6. كذلك تجدر الإشارة إلى أن سرعة الاستدلال المقاسة في الورقة تمت على NVIDIA A100 واحد بمعالجة دُفعية لـ 512 مستنداً باستخدام محركات خدمة عالية الأداء كـ vLLM وSGLang وFastDeploy. قياسنا لـ 32.65 ثانية/صفحة على المعالج المركزي هو رقم مرجعي لبيئة بلا تسريع، ولا يعكس الإنتاجية في بيئة الإنتاج.</p>

<h2 id="دلالات-التطبيق-على-منصة-thakicloud-k8s-aiml-saas">دلالات التطبيق على منصة ThakiCloud K8s AI/ML SaaS</h2>

<p>جاذبية هذا النموذج لا تكمن فقط في ارتفاع درجاته، بل في <strong>سهولة تشغيله لصغر حجمه</strong>. من منظور منظومة ThakiCloud:</p>

<ul>
  <li><strong>خدمة متعددة المستأجرين بتكلفة منخفضة</strong>: نموذج 0.9B يعمل على بطاقة GPU واحدة من الفئة الاستهلاكية أو الاقتصادية. نشره فوق جدولة GPU المستندة إلى Kueue ومحركات الخدمة vLLM وSGLang يتيح تشغيل نقاط نهاية منفصلة لتحليل مستندات كل مستأجر بتكلفة معقولة، مع التحكم الكامل في التكلفة عبر الاستدلال ذاتي الاستضافة بدلاً من دفع رسوم رمزية لنموذج ضخم.</li>
  <li><strong>سيادة البيانات والتشغيل المحلي</strong>: المستندات كثيراً ما تحوي معلومات حساسة كفواتير وعقود وسجلات طبية ومالية يصعب إرسالها خارجياً. الاستضافة الذاتية لنموذج Apache-2.0 تتيح تقديم استخبارات المستندات دون إرسال البيانات إلى واجهات برمجية خارجية، بما يتوافق مع اشتراطات عزل الشبكة وقيود تصدير البيانات في القطاعات الحكومية والمالية.</li>
  <li><strong>تعدد اللغات يعني ملاءمة السوق</strong>: يصدر مدونة ThakiCloud بالكورية والإنجليزية والعربية. من موقعنا المُطِل على السوقين الكوري والشرق أوسطي، معالجة الكورية (0.052) والعربية (0.122) بنموذج واحد بشكل موثوق يترجم مباشرة إلى ميزة تنافسية ويُقلل الحاجة إلى محركات OCR مختلفة لكل سوق.</li>
  <li><strong>طرف المدخلات في خط أنابيب RAG</strong>: مخرجات Markdown وJSON المنظّمة تتغذى مباشرة في فهرسة RAG واستدعاءات أدوات الوكلاء. النص المحافظ على تخطيطه وترتيب قراءته يرفع جودة القطع ويُسهم مباشرة في دقة الاسترجاع.</li>
</ul>

<p>في مرحلة أكثر نضجاً، يمكن فصل نموذج التخطيط من المرحلة الأولى عن نموذج التعرف من المرحلة الثانية كخدمتين مستقلتين: التخطيط على عقد المعالج المركزي، والتعرف بنموذج الرؤية-اللغة على عقد GPU. البنية المنفصلة على مرحلتين تُيسّر جدولة الموارد غير المتجانسة في بيئة Kubernetes.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>لا يصح الاكتفاء بالإيجابيات. إليك نقاط الضعف بناءً على القياس الفعلي والأدبيات:</p>

<ul>
  <li><strong>بطء على المعالج المركزي</strong>: 32.65 ثانية/صفحة التي قسناها غير مناسبة لمعالجة المستندات بكميات كبيرة. الاستخدام الفعلي يستلزم GPU ومحركات خدمة كـ vLLM وSGLang، وإنتاجيات الورقة المُبهرة تستند إلى بيئة دُفعية على A100.</li>
  <li><strong>تبعيات البنية الثنائية</strong>: تحتاج إلى إدارة نموذجَي التخطيط والتعرف معاً، مما يزيد تكلفة النشر وإدارة توافق الإصدارات مقارنة بنموذج واحد. في الواقع تجلب الحزمة بشكل افتراضي PP-DocLayoutV3 + PaddleOCR-VL-1.6، وهذا التوليف قد يتغير بمرور الوقت.</li>
  <li><strong>أرقام SOTA مرتبطة بإصدار محدد</strong>: 96.33% هو رقم الإصدار 1.6 على OmniDocBench v1.6، وليس العنوان الرئيسي للورقة الأساسية التي اقترحت 0.9B. الاستشهاد دون توضيح الإصدار والمعيار يُفضي إلى التضليل.</li>
  <li><strong>الاعتماد على جودة المعالجة الأولية</strong>: كما أظهر اختبارنا العربي، جودة رسم الصورة ودقتها وتشكيل حروفها تحدد النتيجة. في خطوط الأنابيب الإنتاجية، مرحلة توحيد المدخلات لا تقل أهمية عن اختيار النموذج.</li>
  <li><strong>ضعف التعرف على الجداول</strong>: أشارت الورقة البحثية نفسها إلى أن TEDS الخاصة بالجداول الإنجليزية على OmniDocBench v1.0 (88.0) منخفضة نسبياً (مع تفسير بتأثير أخطاء التعليق). المستندات الغنية بالجداول تستلزم تحققاً منفصلاً.</li>
</ul>

<p>خلاصة القول، PaddleOCR-VL خيار مُغرٍ جداً بوصفه نموذج تحليل مستندات “صغيراً لكن قوياً” لاستخبارات المستندات ذاتية الاستضافة. غير أن استخراج قيمته الحقيقية في الإنتاج يتطلب معالجة ثلاثة تحديات تشغيلية معاً: خدمة GPU، وتثبيت الإصدارات، ومعالجة المدخلات الأولية.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>ورقة PaddleOCR-VL البحثية (arXiv:2510.14528): <a href="https://arxiv.org/abs/2510.14528">Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model</a></li>
  <li>بطاقة النموذج على Hugging Face: <a href="https://huggingface.co/PaddlePaddle/PaddleOCR-VL">PaddlePaddle/PaddleOCR-VL</a></li>
  <li>الكود المصدري: <a href="https://github.com/PaddlePaddle/PaddleOCR">github.com/PaddlePaddle/PaddleOCR</a></li>
  <li>أُجريت التجارب الواردة في هذا المقال على بيئة ThakiCloud (macOS، معالج مركزي) مباشرة، وأرقام المعايير المُستشهد بها مستقاة من الورقة البحثية المذكورة أعلاه.</li>
</ul>

<blockquote>
  <p>📄 <strong>المراجعة المتعمقة الكاملة (DOCX)</strong>: <a href="https://drive.google.com/file/d/1aFDms1DJR0iMABZcOX3kxPw23SSlOchT/view">نزّل المراجعة التفصيلية من Google Drive</a>.</p>
</blockquote>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="paddleocr-vl" /><category term="document-parsing" /><category term="vision-language-model" /><category term="ocr" /><category term="multilingual" /><category term="on-premise" /><summary type="html"><![CDATA[أجرينا تثبيتاً فعلياً لنموذج PaddleOCR-VL متعدد اللغات بحجم 0.9B الذي أطلقه PaddlePaddle، واختبرناه على مستندات تجمع بين الكورية والإنجليزية والعربية. نستعرض هنا البنية ثنائية المراحل، وأداء النموذج متعدد اللغات، وما يعنيه ذلك لمنصة استخبارات المستندات متعددة المستأجرين في ThakiCloud.]]></summary></entry><entry xml:lang="ar"><title type="html">حفنة من بيانات البشر تكفي: تثبيت سياسات القيادة المُدرَّبة بالـ self-play على البشر عبر التنظيم</title><link href="https://thakicloud.github.io/ar/research/spiced-self-play-human-driving/" rel="alternate" type="text/html" title="حفنة من بيانات البشر تكفي: تثبيت سياسات القيادة المُدرَّبة بالـ self-play على البشر عبر التنظيم" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/spiced-self-play-human-driving</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/spiced-self-play-human-driving/"><![CDATA[<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>مع جعل المحاكاة توليد الخبرة شبه مجاني، يزداد سؤال واحد حدّة: كم من بيانات البشر، وبأي شكل، يستحق الاستخدام فعلًا؟ في تعلّم سياسات القيادة يرتبط هذا السؤال مباشرة بالتكلفة. فجمع عروض القيادة البشرية على نطاق واسع مكلف وبطيء، بينما الـ self-play داخل محاكٍ رخيص وغير محدود تقريبًا.</p>

<p>ورقة من جامعة نيويورك وبرينستون ومتعاونين بعنوان “Human-like autonomy emerges from self-play and a pinch of human data” (arXiv:2606.19370، يونيو 2026) تقدّم إجابة واضحة. كما يقول العنوان، حفنة تكفي. وعمليًا، فإن 30 دقيقة فقط من بيانات القيادة البشرية، أي أقل بـ 2500 مرة من التعلّم بالتقليد، تُنتج سياسة أكثر توافقًا مع البشر. ويكتمل التدريب بأكمله في 15 ساعة على GPU استهلاكي واحد.</p>

<p>لا يكتفي هذا المقال بعرض نتيجة في مجال القيادة. فمن منظور منصّة مثل ThakiCloud، التي يجب أن تدرّب وتُحاذي وكلاء كثيرين في بيئة متعددة المستأجرين، نتفحّص لماذا يتوافق هذا التصميم، أي “إبقاء الخبرة التركيبية الرخيصة محرّكًا رئيسيًا وتطبيق الإشارة البشرية المكلفة فقط كمرساة تنظيم صغيرة”، توافقًا جيدًا مع نموذج التكلفة لدينا.</p>

<blockquote>
  <p>📄 <strong>المراجعة المتعمقة الكاملة (DOCX)</strong>: <a href="https://drive.google.com/file/d/1S-KQPZXuUHgNtQAoLpN7-C6HtSclrnY4/view">نزّل المراجعة التفصيلية من Google Drive</a>.</p>
</blockquote>

<h2 id="ما-هذا-البحث">ما هذا البحث</h2>

<p>يستطيع التعلّم المعزّز بالـ self-play النقي تدريب سياسات قيادة دون أي بيانات بشرية. وتظهر المشكلة حين تكون المكافأة فقط “صِل إلى الوجهة بأمان”. فتحت مكافأة متفرّقة كهذه، تتقارب السياسة نحو أعراف فعّالة لكنها غريبة عن البشر. فإن كان الوصول إلى الهدف بالرجوع للخلف أو جانبيًا أو حتى بعكس السير لا يخالف المكافأة، فسيفعل النموذج ذلك بسرور، لأن ملء المكافأة هو كل ما يهم.</p>

<p>كانت المعالجات السابقة تعني هندسة المكافآت بعناية أو نشر التعشية النطاقية. وكلاهما كثيف العمل وهشّ. تقلب هذه الورقة الفكرة. فبدل استخدام بيانات البشر كإشارة تعلّم رئيسية، تحوّل سياسة مرساة بالاستنساخ السلوكي (BC) إلى حدّ تنظيم. تبقى المكافأة بسيطة ومتفرّقة (+1 لبلوغ الهدف، -1 للاصطدام أو الخروج عن الطريق، و0 فيما عدا ذلك)، ويُضاف حدّ KL نحو سياسة المرساة إلى خسارة PPO. وتتحكّم λ في القوة؛ وحين تكون λ صفرًا يُختزل الأمر إلى self-play صرف دون تنظيم.</p>

<p>البنية الكاملة موضّحة أدناه. محرّك self-play رخيص هو القوة الدافعة الرئيسية، ومرساة بشرية مدتها 30 دقيقة تسحب السياسة بلطف نحو البشر عبر خيط رفيع من تنظيم KL.</p>

<p><img src="/assets/images/spiced-self-play-human-driving-diagram.png" alt="معمارية spiced self-play: محرّك self-play ومرساة بشرية يندمجان عبر تنظيم KL على المسار لتعلّم سياسة متوافقة مع البشر، تُقيَّم في ثلاث بيئات" /></p>

<p>يستحق قرار تصميمي واحد التأكيد. فحدّ KL هذا يسحب السياسة نحو المرساة لا على توزيع البيانات المسجّلة دون اتصال (offline) بل على الحالات التي تزورها السياسة فعلًا، وهو تنظيم على المسار (on-policy). فإن نظّمت فقط على توزيع BC غير المتصل، لا تستطيع منع السياسة من الانحراف عن توزيع الحالة في الحلقة المغلقة الذي تراه عمليًا. أما KL على المسار فيستدعي المرساة عند نقطة انزياح التوزيع تلك بالضبط. يبدو الأمر طفيفًا لكنه يحكم استقرار الحلقة المغلقة.</p>

<p>تُدرَّب سياسة المرساة نفسها بالـ BC على مسارات سيارة القيادة الذاتية فقط. فمسارات المركبات المحيطة مُعاد بناؤها بواسطة طبقة إدراك، لذا فهي مشوّشة وجودة قيادتها غير مضمونة؛ ولذا تُستخدم أنظف إشارة فقط، أي مسار المركبة الذاتية. يُنتج كل سيناريو نحو 9 ثوانٍ من البيانات، فتبلغ 200 سيناريو نحو 30 دقيقة. ولادعاء “أقل بـ 2500 مرة” اشتقاق صريح: 200 سيناريو في 9 ثوانٍ تساوي 30 دقيقة، بينما مجموعة Waymo الكاملة بنحو 500,000 سيناريو في 9 ثوانٍ تساوي نحو 75,000 دقيقة، أي نسبة حوالي 0.0004.</p>

<h2 id="المنهجية-الأساسية-من-إشارة-رئيسية-إلى-مرساة">المنهجية الأساسية: من إشارة رئيسية إلى مرساة</h2>

<p>هيكل المنهجية نظيف. الخسارة هي حدّ تدرّج السياسة المقصوص (clipped surrogate) في PPO مضافًا إليه خسارة القيمة ومكافأة الإنتروبيا، مع حدّ تنظيم KL فوقها. وهو أقرب إلى تركيب دقيق لمكوّنات معروفة جيدًا منه إلى خوارزمية جديدة.</p>

<p>تكمن المساهمة الحقيقية لا في الجدّة الخوارزمية بل في نظافة القياس التي أتاحتها البنية التحتية. وسّع الباحثون خبرة الـ self-play إلى 20 مليار انتقال على المحاكي عالي الإنتاجية GPUDrive، وهو ما يعادل نحو 63 عامًا من القيادة البشرية. كانت الأعمال السابقة مقيّدة بسرعة المحاكي (نحو 2000 خطوة في الثانية) عند 140 مليون انتقال ونحو 5 أيام تدريب، فلم يتبقَّ مجال لدراسة توسيع كمية بيانات البشر كمحور مستقل. وبإزالة عنق زجاجة الإنتاجية عبر GPUDrive، أصبحت تجربة التوسيع المنفصل لـ”كمية الـ self-play” و”كمية بيانات البشر” ممكنة لأول مرة.</p>

<p>يكشف هذا الفصل عدم تماثل مثير للاهتمام. فانتقالات الـ self-play تُوسَّع حتى 20 مليارًا، بينما بيانات البشر قريبة من التشبّع عند 30 دقيقة. واستخدام مرساة مدتها 30 ساعة لا يغيّر إلا قليلًا. تتسطّح المنفعة الحدّية للبيانات البشرية الإضافية بسرعة، وهذا هو الأساس التجريبي لرسالة أن حفنة تكفي.</p>

<h2 id="النتائج-التجريبية-الفعلية">النتائج التجريبية الفعلية</h2>

<p>مجموعة البيانات هي Waymo Open Motion Dataset (WOMD). ولأجل تقييم human-replay الذي يقيس التوافق البشري، تُرشَّح السيناريوهات لرفع إشارة التفاعل. فمن بين 10,000 سيناريو تحقّق محجوزة، يُسجَّل مسار المركبة الذاتية بحسب مقدار تقاطعه مع مسارات الوكلاء الآخرين، مع الإبقاء على أعلى 200 مشهد تفاعلي فقط مثل الاندماج والإفساح والتقاطعات المزدحمة التي تتطلب تنسيقًا حقيقيًا.</p>

<p>تُلخَّص النتائج الأساسية في المخطط أدناه. كل رقم مُبلَّغ عنه في الورقة؛ ولا شيء مُختلَق.</p>

<p><img src="/assets/images/spiced-self-play-human-driving-results.png" alt="مقارنة معدل الاصطدام بخطأ ذاتي: spiced self-play (30 دقيقة بيانات بشرية) 0.65%، وSMART-tiny-CLSFT (Waymo الكامل، 52 يومًا) 1.6%، وself-play النقي 2.1%" /></p>

<p>النقاط الأساسية كما يلي.</p>

<ul>
  <li>يحقّق spiced self-play معدل اصطدام بخطأ ذاتي بين 0.6% و0.7% ببيانات بين 30 دقيقة و3 ساعات. ومقارنة بخط الأساس للتعلّم بالتقليد SMART-tiny-CLSFT (1.6%، مُدرَّب على مجموعة Waymo الكاملة، نحو 52 يومًا من البيانات)، يمثّل ذلك تحسّنًا بنحو 2.5 مرة.</li>
  <li>بلغ معدل الاصطدام بخطأ ذاتي لـ self-play النقي دون تنظيم 2.1%. وإضافة حفنة من المرساة فقط جعلته أكثر أمانًا بنحو 3.5 مرة.</li>
  <li>يتجنّب التقييم التباهي بمقياس واحد. فهو ينظر إلى النتيجة ومعدل الإكمال ومعدل الاصطدام ومعدل الاصطدام بخطأ ذاتي وشدّة الاصطدام Δv عبر ثلاث بيئات: self-play (يتشارك جميع الوكلاء السياسة)، وhuman-replay (المركبة الذاتية فقط هي السياسة، والبقية تعيد تشغيل السجلات)، وIDM (الآخرون قائمون على قواعد وتفاعليون).</li>
</ul>

<p>يختلف الاتساق الداخلي أيضًا. فيُبقي spiced self-play معدل الاصطدام دون 1.5% في بيئة الـ self-play وفي cross-play مع سجلات البشر، بينما يرتفع خط أساس التعلّم بالتقليد إلى نحو 6% في بيئة الـ self-play، مُظهرًا اتساقًا أضعف. ويوضّح الباحثون أن عدم استقرارية بيئة الـ self-play، أي توزيع شريك متغيّر يتحوّل فيه خصم شبه عشوائي ابتداءً إلى كفء تدريجيًا، تساعد فعلًا على التقارب نحو أعراف متبادلة متّسقة.</p>

<p>لكن ليست كل الصورة وردية. فمقياس Waymo Open Sim Agent Challenge (WOSAC) الميتا للواقعية التوزيعية يرتفع من 0.68 لـ self-play النقي إلى 0.725 للنسخة المُنظَّمة، لكن المكسب صغير نسبةً إلى التحسّن الدرامي في الأمان وغير حسّاس تقريبًا للبيانات المضافة. فقد تكون السياسة آمنة وأقل شبهًا بالبشر توزيعيًا في الوقت ذاته، وهي نقطة نعود إليها أدناه.</p>

<h2 id="التطبيق-على-منصّة-thakicloud-للـ-aiml-saas-على-k8s">التطبيق على منصّة ThakiCloud للـ AI/ML SaaS على K8s</h2>

<p>القيادة بحد ذاتها ليست مجال ThakiCloud المباشر. ومع ذلك تنتقل الدروس المنهجية لهذه الورقة بشكل شبه مباشر إلى بنيتنا متعددة الوكلاء والتعلّم المعزّز والمحاذاة.</p>

<p>أولًا، مبدأ “بيانات البشر كمرساة خفيفة لا كإشارة رئيسية” يتوافق مع نموذج تكلفة حلقات الـ self-harness وتطوّر الوكلاء لدينا. فـ ThakiCloud تُشغّل أصلًا نمط “ابدأ رخيصًا، وارتقِ إلى المكلف فقط عبر المراجعة والتحقّق”: تشغيل عمّال منخفضي التكلفة أولًا والترقية إلى نموذج أعلى طبقة فقط عند رصد فشل متكرر. وتدعم هذه الورقة كميًّا النسخة المعزّزة من ذلك النمط، حيث الخبرة التركيبية الرخيصة هي المحرّك الرئيسي والعروض البشرية المكلفة مجرّد مرساة تنظيم صغيرة. ويمكننا استعارتها كمعيار لـ”كم نستطيع تقليل وسم البشر مع الحفاظ على المحاذاة” في تدريب وضبط أسطول وكلائنا.</p>

<p>ثانيًا، فكرة تنظيم KL على المسار لها إمكان قوي للدمج مع بوّابة التحقّق fan-out لدينا. فيمكننا إطلاق عمّال كثيرين بحرية كالـ self-play، ثم تثبيتهم بمجموعة صغيرة من المسارات الذهبية المعتمدة بشريًا تحت تنظيم KL لكبح الانحراف نحو أعراف غريبة مثل الهلوسة أو انحراف التنسيق. والمفتاح هو تطبيق التنظيم لا على مجموعة ذهبية ثابتة غير متصلة بل على الحالات التي يزورها العمّال فعلًا، وهي بنية تستحق إثبات مفهوم على منصّتنا.</p>

<p>ثالثًا، عدم التماثل بين مقاييس الأمان والواقعية التوزيعية تحذير لتصميم تقييمنا. فالتباهي بالجودة بنتيجة إجمالية واحدة يُخفي الركود على محاور أخرى كالواقعية التوزيعية. ينبغي أن تملك الشيفرة البوّابات، لكن المعيار يجب أن يكون منظومة تقييم متعددة الطبقات تقيس الأمان والواقعية والاتساق على حدة بدل رقم واحد.</p>

<p>أخيرًا، ثمة نقطة فخر واضحة. فبنية تكلفة قوامها 15 ساعة على GPU استهلاكي واحد تشير إلى الاتجاه ذاته الذي أكّدته ThakiCloud: التشغيل في الموقع وكفاءة التكلفة والاستضافة الذاتية. وهذا يعني أن تجارب المحاذاة كهذه يمكن إعادة إنتاجها وتشغيلها بتكلفة معقولة على مكدّس K8s لدينا، بجدولة وحدات GPU عبر Kueue والخدمة عبر vLLM، دون خط أنابيب ضخم لبيانات البشر.</p>

<h2 id="الحدود-والاعتراضات">الحدود والاعتراضات</h2>

<p>إنه عمل علمي تجريبي رصين، لكن بقراءة نقدية تبقى ثلاثة توتّرات.</p>

<p>أكبر نقطة ضعف أن ادعاء التعميم يستند إلى مجال واحد، القيادة. فالخاتمة تلمّح مرارًا إلى أن “الدروس قد تتعمّم خارج القيادة”، لكن كل التجارب على بيانات قيادة Waymo. ولا يوجد تحقّق في مجالات أخرى يتحقّق فيها الافتراض “المحاكاة رخيصة ومقياس السلوك المرغوب واضح”، مثل التفاوض أو الألعاب التعاونية أو الروبوتات. وهو يقصر عن العمومية التي توحي بها كلمة “emerges” في العنوان.</p>

<p>ثانيًا، عدم التماثل بين مكاسب الواقعية التوزيعية ومكاسب الأمان غير مُفسَّر بالكامل. فانتقال مقياس WOSAC الميتا من 0.68 إلى 0.725 متواضع بجانب التحسّن الكبير في معدل الاصطدام، وهو غير حسّاس لمزيد من البيانات. فقد تكون السياسة آمنة وأقل شبهًا بالبشر توزيعيًا، وهو ما يتوتّر مع العنوان القوي “human-like autonomy emerges”. وعدم مواجهة المتن لهذه الفجوة مباشرة يترك مجالًا للمبالغة في الادعاء.</p>

<p>ثالثًا، الحدّ في أصعب سيناريوهات التنسيق محجوز في قسم الحدود. فيعترف الباحثون أنفسهم بانخفاض الأداء على أصعب 200 سيناريو تفاعلي. فإن كانت أعلى كثافة من الاندماجات والتقاطعات، حيث يكون الأمان أهم، هي الأضعف، فإن هذا الضعف يستحق أن يجلس بجانب النتيجة الرئيسية بدل تأجيله. وعلاوة على ذلك، فإن تحليل حساسية قوة التنظيم λ ضعيف، وثمة فحص غير كافٍ لما إذا كانت سياسة مرساة واحدة تلتقط تنوّع القيادة البشرية.</p>

<p>باختصار، الجوهر ليس خوارزمية جديدة بل توسيع فكرة قائمة بنظافة على محاكٍ عالي الإنتاجية لتثبيت “حفنة من بيانات البشر تكفي”. وقابلية إعادة الإنتاج والتقييم متعدد الطبقات والمقارنة الأمينة مع الأعمال السابقة نقاط قوة؛ وادعاء التعميم أحادي المجال وركود الواقعية التوزيعية نقاط ضعف. وبالنسبة لمنصّة مثل منصّتنا، يُقرأ كحجة مقنعة لنموذج تكلفة يحافظ على المحاذاة مع تقليل الإشارة البشرية المكلفة.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>الورقة: Human-like autonomy emerges from self-play and a pinch of human data (arXiv:2606.19370)، <a href="https://arxiv.org/abs/2606.19370">https://arxiv.org/abs/2606.19370</a></li>
  <li>Hugging Face Papers: <a href="https://hf.co/papers/2606.19370">https://hf.co/papers/2606.19370</a></li>
  <li>صفحة المشروع (مقاطع فيديو والمصدر الكامل): <a href="https://spiced-self-play.com/">https://spiced-self-play.com/</a></li>
</ul>

<blockquote>
  <p>📄 <strong>المراجعة المتعمقة الكاملة (DOCX)</strong>: <a href="https://drive.google.com/file/d/1S-KQPZXuUHgNtQAoLpN7-C6HtSclrnY4/view">نزّل المراجعة التفصيلية من Google Drive</a>.</p>
</blockquote>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="self-play" /><category term="reinforcement-learning" /><category term="human-AI-coordination" /><category term="behavioral-cloning" /><category term="KL-regularization" /><category term="autonomous-driving" /><category term="GPUDrive" /><category term="arxiv-2606.19370" /><category term="data-efficiency" /><category term="alignment" /><summary type="html"><![CDATA[الـ self-play النقي سريع لكنه يتقارب نحو أعراف قيادة غير متوافقة مع البشر. الورقة arXiv:2606.19370 تُضيف بيانات البشر لا كإشارة رئيسية بل كمرساة تنظيم خفيفة مدتها 30 دقيقة، فتحقق سياسة أكثر أمانًا ببيانات أقل 2500 مرة من التعلّم بالتقليد.]]></summary></entry><entry xml:lang="ar"><title type="html">إنشاء الفيديو من Claude Code: جرّبت claude-code-video-toolkit بنفسي</title><link href="https://thakicloud.github.io/ar/technique/claude-code-video-toolkit/" rel="alternate" type="text/html" title="إنشاء الفيديو من Claude Code: جرّبت claude-code-video-toolkit بنفسي" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/technique/claude-code-video-toolkit</id><content type="html" xml:base="https://thakicloud.github.io/ar/technique/claude-code-video-toolkit/"><![CDATA[<p><img src="/assets/images/claude-code-video-toolkit-hero.png" alt="تمثيل تجريدي لخط إنتاج فيديو مؤتمت" />
<em>خط إنتاج فيديو مؤتمت، مصوّر كجسيمات ضوء تتجمّع في إطارات منظّمة.</em></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>طالما تطلّب إنتاج الفيديو محرّرات مخصّصة ولمسة بشرية. لكن مؤخرًا ترسّخ نمط حيث يُوصَف الفيديو بالشيفرة ويُعرَض، تمامًا كما تكتب وكلاء البرمجة الشيفرة. يضع <code class="language-plaintext highlighter-rouge">digitalsamba/claude-code-video-toolkit</code> هذا النمط فوق Claude Code. عند إصداره يُظهر نحو 1.6 ألف نجمة على GitHub و268 تفريعة و182 إيداعًا، برخصة MIT.</p>

<p>الفكرة الأساسية بسيطة. تصف مشروع فيديو باستخدام Remotion، وهو إطار قائم على React؛ وتفوّض توليد الأصول مثل الصوت والصور والموسيقى ولقطات الـ b-roll إلى نماذج ذكاء اصطناعي مفتوحة المصدر؛ وتربط العملية كلها بأوامر الشرطة المائلة ومهارات Claude Code. ينشئ المستخدم مشروعًا من قالب بأمر <code class="language-plaintext highlighter-rouge">/video</code> واحد، ويهيّئ وحدة GPU السحابية والتخزين والصوت بأمر <code class="language-plaintext highlighter-rouge">/setup</code>، ثم ينتقل إلى العرض.</p>

<p>تشغّل ThakiCloud منصة SaaS للذكاء الاصطناعي والتعلّم الآلي قائمة على Kubernetes وتتعامل مع أحمال GPU يوميًا. عرض الفيديو وتركيب الأصول التوليدية مهام نموذجية مرتبطة بوحدة GPU، وفي بيئة متعددة المستأجرين فإن كيفية توزيع الموارد هي التكلفة نفسها. لذلك تستحق هذه الأداة القراءة لا كأداة محتوى فحسب، بل كمثال على نوع الحمل الذي تتعامل معه منصتنا. في هذه التدوينة أعرض أولًا ما حدث حين استنسخت الأداة وشغّلتها فعليًا، ثم أناقش معناها من منظور المنصة.</p>

<h2 id="ما-هذه-الأداة">ما هذه الأداة</h2>

<p>تحوّل claude-code-video-toolkit بيئة Claude Code إلى محطة عمل لإنتاج الفيديو. من المفيد فهمها في ثلاث طبقات.</p>

<p>الأولى هي طبقة أوامر الشرطة المائلة. يرشدك <code class="language-plaintext highlighter-rouge">/setup</code> تفاعليًا عبر التهيئة الأولى مثل GPU السحابية ونقل الملفات والصوت. ينشئ <code class="language-plaintext highlighter-rouge">/video</code> المشاريع ويفتحها، ويساعد <code class="language-plaintext highlighter-rouge">/scene-review</code> في المراجعة مشهدًا مشهدًا داخل Remotion Studio. وإلى جانب ذلك توجد أوامر لكل مرحلة من مراحل الإنتاج: <code class="language-plaintext highlighter-rouge">/brand</code> و<code class="language-plaintext highlighter-rouge">/template</code> و<code class="language-plaintext highlighter-rouge">/generate-voiceover</code> و<code class="language-plaintext highlighter-rouge">/voice-clone</code> و<code class="language-plaintext highlighter-rouge">/redub</code> و<code class="language-plaintext highlighter-rouge">/record-demo</code> و<code class="language-plaintext highlighter-rouge">/publish</code> وغيرها. يرفع <code class="language-plaintext highlighter-rouge">/publish</code> الفيديو المكتمل إلى YouTube ويملأ البيانات الوصفية تلقائيًا من <code class="language-plaintext highlighter-rouge">project.json</code>.</p>

<p>الثانية هي طبقة المهارات. تجمّع هذه المعرفة المجالية كي يتعامل معها Claude Code بعمق: remotion (إطار فيديو قائم على React)، وelevenlabs (الصوت)، وffmpeg (معالجة الوسائط)، وplaywright-recording (تسجيل العروض في المتصفح)، وfrontend-design (التصميم البصري)، وqwen-edit (تحرير الصور)، وideogram4 (توليد صور بنص داخلي قوي)، وacestep (الموسيقى)، وltx2 (مقاطع فيديو مدفوعة بالنص والصورة)، وmoviepy (تركيب فيديو بلغة بايثون)، وrunpod (وحدة GPU سحابية)، بإجمالي إحدى عشرة مهارة.</p>

<p>الثالثة هي طبقة القوالب والعلامة التجارية. يتضمّن <code class="language-plaintext highlighter-rouge">templates/</code> قوالب sprint-review وsprint-review-v2 وproduct-demo وconcept-explainer-short للمقاطع العمودية بنسبة 9:16. ويعرّف <code class="language-plaintext highlighter-rouge">brands/</code> ملفات علامة تجارية تحمل الألوان والخطوط وإعدادات الصوت، وتُطبَّق تلقائيًا عند إنشاء مشروع بأمر <code class="language-plaintext highlighter-rouge">/video</code>. يوضّح المخطط أدناه كيف تتصل هذه الطبقات الثلاث في خط إنتاج واحد.</p>

<pre><code class="language-mermaid">flowchart LR
  A["موجّه / سكربت"] --&gt; B["أمر /video"]
  B --&gt; C["ملف العلامة التجارية&lt;br/&gt;brand.json · voice.json"]
  C --&gt; D["تركيبة Remotion&lt;br/&gt;فيديو React"]
  D --&gt; E["طبقة مهارات الذكاء الاصطناعي"]
  E --&gt; E1["Qwen3-TTS&lt;br/&gt;صوت · استنساخ"]
  E --&gt; E2["FLUX.2 · Ideogram4&lt;br/&gt;صور · بطاقات عناوين"]
  E --&gt; E3["ACE-Step&lt;br/&gt;موسيقى"]
  E --&gt; E4["LTX-2&lt;br/&gt;b-roll"]
  D --&gt; F["remotion render&lt;br/&gt;h264 · 1080p · 6x"]
  F --&gt; G["out/video.mp4"]
  G --&gt; H["/publish → YouTube"]
</code></pre>

<p>تبرز بنية التكلفة على نحو خاص. صُمّمت الأداة كي تعتمد الأصول التوليدية مثل الصوت (Qwen3-TTS) والصور (FLUX.2) والموسيقى (ACE-Step) على نماذج مفتوحة المصدر بدلًا من واجهات API تجارية. تنشر النماذج على حساب GPU السحابي الخاص بك وتشغّلها بسعر التكلفة. للتخزين تشير إلى الطبقة المجانية من Cloudflare R2 (10 غيغابايت، دون رسوم خروج)، وللحوسبة إلى خطة Modal Starter برصيد مجاني 30 دولارًا شهريًا. هذا الخيار القائم على الاستضافة الذاتية يتطابق تمامًا مع منظور المنصة الذي سنناقشه لاحقًا.</p>

<h2 id="التثبيت-والتكامل">التثبيت والتكامل</h2>

<p>البدء السريع الموثّق كالتالي: استنساخ المستودع، وتثبيت اعتماديات بايثون اختياريًا، وفتح Claude Code.</p>

<div class="language-shell highlighter-rouge"><div class="highlight"><pre class="highlight"><code>git clone https://github.com/digitalsamba/claude-code-video-toolkit.git
<span class="nb">cd </span>claude-code-video-toolkit
python3 <span class="nt">-m</span> pip <span class="nb">install</span> <span class="nt">-r</span> tools/requirements.txt   <span class="c"># اختياري: التعليق الصوتي وتوليد الصور والموسيقى وأمثلة moviepy</span>
claude                                              <span class="c"># تشغيل Claude Code داخل الأداة</span>
</code></pre></div></div>

<p>ثم داخل Claude Code، تهيّئ GPU السحابية والتخزين والصوت تفاعليًا لنحو خمس دقائق بأمر <code class="language-plaintext highlighter-rouge">/setup</code>، وتنشئ مشروعك الأول بأمر <code class="language-plaintext highlighter-rouge">/video</code>. المتطلبات هي Node.js 18+ وClaude Code؛ ويُنصح ببايثون 3.9+ لأدوات الذكاء الاصطناعي. أما FFmpeg فاختياري.</p>

<p>الأهم هنا أن ثمة مسارًا منفصلًا للتحقق من العرض فورًا دون أي تهيئة. <code class="language-plaintext highlighter-rouge">examples/hello-world</code> مثال مصغّر لا يحتاج أي مفاتيح API. اتّبعت هذا المسار بالضبط وشغّلته فعليًا.</p>

<div class="language-shell highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="nb">cd </span>examples/hello-world
npm <span class="nb">install
</span>npm run render
</code></pre></div></div>

<p>بالنظر إلى <code class="language-plaintext highlighter-rouge">package.json</code> الخاص بـ <code class="language-plaintext highlighter-rouge">hello-world</code>، يكون سكربت العرض <code class="language-plaintext highlighter-rouge">npx remotion render src/index.ts SprintReview out/video.mp4</code>، والاعتماديات هي إصدار Remotion 4.0.425 وReact 18. أي إنه يحوّل تركيبة React مباشرة إلى فيديو دون أي استدعاءات نماذج خارجية.</p>

<h2 id="نتائج-التجربة-الفعلية">نتائج التجربة الفعلية</h2>

<p>أجريت التحقق داخل شجرة عمل git معزولة، وكل رقم مأخوذ مباشرة من سجل التشغيل. كانت البيئة Apple Silicon (arm64) وNode.js 24.1.0 وnpm 11.3.0.</p>

<p>أولًا، تثبيت الاعتماديات. أضاف <code class="language-plaintext highlighter-rouge">npm install</code> نحو 230 حزمة واستغرق قرابة 3.5 ثانية. لكن التدقيق أبلغ عن 10 ثغرات (7 متوسطة و3 عالية)، وهو ما أعود إليه في قسم القيود.</p>

<p>في خطوة العرض، ينزّل Remotion مرة واحدة عند التشغيل الأول Chrome Headless Shell. في هذا التشغيل نزّل نحو 90.2 ميجابايت، وهي تكلفة لمرة واحدة. ثم تلت ذلك عملية التجميع والتركيب. كانت التركيبة <code class="language-plaintext highlighter-rouge">SprintReview</code>، والترميز h264، والتزامن 6x، وعرض كامل الإطارات البالغة 750 إطارًا. ترك السجل الملاحظة “Cached bundle. Subsequent renders will be faster”، موضحًا أن عمليات العرض اللاحقة أسرع بفضل ذاكرة التجميع المؤقتة.</p>

<p>من حالة باردة، بلغ الزمن الفعلي لأمر <code class="language-plaintext highlighter-rouge">npm run render</code>، شاملًا التنزيل والتجميع والعرض والترميز، 18.4 ثانية. كان الناتج النهائي فيديو h264 بدقة 1920x1080 و30 إطارًا في الثانية وطول 25.0 ثانية وحجم 2.15 ميجابايت (2,152,829 بايت)، متضمنًا مسار صوت AAC. لم يُستخدم أي مفتاح API على الإطلاق.</p>

<p><img src="/assets/images/claude-code-video-toolkit-results.png" alt="مخطط الأزمنة المقاسة لكل مرحلة في خط عرض hello-world" />
<em>الزمن الفعلي لكل مرحلة في خط عرض hello-world بدقة 1080p، مقاسًا دون أي مفاتيح API.</em></p>

<p>باختصار، ودون أي تهيئة منفصلة، صار فيديو 1080p واحد في متناول اليد خلال نحو 30 ثانية من الاستنساخ. كان ذلك أسرع حتى من وصف المثال “يُعرَض في دقيقتين”، لكن بما أن هذا يتفاوت بحسب العتاد وظروف الشبكة فلا ينبغي اعتبار الرقم مطلقًا. المهم أن حاجز الدخول منخفض إلى هذا الحد.</p>

<h2 id="التطبيق-على-منصة-thakicloud-السحابية-للذكاء-الاصطناعي-على-kubernetes">التطبيق على منصة ThakiCloud السحابية للذكاء الاصطناعي على Kubernetes</h2>

<p>تكمن جاذبية هذه الأداة في أنها تشبه بنيويًا الأحمال التي تتعامل معها منصتنا. عرض الفيديو وتركيب الأصول التوليدية كلاهما مهام دفعية مرتبطة بوحدة GPU، بنمط استخدام الموارد في دفعات قصيرة وكثيفة قبل العودة إلى الخمول. تصفّ ThakiCloud مهام GPU وتمنحها الأولوية باستخدام Kueue فوق Kubernetes وتخدم النماذج عبر vLLM وغيره. إن الاستمرارية اللاخادمية بأسلوب Modal/Daytona التي توصي بها الأداة، حيث تدخل البيئة في سبات عند الخمول وتستيقظ عند الطلب، تحل المشكلة نفسها لكفاءة الموارد التي نسعى إليها عبر Kueue، لكن في طبقة مختلفة.</p>

<p>النقاط الجديرة بالإبراز هي التكلفة والاستضافة الذاتية. صُمّمت الأداة لتشغيل نماذج مفتوحة الأوزان مثل Qwen3-TTS وFLUX.2 وACE-Step على وحدة GPU الخاصة بك بسعر التكلفة بدلًا من واجهات API تجارية. يتوافق هذا تمامًا مع توجّه ThakiCloud في اعتبار التشغيل المحلي والاستضافة الذاتية نقاط قوة. حين يرغب عميل في تشغيل أحمال توليدية متعددة المستأجرين في بيئة عالية الأمان دون إرسال بيانات أو نماذج إلى الخارج، يمكن لمنصتنا أن تستوعب بطبيعتها خط إنتاج الفيديو والوسائط هذا أيضًا.</p>

<p>زاوية الاستخدام الداخلي واضحة كذلك. قالبا sprint-review وproduct-demo من المخرجات التي تنتجها فرق الهندسة بشكل متكرر. وإذا غلّفت هذا التوليد للفيديو كمهام Kubernetes ووضعتها في طابور Kueue، أمكنك نقل العرض الثقيل من حواسيب المطورين المحمولة إلى مجمّع GPU مشترك يُعالج بحسب الأولوية. كون الأداة نفسها مرتبطة بـ Claude Code قيدٌ، لكن فصل مرحلة عرض Remotion وحدها وتحويلها إلى حاوية يجعل وضعها على بنيتنا الدفعية أمرًا مباشرًا.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>ثمة نقاط ضعف واضحة إلى جانب نقاط القوة. أولًا، أمان الاعتماديات. حتى <code class="language-plaintext highlighter-rouge">npm install</code> للمثال المصغّر أبلغ عن 10 ثغرات (منها 3 عالية). لطرحها في الإنتاج تحتاج أولًا إلى تدقيق الاعتماديات وتثبيتها، والأأمن فرض ذلك كبوابة في خط الأتمتة لديك.</p>

<p>ثانيًا، نطاق كلمة “مجاني”. ما يعمل فورًا دون مفاتيح API هو العرض القائم على القوالب. ولاستخدام الأصول التوليدية مثل الصوت والصور والموسيقى وb-roll، عليك في النهاية نشر النماذج على وحدة GPU السحابية الخاصة بك، ومن تلك اللحظة تظهر تكلفة الحوسبة وعبء التشغيل. “مجاني” تعني التشغيل بنفسك بسعر التكلفة، لا أن لا تكلفة هناك.</p>

<p>ثالثًا، الارتباط بالأداة. يرتبط سير العمل هذا ارتباطًا وثيقًا بـ Claude Code. وبقدر ما تكون تجريدات أوامر الشرطة المائلة والمهارات مريحة، ثمة جانب من الاعتماد على بيئة وكيل بعينها. لحسن الحظ يتولّى العرض الأساسي إطار Remotion المستقل، فإذا لزم الأمر يمكنك فصل ذلك الجزء ونقله إلى تنسيق آخر.</p>

<p>رابعًا، يصف Remotion الفيديو بلغة React. وقد يكون هذا حاجزًا للمصممين وغير المطورين، كما أن التعامل مع رسوميات الحركة المعقّدة بالشيفرة قد يستلزم جهدًا أكبر من محرّر مخصّص. في النهاية تناسب هذه الأداة أكثر الفرق المعتادة على التعامل مع الفيديو بالشيفرة.</p>

<p>خلاصة القول، يُعدّ claude-code-video-toolkit نقطة انطلاق جيدة لأتمتة الفيديو الصديقة للشيفرة. تجربة إنتاج فيديو 1080p خلال 30 ثانية دون مفاتيح API نقطة قوة واضحة، وفلسفته القائمة على النماذج مفتوحة المصدر والاستضافة الذاتية تتوافق جيدًا مع توجّه منصتنا. ومع ذلك، تحتاج إلى موازنة التكلفة الحقيقية لمرحلة الأصول التوليدية وأمان الاعتماديات والارتباط بالأداة معًا للوصول إلى حكم متوازن.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>GitHub: <a href="https://github.com/digitalsamba/claude-code-video-toolkit">digitalsamba/claude-code-video-toolkit</a></li>
  <li>Remotion: <a href="https://www.remotion.dev/">remotion.dev</a></li>
  <li>بيئة الاختبار: Apple Silicon (arm64)، Node.js 24.1.0، npm 11.3.0 / جميع الأرقام مستخرجة مباشرة من سجلات التشغيل.</li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="claude-code" /><category term="remotion" /><category term="video-generation" /><category term="gpu" /><category term="platform-engineering" /><summary type="html"><![CDATA[أداة مفتوحة المصدر تعرض فيديو بدقة 1080p من داخل Claude Code بأمرين من أوامر الشرطة المائلة. استنسخت examples/hello-world وعرضته دون أي مفاتيح API، فخرج مقطع 1080p بطول 25 ثانية و750 إطارًا خلال نحو 18 ثانية. إليك البنية والنتائج المقاسة، وكيف تنظر منصة ThakiCloud السحابية على Kubernetes إلى أحمال عمل الفيديو على وحدات GPU.]]></summary></entry><entry xml:lang="ar"><title type="html">“Fable 5 يكتب 100% من شيفرتي”: مراجعة واقعية على مستوى المنصة</title><link href="https://thakicloud.github.io/ar/technique/fable5-agentic-coding/" rel="alternate" type="text/html" title="“Fable 5 يكتب 100% من شيفرتي”: مراجعة واقعية على مستوى المنصة" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/technique/fable5-agentic-coding</id><content type="html" xml:base="https://thakicloud.github.io/ar/technique/fable5-agentic-coding/"><![CDATA[<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>انتشر مؤخرًا اقتباس بسرعة في مجتمعات المطورين: يُقال إن مبتكر Claude Code صرّح بأن “Fable 5 صار يكتب 100% من شيفرتي، وهو أقوى من Opus بثلاثة أضعاف على الأقل.” بمفردها، جملة كهذه أقرب إلى ادعاء تسويقي يصعب التحقق منه. لذلك يفصل هذا المقال أمرين عن قصد: ما هو مؤكَّد رسميًا، وتحليل كيف تُغيِّر هذه الحقائق المؤكَّدة طريقة عمل فرق الهندسة فعليًا.</p>

<p>تُشغِّل ThakiCloud منصة سحابية للذكاء الاصطناعي وتعلُّم الآلة قائمة على Kubernetes، ويعتمد تطويرنا الداخلي بدوره اعتمادًا كبيرًا على أدوات البرمجة الوكيلية. لذا فإن اتجاه “كتابة النماذج المتقدمة لمعظم الشيفرة” ليس قصة شخص آخر بالنسبة إلينا، بل تحدٍّ تصميمي تشغيلي يومي. هدف هذا المقال هو النظر بهدوء إلى ما يتطلبه هذا التحول من التكلفة والحوكمة، دون الانجراف وراء الأرقام المبالَغ فيها.</p>

<h2 id="نفصل-الحقائق-المؤكَّدة-عن-الاقتباس">نفصل الحقائق المؤكَّدة عن الاقتباس</h2>

<p>أولًا، يبقى الرقمان “100%” و”ثلاثة أضعاف” اقتباسًا فحسب. فالمصدر تصريح فردي، وطريقة القياس غير معلنة. لا نتعامل مع هذه الأرقام بوصفها حقيقة في المتن.</p>

<p>أما ما تؤكده الوثائق العامة فهو الآتي. إن Claude Fable 5 هو أقدر نموذج متقدم متاح للعموم تطرحه Anthropic، وقد أُعلن في يونيو 2026 إلى جانب نموذج Claude Mythos 5 محدود الإصدار. معرّف النموذج هو <code class="language-plaintext highlighter-rouge">claude-fable-5</code>. التسعير 10 دولارات لكل مليون رمز إدخال و50 دولارًا لكل مليون رمز إخراج، أي نحو ضعف سعر Opus 4.8. المعالجة الدُّفعية بنصف ذلك عند 5 دولارات للإدخال و25 دولارًا للإخراج، ويهبط الإدخال عند إصابة ذاكرة التخزين المؤقت للموجِّهات إلى دولار واحد لكل مليون رمز. نافذة السياق مليون رمز افتراضيًا، مع إخراج يصل إلى 128 ألف رمز لكل طلب.</p>

<p>أما من حيث الأداء، فادعاء الشركة المعلن هو أنه في معيار تحليلي أساسي يقيس المهام التحليلية المعقدة طويلة الأمد، صار أول من يتجاوز 90%، بتحسُّن نحو 10 نقاط على Opus [تقدير: وفق إعلان الشركة]. كما أوضح فريق Claude Code أنه لأن Fable 5 يعمل لفترة أطول ويتحقق من نفسه وينتج شيفرة أعلى جودة، فإن دور الإنسان ينتقل من “مراقبة ما إذا كان يؤدي العمل بشكل صحيح” إلى “توجيه ما إذا كان يؤدي العمل الصحيح”. هذه الجملة الأخيرة هي في الواقع أهم نقطة في هذا المقال.</p>

<h2 id="ما-الذي-يختلف-في-البرمجة-الوكيلية">ما الذي يختلف في البرمجة الوكيلية</h2>

<p>كان الإكمال التقليدي للشيفرة أداة تساعد تدفُّق شخص يكتب. الإنسان يجلس في مقعد القيادة والنموذج يقترح الرمز التالي إلى جانبه. ترفع البرمجة الوكيلية مستوى التجريد خطوة واحدة. يقدّم الإنسان نيّةً، فيخطط الوكيل ذاتيًا، ويقرأ الملفات، ويكتب الشيفرة، ويشغّل الاختبارات، ويكرر حلقةً تُصلح نفسها عند الفشل.</p>

<div class="language-text highlighter-rouge"><div class="highlight"><pre class="highlight"><code>[ الإنسان: يحدد النية/الهدف ]
        |
        v
[ الوكيل: يضع خطة ] ---&gt; [ يكتب الشيفرة ] ---&gt; [ اختبار/تشغيل ]
        ^                                            |
        |                                            v
[ الإنسان: مراجعة الاتجاه (توجيه) ] &lt;--- [ حلقة تحقق/إصلاح ذاتي ]
                                              |
                                              v
                                   [ تقديم التغيير عند النجاح ]
</code></pre></div></div>

<p>ثمة فرقان رئيسيان. أولًا، تكبر وحدة العمل. لم تعد سطرًا واحدًا مقترحًا بل ميزةً كاملة أو إعادة هيكلة كاملة أو إصلاح خطأ بأكمله. ثانيًا، تتغير نقطة تدخُّل الإنسان. أثناء تشغيل النموذج لحلقة التحقق الذاتي، لا يقرأ الإنسان كل سطر. بل يتدخل عند المُدخل (ماذا يبني) والمُخرج (هل النتيجة تطابق النية). هذا هو الواقع وراء عبارة “من المراقبة إلى التوجيه”.</p>

<p>أصبح العمل الذاتي طويل الأمد ممكنًا بفضل قدرتين. الأولى السياق الطويل. فنافذة سياق بمليون رمز تتيح إدخال جزء كبير من قاعدة شيفرة ضخمة في مجال رؤية النموذج دفعةً واحدة. والثانية استخدام الأدوات. فقط حين يستطيع النموذج تشغيل الصدفة مباشرةً وقراءة نتائج الاختبار ليقرر خطوته التالية، تنعقد حلقة “التحقق الذاتي” فعلًا.</p>

<h2 id="ماذا-يعني-كتابة-الذكاء-الاصطناعي-100-من-الشيفرة-لفريق">ماذا يعني “كتابة الذكاء الاصطناعي 100% من الشيفرة” لفريق</h2>

<p>حتى لو لم نأخذ هذه النسبة 100% على ظاهرها، فإن مركز ثقل تأليف الشيفرة ينتقل بوضوح من البشر إلى الوكلاء. فإلى أين ينتقل عنق الزجاجة؟ كلما رخص التأليف وزاد سرعةً، انتقل عنق الزجاجة من الكتابة إلى التحقق واتخاذ القرار.</p>

<p>والأمر منطقي إذا تأمّلته. حتى لو صارت سرعة كتابة الشيفرة عشرة أضعاف، فإن فعل الحكم على صحة تلك الشيفرة وتحمُّل مسؤوليتها لا يصبح تلقائيًا أسرع عشر مرات. فالمراجعة وتصميم الاختبارات والحكم المعماري والمراجعة الأمنية وتحديد ما يُبنى، كلها ما تزال تتطلب حكم الإنسان. وكلما كتب الذكاء الاصطناعي شيفرةً أكثر، ارتفعت بشكل عكسي القيمة النسبية لأنشطة الحكم هذه.</p>

<p>ويظهر هذا في حكاية إحدى الشركات أيضًا. نُشرت حالة أُنجز فيها في يوم واحد عملٌ كان سيستغرق أكثر من شهرين يدويًا على قاعدة شيفرة بلغة Ruby من 50 مليون سطر. والجزء اللافت في هذه الحالة ليس سرعة الكتابة فحسب، بل أنك تحتاج أيضًا إلى نظام تحقق وقدرة حكم قادرين على استيعاب ذلك القدر من التغيير بأمان خلال يوم. فكلما زادت سرعة التأليف، إن لم يلحق به التحقق، تحوّلت تلك السرعة مباشرةً إلى دَيْن.</p>

<p>لذا فإن التحدي الحقيقي لـ”الهندسة الأصيلة بالذكاء الاصطناعي” ليس كيفية تشغيل النموذج بسرعة أكبر، بل كيفية توسيع التحقق والحوكمة جنبًا إلى جنب مع سرعة التأليف المتزايدة.</p>

<h2 id="تطبيقه-على-منصة-thakicloud-السحابية-على-kubernetes">تطبيقه على منصة ThakiCloud السحابية على Kubernetes</h2>

<p>يطرح هذا الاتجاه أسئلة تشغيلية ملموسة على مزوّد المنصة. من منظور حزمة ThakiCloud، إليك ثلاث نقاط.</p>

<p>أولًا، بنية التكلفة. سعر رمز الإخراج في Fable 5 هو 50 دولارًا لكل مليون رمز، وهو ليس رخيصًا بأي حال. حين يشغّل الوكيل حلقة ذاتية طويلة، يصبح استهلاك الرموز غير قابل للمقارنة بتبادل سؤال وجواب واحد. حتى الحالة المذكورة سابقًا ببناء لعبة صغيرة واحدة في تمريرة واحدة استهلكت نحو 910 آلاف رمز. لذا فلاستخدام البرمجة الوكيلية على مستوى المؤسسة، تحتاج إلى انضباط في تتبُّع ميزانية الرموز لكل وحدة عمل، وتوجيه النماذج وفق صعوبة المهمة. نماذج رخيصة للاستكشاف البسيط وقراءة الملفات، ونماذج متقدمة فقط للاستدلال المعقد متعدد الخطوات. كما أن تصميمًا يخفض تكلفة الإدخال بنسبة 90% عبر التخزين المؤقت للموجِّهات هو أيضًا رافعة أساسية لضبط التكلفة. تتعامل ThakiCloud مع هذا النوع من التوجيه ونظافة التخزين المؤقت بوصفه إعدادًا افتراضيًا على مستوى المنصة.</p>

<p>ثانيًا، الحوكمة متعددة المستأجرين. الوكيل الذي يشغّل الصدفة ذاتيًا ويصل إلى الشبكة ويقرأ قاعدة شيفرة كاملة يصبح سطح هجوم جديدًا إن تُرك دون ضبط. في بيئة سحابية تعمل فيها أعباء عدة عملاء على عنقود واحد، فإن عزل المستأجرين وحدود تنفيذ الأدوات وضبط حركة البيانات الصادرة ومسارات التدقيق ليست خيارًا بل شرطًا مسبقًا. نستخدم عزل مساحات الأسماء في Kubernetes والضوابط القائمة على السياسات لإجبار الوكيل على البقاء داخل حدود مستأجره.</p>

<p>ثالثًا، التوازن بين تشغيل موارد وحدات المعالجة الرسومية واختيار النموذج. النماذج المتقدمة عبر الواجهة البرمجية قوية لكنها اعتماد خارجي، وتخرج البيانات من بيئتك. في المقابل، النماذج مفتوحة الأوزان المستضافة ذاتيًا داخل المؤسسة تتميز بسيادة البيانات وقابلية التنبؤ بالتكلفة، لكن تبقى فجوة في قمة الأداء. الجواب الواقعي ليس أحدهما أو الآخر بل مزجهما وفق حساسية المهمة وصعوبتها. تدير ThakiCloud طوابير مهام وحدات المعالجة الرسومية عبر Kueue وتخدم النماذج المستضافة ذاتيًا عبر vLLM، مع تشغيل نمط توجيه هجين يفرّع العمل الضخم غير الحساس إلى نماذج مستضافة ذاتيًا والعمل الأعلى صعوبة إلى النماذج المتقدمة. في هذه البنية، يكون الفصل في الشيفرة بين العمل الذي يجب أن يرسل البيانات خارجيًا والعمل الذي يجب ألا يفعل نقطةَ البداية للحوكمة.</p>

<p>باختصار، الإنتاجية التي تجلبها البرمجة الوكيلية حقيقية، لكن لتحقيق تلك القيمة بأمان تحتاج إلى طبقة منصة من تحتها: توجيه التكلفة، وعزل المستأجرين، واستراتيجية نموذج هجينة. قدرة النموذج وحدها لا تكفي؛ والمنصة التي تُشغِّل تلك القدرة في صورة قابلة للضبط هي ما يصنع التمايز.</p>

<h2 id="القيود-والحجج-المضادة">القيود والحجج المضادة</h2>

<p>لتجنّب قبول هذا الاتجاه دون نقد، نذكر الحجج المضادة بوضوح.</p>

<p>أولًا، الأرقام المقتبسة غير مُتحقَّق منها. “100%” و”ثلاثة أضعاف” تعبيرات تدور دون تعريف قياس، وادعاءات من هذا النوع لا يمكن أن تكون أساسًا لقرار تبنّي أداة. يجب أن يأتي قرار التبنّي الفعلي من تجربة صغيرة وقياس على قاعدة شيفرتك أنت.</p>

<p>ثانيًا، التكلفة قيد حقيقي. أقوى نموذج هو أيضًا أغلى نموذج. استخدام نموذج متقدم لكل مهمة يخرج بالتكلفة عن السيطرة سريعًا. وكلما طالت الحلقة الذاتية، نمت هذه المشكلة لا خطيًا بل أبعد من ذلك.</p>

<p>ثالثًا، دَيْن التحقق هو أكبر خطر. إن لم تلحق المراجعة والاختبار بسرعة التأليف الأعلى، صارت السرعة الأعلى مسألة تكديس شيفرة خاطئة أسرع. وحتى مع وجود حلقة تحقق ذاتي، فهي لا تحل محل حكم الإنسان المسؤول. وهذا صحيح خصوصًا في مجالات يجب أن تكون فيها المساءلة واضحة، كالأمن والتنظيم ومعالجة البيانات.</p>

<p>رابعًا، الاستقلالية هي أيضًا سطح هجوم. الوكيل الذي يملك صلاحيات تشغيل الصدفة والوصول إلى الشبكة خطير دون تصميم ضبط. وكلما ارتفعت القدرة، أمكنه أيضًا إحداث الضرر بكفاءة أكبر بالصلاحيات نفسها.</p>

<p>ختامًا، البرمجة الوكيلية قفزة واضحة في الإنتاجية، لكن تلك القفزة لا تصبح مكسبًا حقيقيًا إلا حين يتوسع التحقق والحوكمة معها. وبدلًا من الحماس للأرقام، فإن إرساء نظام تشغيلي قادر على استيعاب سرعة التأليف الأعلى أولًا هو في النهاية المسار الأسرع.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Anthropic، صفحة “Claude Fable” الرسمية: <a href="https://www.anthropic.com/claude/fable">https://www.anthropic.com/claude/fable</a></li>
  <li>Anthropic، “Introducing Claude Fable 5 and Claude Mythos 5” (وثائق Claude API): <a href="https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5">https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5</a></li>
  <li>Anthropic، تسعير Claude API: <a href="https://platform.claude.com/docs/en/about-claude/pricing">https://platform.claude.com/docs/en/about-claude/pricing</a></li>
  <li>ClaudeDevs، “Claude Fable 5 is here … get started in Claude Code”: <a href="https://x.com/ClaudeDevs/status/2064394919549210774">https://x.com/ClaudeDevs/status/2064394919549210774</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="agentic" /><category term="claude-fable-5" /><category term="llmops" /><category term="platform-engineering" /><category term="governance" /><summary type="html"><![CDATA[انتشر اقتباس بسرعة: يُقال إن مبتكر Claude Code صرّح بأن Fable 5 صار يكتب 100% من شيفرته وأنه أقوى من Opus بثلاثة أضعاف على الأقل. نُبقي الأرقام غير المُتحقَّق منها كاقتباس فحسب، ونفصلها بوضوح عمّا هو مؤكَّد رسميًا (التسعير، نافذة السياق، المعايير)، وعمّا تُغيِّره البرمجة الوكيلية فعليًا. مع كتابة الذكاء الاصطناعي لمعظم الشيفرة، ينتقل دور الإنسان من المراقبة إلى التوجيه، ويصبح التحقق والحوكمة هما عنق الزجاجة. نستعرض التكلفة والتصميم التشغيلي من منظور منصة ThakiCloud السحابية للذكاء الاصطناعي على Kubernetes.]]></summary></entry><entry xml:lang="ar"><title type="html">Hermes Bible: ابحث في وثائق Hermes Agent وسير العمل الواقعية في مكان واحد</title><link href="https://thakicloud.github.io/ar/technique/hermes-bible-agent-docs/" rel="alternate" type="text/html" title="Hermes Bible: ابحث في وثائق Hermes Agent وسير العمل الواقعية في مكان واحد" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/technique/hermes-bible-agent-docs</id><content type="html" xml:base="https://thakicloud.github.io/ar/technique/hermes-bible-agent-docs/"><![CDATA[<p><img src="/assets/images/hermes-bible-agent-docs-hero.png" alt="تمثيل تجريدي لمكتبة معرفة مفهرسة" />
<em>بحث مفهرس، مصوّر كعقد مستندات كثيرة تتقارب نحو نقطة مضيئة واحدة.</em></p>

<h2 id="نظرة-عامة">نظرة عامة</h2>

<p>كلما ازداد إطار الوكيل قوة، ازدادت وثائقه عرقلةً على نحو متناقض. فمع نمو الميزات بسرعة تنتفخ صفحات الوثائق إلى المئات، ويصبح العثور على السطر الذي تحتاجه فعلًا أصعب فأصعب. وHermes Agent الذي أطلقته Nous Research في فبراير 2026 ليس استثناءً. فالوثائق الرسمية منظّمة جيدًا لكنها ضخمة، وفوق ذلك تتناثر المعرفة العملية التي يتشاركها المجتمع على X (تويتر) وغيره.</p>

<p><code class="language-plaintext highlighter-rouge">Hermes Bible</code> (hermesbible.com) موقع مجتمعي غير رسمي يواجه هذه المشكلة مباشرة. يفهرس كل صفحة من وثائق Hermes Agent الرسمية إلى جانب سير عمل واقعية بناها المجتمع في مكان واحد، ويوفّر بحثًا نصيًا كاملًا بضغطة مفتاح واحدة. ويذكر الموقع نفسه بوضوح أنه “غير رسمي، من بناء المجتمع، وغير تابع لـ Nous Research”.</p>

<p>تشغّل ThakiCloud منصة SaaS للذكاء الاصطناعي والتعلّم الآلي قائمة على Kubernetes، وتتعامل داخليًا مع أكثر من 1000 مهارة والعديد من قواعد التشغيل. لذا فإن سؤال “كيف تجعل كمًّا هائلًا من معرفة الوكلاء قابلًا للبحث” شاغل يومي لنا أيضًا. في هذه التدوينة نطّلع على ما يحتويه Hermes Bible وكيف، وكيف يختلف عن الوثائق الرسمية، وانعكاساته من منظور منصتنا.</p>

<h2 id="ما-هذا-الموقع">ما هذا الموقع</h2>

<p>الوظيفة الأساسية لـ Hermes Bible هي الفهرسة والبحث. يحتوي الموقع على 169 صفحة من وثائق Hermes Agent مقسّمة إلى 10 أقسام: Getting Started (6 صفحات تشمل التثبيت والبدء السريع ومسار التعلّم)، وCore Features (45 صفحة تشمل نظرة عامة على الميزات والأدوات ونظام المهارات والمنسّق)، وMessaging Platforms (30 صفحة تشمل بوابة المراسلة وتيليجرام وديسكورد وسلاك)، وSecrets (صفحتان)، وSkills، وUsing Hermes (15 صفحة تشمل CLI وTUI والإعداد وتهيئة النماذج)، وغيرها.</p>

<p>يُستدعى البحث بضغطة ⌘K، وهو بحث نصي كامل غامض يمسح كل عنوان صفحة وقسم وترويسة. ووفقًا للموقع تظهر النتائج فور الكتابة دون تحميل أو انتظار. والهدف هو تجربة العثور على الموضع الدقيق في وثائق ضخمة خلال ثوانٍ بكلمة مفتاحية واحدة. يوضّح المخطط أدناه كيف يوحّد الموقع الوثائق الرسمية وسير عمل المجتمع في سطح بحث واحد.</p>

<pre><code class="language-mermaid">flowchart LR
  A["وثائق Hermes Agent الرسمية&lt;br/&gt;169 صفحة · 10 أقسام"] --&gt; C["Hermes Bible&lt;br/&gt;فهرس نصي كامل (غير رسمي)"]
  B["سير عمل المجتمع&lt;br/&gt;28 سير عمل واقعي"] --&gt; C
  C --&gt; D["بحث نصي كامل غامض ⌘K&lt;br/&gt;عناوين · أقسام · ترويسات"]
  D --&gt; E["نتائج فورية فور الكتابة&lt;br/&gt;دون تحميل"]
  C --&gt; F["تصفّح /docs&lt;br/&gt;10 أقسام"]
  C --&gt; G["/flows&lt;br/&gt;البنى · اقتصاد الرموز"]
</code></pre>

<p>عامل التمييز هو مكتبة Flows. فإلى جانب الوثائق الرسمية، تجمع 28 سير عمل واقعيًا لأتمتة متعددة الوكلاء بناها المجتمع فعلًا. ويُنظَّم كل سير عمل بحيث يمكنك البحث فيه ودراسته وتكييفه، شاملًا البنية الكاملة واقتصاد الرموز وأنماط التنسيق. فمثلًا تقدّم إحدى المقالات لوحة Hermes (localhost:9119) التي “لا يتحدث عنها أحد لكنني أفتحها كل يوم” بوصفها سطح تشغيل للحفاظ على صحة وكيل يعمل على مدار الساعة، وتغطي Sessions وMCP وSkills وCron وAnalytics وLogs وSystem. وأخرى بعنوان “المستويات الخمسة عشر لاستخدام Hermes Agent” تعرض كل شيء من أول موجّه بضربة واحدة إلى أتمتة عمل تجاري عبر ملفات متعددة، مع اقتصاد الرموز، وتذكر أنها جرى التحقق منها مقابل Hermes Agent v0.17.0.</p>

<p>للمرجع، Hermes Agent نفسه مشروع برخصة MIT من Nous Research، يُظهر نحو 200 ألف نجمة على GitHub و35.7 ألف تفريعة وأكثر من 12 ألف إيداع حتى كتابة هذه السطور. ويعلن عن “حلقة تعلّم مغلقة” يصنع فيها الوكيل مهارات من التجربة ويحسّنها أثناء الاستخدام ويبني نموذجًا للمستخدم عبر الجلسات. ويمكن النظر إلى Hermes Bible بوصفه استجابة المجتمع لمواكبة هذا المشروع السريع التطوّر.</p>

<h2 id="انعكاسات-من-منظور-منصة-thakicloud">انعكاسات من منظور منصة ThakiCloud</h2>

<p>النظر إلى Hermes Bible لا كموقع بحث فحسب بل كنمط يجعله درسًا مباشرًا لنا. تشغّل ThakiCloud داخليًا أكثر من 1000 مهارة وقاعدة تشغيل، وهي بالضبط المشكلة نفسها لـ “قابلية بحث المعرفة الهائلة” التي تواجهها وثائق Hermes Agent. وفي الواقع تمتلك منصتنا بالفعل بوابة بحث مهارات قائمة على BM25 تُبرز المرشحين في كل دورة عمل. ويوضّح بحث ⌘K النصي الفوري في Hermes Bible جيدًا، من جانب تجربة المستخدم، الطرح نفسه القائل إنه “كلما نمت المعرفة، صار البحث إنتاجية”.</p>

<p>مفهوم Flows مثير للاهتمام بوجه خاص. فإذا كانت الوثائق الرسمية تشرح الميزات، فإن Flows تتشارك وصفات عملية تنسج تلك الميزات معًا، مكتملة بالبنية واقتصاد الرموز. وهذه هي الفكرة نفسها لـ ThakiCloud في معاملة المهارات والقواعد بوصفها “منتجات قدرة مغلّفة مع حالات الفشل والمزالق والهياكل المتحقَّق منها”. فحين تراكم المعرفة كسير عمل قابل لإعادة الاستخدام يربط المدخل والمعالجة والمخرج والتعافي من الأخطاء بدلًا من موجّهات مفردة، تتضاعف قيمة البحث والمشاركة أخيرًا.</p>

<p>ثمة نقطة تماس تشغيلية أيضًا. فكما تجمع لوحة Hermes بين Sessions وCron وSkills وAnalytics وLogs في شاشة واحدة لإدارة وكيل يعمل على مدار الساعة، نصمّم نحن كذلك التشغيل نحو جعل الحلقات غير المراقَبة والمهام المجدولة مرئية عبر سجلّ مركزي. ففي نظام وكلاء سريع التطوّر، تُعدّ رؤية “ما الذي يعمل الآن وما الذي يقرؤه ويكتبه” بنظرة واحدة شرطًا أساسيًا للتشغيل المستقر.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>أوضح القيود أنه غير رسمي. فـ Hermes Bible مشروع مجتمعي غير تابع لـ Nous Research، لذا لا ضمان بأن المحتوى المفهرس يطابق دائمًا أحدث الوثائق الرسمية. وHermes Agent مشروع سريع الحركة بأكثر من 12 ألف إيداع. والفهرس غير الرسمي يتأخّر بطبيعته، وخاصة في مجالات مثل الإعداد الحسّاس أمنيًا أو إدارة الأسرار يجب أن تعامل الوثائق الرسمية بوصفها المرجع النهائي.</p>

<p>ثانيًا، عليك مراعاة أن الوثائق الرسمية توفّر بالفعل نقاط دخول صديقة للآلة. إذ تقدّم وثائق Hermes Agent الرسمية ملف <code class="language-plaintext highlighter-rouge">/llms.txt</code> (نحو 17 كيلوبايت) الذي يفهرس كل صفحة بوصف قصير، وملف <code class="language-plaintext highlighter-rouge">/llms-full.txt</code> (نحو 1.8 ميجابايت) الذي يدمج كل شيء في ملف واحد. ولتحميل الوثائق دفعةً واحدة في نموذج لغوي كبير، يكون هذا المسار الرسمي أكثر موثوقية واستقرارًا. أي إن قوة Hermes Bible تكمن خالصةً في تجربة بحث الإنسان بسرعة وتصفّح سير عمل المجتمع.</p>

<p>ثالثًا، ثمة خطر عام من الاعتماد الخارجي. فإذا جذبت مدونة شركة أو وثيقة تشغيل موقعًا من طرف ثالث إلى مسارها الأساسي، فقد تنكسر الروابط حين يختفي ذلك الموقع أو يغيّر وجهته. والأفضل استخدام Hermes Bible كأداة مساعدة للاكتشاف والتعلّم، ولا يصح معاملته كمصدر الحقيقة الوحيد لعملياتنا الداخلية.</p>

<p>خلاصة القول، يُعدّ Hermes Bible أصلًا مجتمعيًا متقنًا يساعد الناس على مواكبة معرفة إطار وكيل سريع التطوّر. ومع ذلك، تحتاج إلى توازن الإقرار بتأخّره غير الرسمي المتأصل واعتماده الخارجي مع إبقاء الوثائق الرسمية نقطةً مرجعية. وقبل كل شيء، فإن النمط الذي يجسّده، “اجعل معرفة الوكلاء الهائلة قابلة للبحث، وقابلة للمشاركة كسير عمل عملي”، هو أثمن انعكاس لمنصة مثل منصتنا تشغّل مهارات وقواعد واسعة النطاق.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Hermes Bible: <a href="https://www.hermesbible.com/">hermesbible.com</a></li>
  <li>Hermes Agent (Nous Research): <a href="https://github.com/NousResearch/hermes-agent">github.com/NousResearch/hermes-agent</a></li>
  <li>الوثائق الرسمية: <a href="https://hermes-agent.nousresearch.com/docs/">hermes-agent.nousresearch.com/docs</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="technique" /><category term="ai-coding" /><category term="hermes-agent" /><category term="documentation" /><category term="agent-workflows" /><category term="knowledge-base" /><category term="platform-engineering" /><summary type="html"><![CDATA[موقع مجتمعي غير رسمي يفهرس 169 صفحة من وثائق Hermes Agent من Nous Research إضافة إلى 28 سير عمل بناها المجتمع، وكلها قابلة للبحث بضغطة ⌘K واحدة. إليك ما يحتويه، وكيف يختلف عن الوثائق الرسمية، ولماذا يهمّ هذا النمط ThakiCloud التي تشغّل أكثر من 1000 مهارة وقاعدة.]]></summary></entry><entry xml:lang="en"><title type="html">Sakana Fugu: The Orchestration Era Where Models Command Models</title><link href="https://thakicloud.github.io/en/agentops/sakana-fugu-orchestration-model/" rel="alternate" type="text/html" title="Sakana Fugu: The Orchestration Era Where Models Command Models" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/agentops/sakana-fugu-orchestration-model</id><content type="html" xml:base="https://thakicloud.github.io/en/agentops/sakana-fugu-orchestration-model/"><![CDATA[<h2 id="overview">Overview</h2>

<p>For much of the past several years, AI progress has been driven by scale: train bigger models on more data, and compete on monolith benchmarks. But the hard problems of the real world demand a breadth of knowledge and skill that far exceeds any single benchmark score. The ability to judge which model fits which task, to divide planning from execution, and to combine the strengths of different models – collective intelligence – is emerging as the next axis of competition.</p>

<p>On June 22, 2026, Tokyo-based Sakana AI launched <strong>Sakana Fugu</strong>, a product aimed squarely at this shift. Fugu is a multi-agent system that dynamically coordinates multiple LLMs while presenting a single model API to the caller. What makes it notable is that Fugu itself is “a language model trained to call other models.” A model commands models.</p>

<p>This post analyzes Fugu’s architecture from the perspective of ThakiCloud, an operator of multi-tenant agent platforms. We examine why packaging orchestration inside a single model is a meaningful design choice, how to read the self-reported benchmarks, and what contradictions lurk in the product’s marketing claim that it reduces vendor lock-in.</p>

<hr />

<h2 id="what-this-technology-is">What This Technology Is</h2>

<p>Sakana Fugu is a multi-agent system that behaves like a single model. When a user sends a request to a single endpoint, Fugu decides how to handle it. Simple requests it handles directly; more complex tasks it routes to a coordinated team of specialist models. Model selection, delegation, verification, and synthesis all happen internally, so the complexity of a multi-agent system never surfaces in user code.</p>

<p><img src="/assets/images/sakana-fugu-orchestration-model-diagram.png" alt="Sakana Fugu orchestration architecture: behind a single API, Fugu dynamically coordinates a pool of agents" /></p>

<p>This is possible because Fugu is not a set of routing rules but <strong>a language model trained on orchestration itself</strong>. Fugu is specialized to understand when to delegate, how agents should communicate, and how to synthesize their outputs into a single trustworthy answer. The approach draws on two Sakana AI papers accepted at ICLR 2026: TRINITY (arXiv:2512.04695), which introduces an evolved LLM coordinator, and Conductor (arXiv:2512.04388), which studies learning to orchestrate agents in natural language.</p>

<p>One design detail worth noting: Fugu can <strong>recursively call its own instances</strong> within the agent pool. From the outside, you are calling one model; from the inside, a coordinated system of specialists is doing the work. The agent pool is designed to be swappable, with the stated goal of reducing dependence on any single provider.</p>

<hr />

<h2 id="architecture-a-collaborative-ecosystem-behind-a-single-api">Architecture: A Collaborative Ecosystem Behind a Single API</h2>

<p>Fugu’s central claim is that “the orchestration model is the next frontier.” Since its founding, Sakana AI has argued that the most capable AI systems will be collaborative ecosystems, not isolated giant models. Fugu is the product manifestation of that belief.</p>

<p>Technically, Fugu handles four internal stages within a single API call:</p>

<ul>
  <li><strong>Selection</strong>: It reads the nature of the request and decides whether to handle it directly or which specialist models to engage.</li>
  <li><strong>Delegation</strong>: It separates planning from execution and distributes sub-tasks to the appropriate agents.</li>
  <li><strong>Verification</strong>: It checks each agent’s output internally.</li>
  <li><strong>Synthesis</strong>: It combines the results into a single coherent answer.</li>
</ul>

<p>All of this happens behind one line of OpenAI-compatible API. This contrasts with conventional multi-agent frameworks, which push complexity – graph definitions, message routing, state management – onto the developer. Fugu is an attempt to absorb that complexity into the model weights themselves. Compared to the multi-persona agent team structure ThakiCloud already operates, Fugu takes one step further: it makes the orchestrator a trained model rather than hand-written code.</p>

<p>Sakana AI has prior evidence for this direction. ALE-Agent, a coding orchestrator, placed 21st in a coding competition among 1,000 human experts. Fugu extends that experience into a general-purpose orchestration product.</p>

<hr />

<h2 id="two-variants-fugu-and-fugu-ultra">Two Variants: Fugu and Fugu Ultra</h2>

<p>At launch, Fugu is available in two variants sized for different workloads. Both are accessed through a single OpenAI-compatible API.</p>

<p><strong>Fugu (standard)</strong> balances performance with low latency. It is a sensible default for interactive services such as coding assistance, code review, and chatbots. Teams with data, privacy, or compliance requirements can exclude specific agents from the pool. This opt-out capability is meaningful for regulated industries and customers with data-sovereignty requirements.</p>

<p><strong>Fugu Ultra</strong> is tuned to maximize answer quality on difficult, multi-step problems. It draws on a deeper pool of specialist agents when accuracy and depth matter most. Early users have reportedly put Fugu Ultra to work on high-demand tasks such as AI research, paper reproduction, cybersecurity analysis, and literature and patent search.</p>

<p>The separation of these two variants is essentially a mechanism for exposing the cost-quality trade-off to the user. Orchestration inherently involves multiple model calls, so engaging a deeper pool drives up both latency and cost. Fugu surfaces that trade-off as two product lines.</p>

<hr />

<h2 id="how-to-read-the-benchmarks">How to Read the Benchmarks</h2>

<p>Sakana AI announced that Fugu Ultra performs “shoulder-to-shoulder” with leading models such as Anthropic’s Fable 5 and Mythos Preview on challenging engineering, science, and reasoning benchmarks. That claim requires careful reading.</p>

<p>First, <strong>every baseline score other than Fugu’s own numbers comes from the respective model provider’s self-reports</strong>. This is not an independently controlled apples-to-apples comparison; it is a collection of self-announced figures. Second, the comparison targets – Fable 5 and Mythos Preview – are not publicly available and <strong>are not included in Fugu’s agent pool</strong>. Fugu is claiming near-parity with models it does not internally call. Third, the SWE-family tasks were scored using mini-swe-agent scaffolding. The choice of scaffolding materially affects results, so these cannot be treated as equivalent conditions.</p>

<p>At this point, the proposition that “Fugu Ultra is on par with frontier models” should be treated as <strong>a self-reported claim</strong>. The specific figures are compiled in Sakana AI’s technical report (github.com/SakanaAI/fugu), but until independent third-party verification accumulates, distinguishing marketing numbers from validated performance is prudent. This post does not cite individual unverified scores; it records only the nature of the claims.</p>

<hr />

<h2 id="implications-for-thakiclouds-k8s-aiml-saas-platform">Implications for ThakiCloud’s K8s AI/ML SaaS Platform</h2>

<p>The questions Fugu raises map precisely onto ThakiCloud’s platform strategy. ThakiCloud operates multi-tenant agents across diverse customer environments, running an agent operations cloud called Praxis on top of K8s, Kueue-based GPU scheduling, and vLLM serving. The thesis Fugu is trying to prove – that “the orchestration layer itself becomes the product” – is the same direction we are already pursuing.</p>

<p>The core is <strong>hedging vendor lock-in</strong>. Sakana AI cited the risk of dependence on a single provider as the justification for launching Fugu. As the export-control episode around Anthropic’s Fable and Mythos models illustrated, regulatory boundaries or diplomatic policy shifts can change access to a specific API overnight. In critical sectors such as government, finance, and infrastructure, depending on a single company’s API is a real vulnerability. This logic is the same reason ThakiCloud has emphasized on-premises and self-hosting.</p>

<p>From ThakiCloud’s perspective, Fugu’s design offers two uses. First, it is valuable as a <strong>reference implementation of orchestration patterns</strong>. The structure of dynamically routing self-hosted open models on K8s – combining coding, reasoning, and domain-specialized models by task type – is an idea that maps directly onto Praxis agent operations. Second, <strong>opt-out-based compliance</strong>: the ability to exclude specific agents from the pool connects naturally to policies that restrict the set of permitted models per tenant in a multi-tenant environment.</p>

<p>Where ThakiCloud can differentiate from Fugu is clear, however. Fugu is a closed API; ThakiCloud offers a path to <strong>self-hosting the orchestration layer inside the customer’s own environment</strong>. For domestic customers that must address sovereignty, cost efficiency, and national-security requirements, the option to “put the orchestration inside our own cluster” is a decisive difference. Fine-tuning an open model at the level of Qwen3 for a specific domain, then self-hosting the orchestration layer on top of it, can deliver strong competitiveness at lower serving cost.</p>

<hr />

<h2 id="limits-and-counterarguments">Limits and Counterarguments</h2>

<p>Fugu is an interesting product, but its marketing logic has several points worth scrutinizing.</p>

<p>The biggest contradiction is that <strong>it creates a new dependency while claiming to reduce vendor lock-in</strong>. Fugu is a closed commercial API; it is not open-weight. A product launched on the logic that single-provider dependence is dangerous in turn requires dependence on a new single provider: Sakana AI. The fact that Fugu is not available in the EU/EEA at launch also demonstrates that this product, too, is subject to regulation and regional policy. Genuine vendor-lock-in hedging is only possible with self-hostable orchestration.</p>

<p>Second, <strong>cost and latency are unpredictable</strong>. A structure in which a model calls other models – and sometimes itself recursively – makes it hard to forecast how many model calls a single request will trigger internally. Modes like Fugu Ultra that engage deeper pools can deliver higher quality, but cost and latency may spike accordingly. For production teams managing SLAs and budgets, controlling this unpredictability is the key challenge.</p>

<p>Third, <strong>verification and debugging are harder</strong>. The fact that the internal delegation path is embedded in model weights is an advantage for ease of use, but it means that when a wrong answer appears, tracing which agent’s judgment caused the problem is difficult. In operational environments where observability matters, this opacity is a liability.</p>

<p>Fourth, as noted earlier, <strong>the performance claims are still at the self-reported stage</strong>. The comparison targets are non-public models not included in the pool, and the baselines are provider self-reports. Reserving judgment until independent reproduction and verification accumulate is the rational response.</p>

<p>Despite these reservations, the question Fugu raises – “Can orchestration be a learned capability rather than hand-written code?” – is one every multi-agent platform operator will have to face. ThakiCloud intends to answer that question with <strong>self-hostable, observable orchestration</strong> as its differentiator.</p>

<hr />

<h2 id="sources">Sources</h2>

<ul>
  <li>Sakana AI, “Sakana Fugu: One Model to Command Them All”, 2026-06-22, <a href="https://sakana.ai/fugu-release/">sakana.ai/fugu-release</a></li>
  <li>Sakana Fugu Technical Report, Fugu Team, Sakana AI, 2026, <a href="https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf">github.com/SakanaAI/fugu</a></li>
  <li>Xu et al., “TRINITY: An Evolved LLM Coordinator”, ICLR 2026, <a href="https://arxiv.org/abs/2512.04695">arXiv:2512.04695</a></li>
  <li>Nielsen et al., “Learning to Orchestrate Agents in Natural Language with the Conductor”, ICLR 2026, <a href="https://arxiv.org/abs/2512.04388">arXiv:2512.04388</a></li>
  <li>THE DECODER, “Sakana AI’s Fugu orchestrates multiple LLMs to match Anthropic’s Fable and Mythos benchmarks”, 2026-06-22, <a href="https://the-decoder.com/sakana-ais-fugu-orchestrates-multiple-llms-to-match-anthropics-fable-and-mythos-benchmarks/">the-decoder.com</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="agentops" /><category term="sakana-ai" /><category term="multi-agent" /><category term="orchestration" /><category term="llm-routing" /><category term="vendor-lock-in" /><summary type="html"><![CDATA[Fugu, released by Sakana AI, is an orchestration system that dynamically coordinates multiple LLMs while appearing to the user as a single model API. We analyze why this architecture matters from a multi-agent platform perspective and what it means for ThakiCloud's multi-tenant agent operations.]]></summary></entry><entry xml:lang="en"><title type="html">Micron-Anthropic Partnership: Memory Becomes the Battleground of AI Infrastructure</title><link href="https://thakicloud.github.io/en/news/micron-anthropic-ai-memory-infrastructure/" rel="alternate" type="text/html" title="Micron-Anthropic Partnership: Memory Becomes the Battleground of AI Infrastructure" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/news/micron-anthropic-ai-memory-infrastructure</id><content type="html" xml:base="https://thakicloud.github.io/en/news/micron-anthropic-ai-memory-infrastructure/"><![CDATA[<h2 id="overview">Overview</h2>

<p>The center of gravity in the AI race has been shifting from models to infrastructure, and within infrastructure, from compute to memory. GPU compute capacity has grown rapidly, but the real practical bottleneck for large language model inference has become how quickly data can be fed to that compute, which is to say, memory bandwidth.</p>

<p>On June 22, 2026, memory semiconductor company Micron and AI company Anthropic announced a strategic partnership. This goes well beyond a simple component supply contract: it bundles a multi-year supply agreement, co-design of memory and storage architecture for AI workloads, and an equity investment into a single comprehensive alliance. The partnership signals that memory is no longer a passive component but an active variable in AI system design.</p>

<p>This post reads the partnership through the lens of <strong>infrastructure technology</strong> rather than stock market reaction. It covers why memory has become the battleground of AI infrastructure, what co-designing memory and storage changes, and the implications for ThakiCloud as an operator of a K8s-based AI/ML serving platform.</p>

<hr />

<h2 id="what-happened">What Happened</h2>

<p>The core of the announced partnership has three components.</p>

<p><strong>First, a multi-year supply agreement.</strong> Micron will supply Anthropic with high-bandwidth memory (HBM), DRAM, and solid-state drives (SSD), the key products for data center use. This is a long-term contract to secure stable supply volumes, not a one-off purchase.</p>

<p><strong>Second, co-design of memory and storage architecture.</strong> The two companies agreed to jointly design memory and storage architectures optimized for AI workloads. In other words, this is a collaboration to align memory configuration and data paths with Anthropic’s model training and inference patterns. This is the aspect that most clearly distinguishes the deal from a plain supply contract.</p>

<p><strong>Third, strategic equity investment.</strong> Micron made a strategic investment in Anthropic’s Series H funding round. The investment amount was not disclosed. Through this round, Anthropic was valued at approximately $965 billion [estimated], becoming the most valuable private AI company, with Samsung, SK hynix, Altimeter Capital, Sequoia, and Amazon among the reported participants. The agreement also includes deploying Claude across Micron’s internal operations.</p>

<p>Micron’s stock rose roughly 5.5% immediately after the announcement. The focus of this post, however, is not the share price but the technical implications this alliance carries for AI infrastructure design.</p>

<hr />

<h2 id="why-memory-is-the-bottleneck-in-ai-infrastructure">Why Memory Is the Bottleneck in AI Infrastructure</h2>

<p>Inference for large language models is fundamentally a memory-bound workload. Every time a token is generated, the model’s full set of weights must be read from memory. No matter how fast the compute units are, if weights cannot be supplied quickly enough, the GPU sits idle waiting for data. As a result, inference throughput is often determined by memory bandwidth rather than compute capacity.</p>

<p><img src="/assets/images/micron-anthropic-ai-memory-infrastructure-diagram.png" alt="AI inference server memory hierarchy: HBM is closest to the GPU and is the fastest bottleneck point" /></p>

<p>The memory hierarchy of an AI inference server is structured as shown in the diagram above.</p>

<ul>
  <li><strong>HBM (High-Bandwidth Memory)</strong>: The ultra-fast memory closest to the GPU. It delivers bandwidth on the order of terabytes per second and holds active model weights and the KV cache. HBM is the direct bottleneck for inference throughput.</li>
  <li><strong>DRAM (System Memory)</strong>: Larger capacity than HBM but slower. Used to swap weights that do not fit in HBM or to hold larger contexts.</li>
  <li><strong>SSD (Storage)</strong>: Slowest but largest in capacity. Hosts model checkpoints, cold data, and an ever-growing share of KV cache offloading.</li>
</ul>

<p>When a single company supplies the entire hierarchy, it becomes possible to optimize data movement across all layers under a coherent design philosophy. The fact that Micron covers HBM, DRAM, and SSD is the key strategic asset in this partnership.</p>

<hr />

<h2 id="what-co-designing-memory-and-storage-changes">What Co-Designing Memory and Storage Changes</h2>

<p>Until now, memory has largely been purchased as a commodity to a standard specification. The noteworthy aspect of this partnership is that Micron and Anthropic will <strong>co-design memory and storage architectures tailored to AI workloads</strong>. This implies several shifts.</p>

<p>First, the data access patterns of inference and training can be directly reflected in memory design. For example, efficient paths for offloading the KV cache from HBM to DRAM or SSD, and structures that reduce the cost of crossing memory hierarchy boundaries during long-context processing, are problems that are better solved when the model provider and the memory provider design together.</p>

<p>Second, the partnership shows that AI infrastructure is becoming increasingly <strong>vertically integrated</strong>. It is a signal that frontier AI companies are trying to secure not just GPUs but also memory at the supply chain and design stage. The participation of memory companies like Samsung and SK hynix in the same Series H round can be read in the same light. Memory supply capability is being incorporated as part of AI competitiveness.</p>

<hr />

<h2 id="thakicloud-k8s-aiml-saas-platform-perspective">ThakiCloud K8s AI/ML SaaS Platform Perspective</h2>

<p>This is a deal between large companies, but it carries direct lessons for ThakiCloud as an operator of a K8s-based AI/ML serving platform.</p>

<p>First, it reconfirms that <strong>memory is the starting point for serving cost optimization</strong>. ThakiCloud runs multi-tenant inference on top of vLLM and Kueue-based GPU scheduling. In this environment, the most effective lever for increasing throughput is often memory utilization, not compute. KV cache management, batching strategies, and model placement calibrated to HBM capacity are the key techniques for handling more concurrent requests on the same GPU. The reason technologies like vLLM’s PagedAttention receive attention ultimately comes down to memory efficiency.</p>

<p>Second, there is the <strong>economics of on-premises AI infrastructure</strong>. The trend of frontier companies securing memory as a strategic asset paradoxically highlights the value of on-premises self-hosting. When customers serve models on their own GPU and memory, the ability to tune the memory hierarchy to the workload determines total cost of ownership (TCO). ThakiCloud can provide more predictable and efficient inference costs than cloud API dependency by optimizing model placement and memory configuration within customer clusters.</p>

<p>Third, there is the <strong>sovereignty and supply chain perspective</strong>. The fact that memory has become the battleground of AI competition prompts a rethinking of the vulnerabilities in structures where domestic customers simultaneously depend on external clouds and external supply chains. Demand for keeping data and infrastructure in-house through on-premises and self-hosting, especially in domains subject to national security or regulatory requirements, strengthens in this context.</p>

<hr />

<h2 id="caveats-and-counter-arguments">Caveats and Counter-Arguments</h2>

<p>To avoid over-interpreting this partnership, several points deserve attention.</p>

<p>First, a substantial portion of the public information remains at the <strong>press release level</strong>. What specific technical outputs the co-design of memory and storage architecture will produce, and the amounts of investment and supply volumes involved, have not been disclosed. The practical impact of the partnership therefore needs to be confirmed through future products and data; assessment at this point is closer to an interpretation of direction.</p>

<p>Second, it is important to <strong>distinguish between commercial and financial motivations and technical significance</strong>. The equity investment and internal Claude deployment are mechanisms to strengthen business ties; they do not in themselves guarantee advances in memory technology. Figures like the $965 billion [estimated] valuation or the stock price gain reflect market expectations and do not connect directly to infrastructure performance.</p>

<p>Third, while the premise that memory bandwidth is the bottleneck holds broadly across inference workloads, <strong>it does not apply equally in all cases</strong>. With smaller models, high batch throughput, or compute-intensive stages, compute can be the bottleneck. The simplification that “more memory solves everything” should be resisted; measuring the bottleneck empirically for each workload and responding accordingly is the correct approach.</p>

<p>In conclusion, the Micron-Anthropic partnership is a meaningful signal that competition in AI infrastructure is expanding beyond compute to the entire memory hierarchy. ThakiCloud intends to use this trend as a foundation for strengthening our strengths in memory-efficient serving and on-premises economics.</p>

<hr />

<h2 id="sources">Sources</h2>

<ul>
  <li>Micron Technology, “Micron and Anthropic Announce Strategic Agreement to Scale Next-Generation AI Infrastructure”, 2026-06-22, <a href="https://investors.micron.com/news-releases/news-release-details/micron-and-anthropic-announce-strategic-agreement-scale-next">investors.micron.com</a></li>
  <li>Yahoo Finance, “Micron and Anthropic Announce Strategic Agreement to Scale Next-Generation AI Infrastructure”, 2026-06-22, <a href="https://finance.yahoo.com/technology/ai/articles/micron-anthropic-announce-strategic-agreement-130000301.html">finance.yahoo.com</a></li>
  <li>Crypto Briefing, “Micron signs supply agreement with Anthropic AI, invests in Series H round”, 2026-06-22, <a href="https://cryptobriefing.com/micron-anthropic-supply-agreement-series-h/">cryptobriefing.com</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="news" /><category term="micron" /><category term="anthropic" /><category term="hbm" /><category term="ai-infrastructure" /><category term="memory" /><summary type="html"><![CDATA[Micron will supply HBM, DRAM, and SSD to Anthropic, co-design AI workload memory architectures, and invested in the Series H round. This analysis examines why memory bandwidth is the real bottleneck in LLM inference and what the partnership means from an on-premises AI infrastructure perspective.]]></summary></entry><entry xml:lang="en"><title type="html">Document Parsing SOTA at 0.9B: We Ran PaddleOCR-VL on Korean and Arabic Documents</title><link href="https://thakicloud.github.io/en/research/paddleocr-vl-09b-multilingual-document-parsing/" rel="alternate" type="text/html" title="Document Parsing SOTA at 0.9B: We Ran PaddleOCR-VL on Korean and Arabic Documents" /><published>2026-06-23T00:00:00+09:00</published><updated>2026-06-23T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/research/paddleocr-vl-09b-multilingual-document-parsing</id><content type="html" xml:base="https://thakicloud.github.io/en/research/paddleocr-vl-09b-multilingual-document-parsing/"><![CDATA[<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-hero.png" alt="Abstract image showing translucent documents transforming into a structured node grid" />
<em>An abstract representation of many documents being organized into structured data.</em></p>

<blockquote>
  <p>📄 <strong>Full deep review (DOCX)</strong>: <a href="https://drive.google.com/file/d/1aFDms1DJR0iMABZcOX3kxPw23SSlOchT/view">Download the detailed peer review on Google Drive</a>.</p>
</blockquote>

<h2 id="overview">Overview</h2>

<p>Document parsing – converting documents into machine-readable structure – has regained importance in the era of RAG and AI agents. A single PDF page can mix body text, tables, formulas, charts, and multi-column layouts, and untangling all of that in the correct reading order is a prerequisite for LLMs to reason over it effectively. Until now, this space has been dominated by large multimodal models like GPT-4o or Gemini 2.5 Pro, or by heavy pipeline-based tools.</p>

<p><strong>PaddleOCR-VL</strong>, released by the PaddlePaddle team at Baidu, challenges that picture. Its core model, PaddleOCR-VL-0.9B, has roughly 960 million parameters – an ultra-compact vision-language model – yet it reports top-tier performance on both page-level document parsing and element-level recognition. The license is Apache-2.0, meaning unrestricted commercial use, and the model has already accumulated over 120,000 downloads on Hugging Face.</p>

<p>At ThakiCloud, we operate multi-tenant inference and document processing workloads directly on our Kubernetes-based AI/ML SaaS platform. So instead of just summarizing the paper, we installed the model ourselves and ran inference on documents mixing Korean, English, and Arabic. The goal: find out whether a small model is genuinely usable in practice and where it fits in our platform.</p>

<h2 id="what-this-technology-is">What This Technology Is</h2>

<p>The core design philosophy of PaddleOCR-VL is: <strong>do not handle everything with a single large end-to-end VLM</strong>. End-to-end approaches rely on long autoregressive decoding, which is costly in latency and memory, and they are prone to hallucinations and instability on multi-column or mixed layouts. PaddleOCR-VL separates the work into two stages instead.</p>

<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-diagram.png" alt="PaddleOCR-VL two-stage pipeline diagram" />
<em>Two-stage structure separating layout analysis from element recognition.</em></p>

<p><strong>Stage 1, Layout Analysis (PP-DocLayoutV2)</strong>: A lightweight dedicated model locates and classifies semantic regions in the document, then predicts reading order. It uses RT-DETR for object detection and a pointer network with 6 transformer layers for reading order prediction. By offloading layout reasoning from the heavy VLM into a separate module, the pipeline achieves stable results even on complex multi-column layouts.</p>

<p><strong>Stage 2, Element Recognition (PaddleOCR-VL-0.9B)</strong>: This stage receives the regions identified in Stage 1 and performs fine-grained recognition of body text, tables, formulas, and charts. The architecture follows the LLaVA family, but uses a NaViT-style dynamic-resolution encoder (initialized from the Keye-VL vision model) as its visual backbone, enabling lossless processing of arbitrary-resolution images. A 2-layer MLP projector with GELU activation (merge size 2) bridges visual features into the language model’s embedding space, and the decoder is ERNIE-4.5-0.3B with 3D-RoPE. Choosing a small language model as the decoder is a deliberate speed tradeoff – smaller decoders decode faster per token.</p>

<p>A lightweight post-processing module then merges the outputs of both stages into structured Markdown and JSON. The model supports 109 languages, covering not only Latin scripts but also Korean, Japanese, Arabic, Cyrillic, Devanagari (Hindi), and other writing systems.</p>

<h2 id="installation-and-integration">Installation and Integration</h2>

<p>Let’s walk through the installation. Our environment is an Apple Silicon MacBook (macOS, CPU-only, no GPU acceleration) running Python 3.12.8. PaddleOCR-VL runs on top of the PaddlePaddle ecosystem, so we install two packages:</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="c"># Install into the shared virtual environment (.venv) per python-runtime rules</span>
<span class="nv">VIRTUAL_ENV</span><span class="o">=</span><span class="s2">"</span><span class="nv">$PWD</span><span class="s2">/.venv"</span> uv pip <span class="nb">install </span>paddlepaddle paddleocr
<span class="c"># Installed versions: paddlepaddle==3.3.1, paddleocr==3.7.0</span>
</code></pre></div></div>

<p>The first inference attempt raised this error:</p>

<div class="language-text highlighter-rouge"><div class="highlight"><pre class="highlight"><code>RuntimeError: A dependency error occurred during pipeline creation.
Please refer to the installation documentation to ensure all required dependencies are installed.
</code></pre></div></div>

<p>The PaddleOCR-VL pipeline requires additional document-parsing-specific dependencies. One extra command resolved it:</p>

<div class="language-bash highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="nv">VIRTUAL_ENV</span><span class="o">=</span><span class="s2">"</span><span class="nv">$PWD</span><span class="s2">/.venv"</span> uv pip <span class="nb">install</span> <span class="s2">"paddleocr[doc-parser]"</span>
</code></pre></div></div>

<p>The inference code itself is short. The pipeline downloads the required models automatically on first use:</p>

<div class="language-python highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="kn">from</span> <span class="n">paddleocr</span> <span class="kn">import</span> <span class="n">PaddleOCRVL</span>

<span class="n">pipe</span> <span class="o">=</span> <span class="nc">PaddleOCRVL</span><span class="p">()</span>                 <span class="c1"># Downloads models automatically on first call
</span><span class="n">out</span> <span class="o">=</span> <span class="n">pipe</span><span class="p">.</span><span class="nf">predict</span><span class="p">(</span><span class="sh">"</span><span class="s">sample_doc.png</span><span class="sh">"</span><span class="p">)</span> <span class="c1"># Document image -&gt; structured output
</span><span class="k">for</span> <span class="n">res</span> <span class="ow">in</span> <span class="n">out</span><span class="p">:</span>
    <span class="n">res</span><span class="p">.</span><span class="nf">save_to_markdown</span><span class="p">(</span><span class="n">save_path</span><span class="o">=</span><span class="sh">"</span><span class="s">paddleocr_out</span><span class="sh">"</span><span class="p">)</span>
</code></pre></div></div>

<p>One important note: <code class="language-plaintext highlighter-rouge">paddleocr==3.7.0</code> automatically selects <strong>PP-DocLayoutV3</strong> as the layout model and <strong>PaddleOCR-VL-1.6-0.9B</strong> as the recognition model when building the pipeline. In other words, the package pulls in the post-publication 1.6 model and a newer layout model as its defaults – not the original version from the base paper (2510.14528). The widely shared “OmniDocBench 96.33% SOTA” figure comes from PaddleOCR-VL-1.6 (on OmniDocBench v1.6), and the version is different from the numbers reported in the original paper. We will clarify this distinction in a later section.</p>

<h2 id="actual-experiment-results">Actual Experiment Results</h2>

<p>For our test document, we created a synthetic image mixing Korean, English, Arabic, numbers, and simple formulas – a single-page document modeled after a ThakiCloud invoice and cost report. The actual timings measured in a CPU-only environment:</p>

<ul>
  <li>Model initialization (first call, including download): <strong>74.7s</strong></li>
  <li>Inference (predict): <strong>32.65s / page</strong></li>
  <li>Total elapsed (import to save): 137.4s</li>
  <li>Decoder architecture log: GQA (grouped-query attention), num_heads 16 / num_key_value_heads 2</li>
</ul>

<p>The recognized Markdown output was as follows:</p>

<div class="language-markdown highlighter-rouge"><div class="highlight"><pre class="highlight"><code><span class="gu">## ThakiCloud Document Intelligence</span>
Kubernetes AI/ML SaaS Platform - Invoice No. 2026-0623
타키클라우드 멀티테넌트 추론 비용 보고서
GPU hours: 1,284 Total: $9,640.00
E = mc^2 sum_{i=1}^{n} x_i
</code></pre></div></div>

<p>Notable observations: the model captured the English heading as a Markdown heading (<code class="language-plaintext highlighter-rouge">##</code>), correctly recognized the Korean sentence “타키클라우드 멀티테넌트 추론 비용 보고서” verbatim, and read the numeric and currency values ($9,640.00, GPU hours 1,284) without error. Korean recognition quality was surprisingly stable for a 0.9B model.</p>

<p>One finding worth reporting honestly: the Arabic line in our synthetic image was classified as an image region rather than transcribed as text. This appears to be an issue with our test image rather than a model defect. When rendering Arabic with PIL, character joining (shaping) and bidirectional (bidi) text handling were not applied correctly, causing the characters to render in an unconnected form. The layout stage likely interpreted this as a graphic. The Arabic line-level edit distance reported in the paper is 0.122, which is low enough to suggest that real Arabic documents would yield very different results. The experience itself is an operational lesson: preprocessing and rendering quality drive outcomes.</p>

<p>Let us also look at the benchmark numbers the paper reports on public datasets. The chart below shows per-language line-level text recognition edit distances reported in the base paper (arXiv:2510.14528) for a subset of the 109 supported languages (lower is better).</p>

<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-results.png" alt="PaddleOCR-VL multilingual text recognition edit distance chart" />
<em>Korean and Arabic highlighted as ThakiCloud’s core market languages. Source: arXiv:2510.14528.</em></p>

<p>Korean achieves 0.052 and Arabic achieves 0.122 – solid edit distances for both languages ThakiCloud targets. At the page level, the base paper reports an OmniDocBench v1.5 aggregate score of 92.86, ahead of the next-best MinerU2.5-1.2B (90.67).</p>

<p><img src="/assets/images/paddleocr-vl-09b-multilingual-document-parsing-bench.png" alt="OmniDocBench v1.5 aggregate score comparison chart" />
<em>A 0.9B model beating a 1.2B model on aggregate score. Source: arXiv:2510.14528 Table 2.</em></p>

<p>When citing these numbers, version clarity matters. The base paper (2510.14528) reports 92.86 on OmniDocBench v1.5. The subsequent release PaddleOCR-VL-1.5 reports 94.5% on v1.5, and PaddleOCR-VL-1.6 reports 96.33% on v1.6 as an [estimated] figure (based on a separate report for the later version). The 96.33% seen on social media is the score from the latest 1.6 release. It is also worth keeping in mind that the inference throughput figures in the paper were measured on a single NVIDIA A100 with batch sizes of 512 PDFs and high-performance serving engines like vLLM, SGLang, and FastDeploy. Our CPU-measured 32.65s per page is a reference point for an unaccelerated environment – not a production throughput figure.</p>

<h2 id="implications-for-thakicloud-k8s-aiml-saas-platform">Implications for ThakiCloud K8s AI/ML SaaS Platform</h2>

<p>What makes this model interesting is not just the high benchmark scores – it is the fact that <strong>it is small enough to operate easily</strong>. From ThakiCloud’s stack perspective:</p>

<ul>
  <li><strong>Low-cost multi-tenant serving</strong>: A 0.9B model fits on a single consumer-grade or entry-level GPU. Deployed on top of our Kueue-based GPU scheduling and vLLM/SGLang serving infrastructure, we can run per-tenant document parsing endpoints at a reasonable cost – controlling unit economics through self-hosted inference instead of paying per-token fees to a large VLM API every time.</li>
  <li><strong>Data sovereignty and on-premise deployment</strong>: Documents often contain information that cannot be sent outside – invoices, contracts, medical records, financial data. With an Apache-2.0 model hosted on-premise, we can deliver document intelligence without routing sensitive data through external APIs. This also aligns with network isolation and data-export restrictions common in Korean public-sector and financial environments.</li>
  <li><strong>Multilingual coverage as market fit</strong>: Our blog publishes in Korean, English, and Arabic simultaneously. With our eyes on both the Korean and Middle Eastern markets, having a single model that reliably handles Korean (0.052) and Arabic (0.122) is directly a product advantage – it reduces the need to bolt on different OCR engines per market.</li>
  <li><strong>Document parsing as the input layer for RAG</strong>: Structured Markdown and JSON output feeds directly into RAG indexing and agent tool calls. Text that preserves layout and reading order produces higher-quality chunks, which directly improves retrieval accuracy.</li>
</ul>

<p>At a more mature deployment stage, the two-stage design also opens the door to heterogeneous scheduling: run the layout stage on CPU nodes and the VLM recognition stage on GPU nodes as separate services. The explicit separation of the two stages is actually an advantage for resource allocation in a Kubernetes environment.</p>

<h2 id="limitations-and-counter-arguments">Limitations and Counter-Arguments</h2>

<p>The strengths are real, but so are the weaknesses. Based on our measurements and the literature:</p>

<ul>
  <li><strong>CPU inference is slow</strong>: Our measured 32.65s per page is not suitable for bulk document processing. In production, a GPU and a serving engine like vLLM or SGLang are effectively mandatory – the impressive throughput numbers in the paper come from an A100 batch environment.</li>
  <li><strong>Two-stage dependency management</strong>: You now have two models to manage together – the layout model and the recognition model. Deployment and version compatibility overhead is higher than with a single model. In practice, the package already defaults to PP-DocLayoutV3 + PaddleOCR-VL-1.6, and the default combination may change over time.</li>
  <li><strong>SOTA numbers are version-specific</strong>: 96.33% is the score of version 1.6 on OmniDocBench v1.6, not the headline of the original 0.9B paper. Citing this figure without specifying the version and benchmark edition will cause confusion.</li>
  <li><strong>Input quality dependency</strong>: As our Arabic test showed, the rendering quality, resolution, and character shaping of the input image drive results. In a real data pipeline, the input normalization stage matters as much as model selection.</li>
  <li><strong>Reported weakness in table recognition</strong>: The base paper itself notes that English table TEDS on OmniDocBench v1.0 (88.0) is relatively low (with an explanation about annotation errors), so documents heavy in tables warrant additional validation.</li>
</ul>

<p>On balance, PaddleOCR-VL is a compelling choice for self-hosted document intelligence as a compact but capable document parsing model. To realize its full value in production, however, three operational challenges must be addressed together: GPU serving, version pinning, and input preprocessing.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li>PaddleOCR-VL paper (arXiv:2510.14528): <a href="https://arxiv.org/abs/2510.14528">Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model</a></li>
  <li>Hugging Face model card: <a href="https://huggingface.co/PaddlePaddle/PaddleOCR-VL">PaddlePaddle/PaddleOCR-VL</a></li>
  <li>Source code: <a href="https://github.com/PaddlePaddle/PaddleOCR">github.com/PaddlePaddle/PaddleOCR</a></li>
  <li>The experiments in this post were conducted directly in the ThakiCloud environment (macOS, CPU). Benchmark figures cited are as reported in the paper above.</li>
</ul>

<blockquote>
  <p>📄 <strong>Full deep review (DOCX)</strong>: <a href="https://drive.google.com/file/d/1aFDms1DJR0iMABZcOX3kxPw23SSlOchT/view">Download the detailed peer review on Google Drive</a>.</p>
</blockquote>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="paddleocr-vl" /><category term="document-parsing" /><category term="vision-language-model" /><category term="ocr" /><category term="multilingual" /><category term="on-premise" /><summary type="html"><![CDATA[We installed PaddlePaddle's 0.9B compact vision-language model PaddleOCR-VL and ran inference on documents mixing Korean, English, and Arabic. This post covers the two-stage architecture, multilingual performance, and what it means for ThakiCloud's multi-tenant document intelligence platform.]]></summary></entry></feed>