<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-07-06T01:52:59+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ko"><title type="html">감시 모델이 읽지 못하는 글자들: 토크나이저 비대칭이 여는 AI 통제의 은닉 채널</title><link href="https://thakicloud.github.io/ko/research/tokenizer-asymmetry-covert-channels/" rel="alternate" type="text/html" title="감시 모델이 읽지 못하는 글자들: 토크나이저 비대칭이 여는 AI 통제의 은닉 채널" /><published>2026-07-06T00:00:00+09:00</published><updated>2026-07-06T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/research/tokenizer-asymmetry-covert-channels</id><content type="html" xml:base="https://thakicloud.github.io/ko/research/tokenizer-asymmetry-covert-channels/"><![CDATA[<h2 id="이-글을-누가-읽으면-좋은가">이 글을 누가 읽으면 좋은가</h2>

<p>이 글은 온프렘·멀티테넌트 환경에서 LLM 서빙 인프라를 운영하거나, 신뢰할 수 없는 모델의 출력을 별도 감시 모델로 검사하는 파이프라인을 설계하는 엔지니어를 위해 씁니다. 프롬프트 인젝션이나 가드레일 우회 같은 표층 공격은 익숙해도, “감시 모델과 정책 모델이 같은 토크나이저를 쓰지 않는다”는 사실 자체가 보안 구멍이 될 수 있다는 점은 낯설 수 있습니다. 이 논문은 바로 그 지점을 정면으로 다룹니다.</p>

<h2 id="문제의식-감시자와-정책-모델이-같은-글자를-읽는다는-착각">문제의식: 감시자와 정책 모델이 같은 글자를 읽는다는 착각</h2>

<p>AI control 어젠다는 정렬돼 있다고 가정할 수 없는 강력한 모델로부터 유용한 작업을 안전하게 뽑아내는 방법을 연구합니다. 그 핵심 축 중 하나가 언트러스티드 모니터링입니다. 상대적으로 약하지만 신뢰할 수 있는 감시 모델이 강력하지만 신뢰할 수 없는 정책 모델의 출력을 읽고, 백도어나 유출 시도, 은밀한 협조로 보이는 흔적이 있으면 경보를 울립니다. 감시 모델이 저렴하고 신뢰할 수 있다는 전제 덕분에, 정책 모델의 정직함에 기대지 않는 최후의 방어선으로 매력적입니다.</p>

<p>2025년부터 2026년 사이 이 방어선을 집중적으로 시험한 연구들은 하나같이 구멍을 찾아냈습니다. 정책 모델의 출력 안에 심은 적응형 프롬프트 인젝션이 신뢰받는 감시 모델을 속여 악성 transcript를 통과시키고, 에이전트 자체를 전달 매개체로 삼으면 규모가 커져도 감시를 우회할 수 있습니다. 겉보기에 무해한 산문처럼 읽히는 사고 과정 안에 숨겨진 과제를 인코딩하거나, 패러프레이징을 견디는 개념적 구조 안에 페이로드를 숨기거나, 여러 에이전트가 은밀히 협조하는 방식도 보고되었습니다. 사고 과정 감시 자체도 불안정합니다. 충실성은 모델의 고정된 속성이 아니고, 흔히 쓰는 충실성 지표는 실제 정합성을 거의 추적하지 못하며, 유형학적으로 다른 스크립트를 오가면 감시 가능성이 급격히 떨어집니다.</p>

<p>그런데 이 문헌 전체가 공유하는 전제가 하나 있습니다. 감시 모델과 정책 모델이 같은 입력을 본다는 것입니다. 단일 모델로 구성한 연구용 하네스에서는 거의 참입니다. 하지만 프로덕션에서는, 특히 이 논문이 겨냥하는 주권형 온프렘 멀티테넌트 클러스터에서는 그렇지 않습니다. 플랫폼 감시 모델과 테넌트의 정책 모델은 일반적으로 서로 다른 토크나이저를 쓰는 별개의 모델이고, 각 토크나이저는 자기만의 정규화 규칙을 함께 싣고 다닙니다. 유니코드 정규화 형식, 대소문자 처리, 공백 접기, 제로폭·기본 무시 코드포인트 처리, 바이트 폴백 규칙까지 전부 제각각입니다. 감시 모델과 정책 모델은 같은 문자열을 읽는 것이 아니라, 같은 문자열의 서로 다른 투영을 읽습니다.</p>

<p>논문은 이 투영 격차가 무해한 구현 디테일이 아니라 측정 가능한 은닉 채널이라고 주장합니다. 감시 모델의 정규화 파이프라인이 지워 버리지만 정책 모델이나 그와 결탁한 다운스트림 수신자의 파이프라인은 그대로 보존하는 구분은, 정책 모델이 쓸 수 있고 감시 모델은 원리적으로 읽을 수 없는 기호가 됩니다. 토크나이제이션이 이미 취약한 공격면이라는 사실은 잘 알려져 있습니다. 호모글리프 치환은 토크나이제이션을 흔들어 AI 텍스트 탐지기를 무력화하고, 문자 단위 변형은 워터마크를 깨뜨리며, 문자 삽입은 프롬프트 인젝션과 탈옥 가드레일을 우회합니다. 이 논문의 통찰은 같은 메커니즘이 공격자와 방어자가 서로 다른 토크나이저에 각각 위치할 때, 언트러스티드 모니터링 프로토콜 전체를 관통하는 정량화 가능한 정보 채널이 된다는 데 있습니다.</p>

<h2 id="핵심-기여-채널을-정의하고-용량을-재고-결정론적으로-닫기">핵심 기여: 채널을 정의하고, 용량을 재고, 결정론적으로 닫기</h2>

<p>첫 번째 기여는 형식화입니다. 논문은 정책 파이프라인과 감시 파이프라인 사이의 토크나이저 비대칭 채널을 정의하고, 감시 모델의 맹점을 감시 모델의 정규화 아래서 transcript 공간을 나눈 몫공간으로 특징짓습니다. 캐리어는 정책 모델이 여러 변형 중 하나를 골라 넣을 수 있는 위치나 구간인데, 이 변형들은 감시 파이프라인 입장에서는 전부 같은 토큰 시퀀스로 뭉개지지만, 정책 파이프라인이나 결탁한 수신자의 파이프라인 입장에서는 서로 다른 시퀀스로 구분됩니다. 채널은 이 변형 중 하나를 선택하는 방식으로 기호를 인코딩하고, 감시 모델은 뭉개진 대표값 하나만 관측합니다. 중요한 점은 감시 모델과 정책 모델이 서로 다른 토크나이저를 쓰는 이종 멀티테넌트 클러스터에서는, 배포 시점에 아무런 악의가 없어도 이 비대칭이 부산물로 열려 버린다는 것입니다. 채널을 여는 데는 적대적 의도가 필요 없고, 채널을 쓰는 데는 평범한 스테가노그래피 능력만 있으면 됩니다.</p>

<table>
  <tbody>
    <tr>
      <td>두 번째 기여는 이 채널의 용량을 재는 방법입니다. transcript 안에 캐리어가 k개 있고 각 캐리어 i가 감시 모델에게는 동일하지만 수신자에게는 구분되는 변형 알파벳 A_i를 허용한다고 하면, 감시 모델이 원리적으로 관측할 수 없는 정보량, 즉 맹점 용량은 각 캐리어에 대한 log2</td>
      <td>A_i</td>
      <td>의 합으로 주어집니다. 이 합은 감시 모델의 정규화 파이프라인이 정확히 얼마나 많은 구분을 놓치는지 알려 주는 상한이고, 수신자 파이프라인으로 역변환하는 디코더가 이 상한을 그대로 달성합니다. 논문이 정리한 지배적 캐리어 목록을 보면 왜 이 값이 위험한 수준인지 알 수 있습니다. 컨퓨저블·호모글리프 치환은 글자당 1~2비트, 대소문자 토글은 대소문자가 있는 글자마다 1비트, 제로폭·기본 무시 문자는 간격마다 최대 log2(변형 수+1)비트, 공백 변형도 형태 수에 따라 비슷한 규모입니다. 대소문자와 제로폭 문자 두 가지만 놓고 봐도 글자당 대략 1비트에 이르므로, 몇백 자짜리 평범해 보이는 메시지 하나에도 수백 비트를 실을 수 있습니다. 대칭키나 세션 토큰, 에이전트 간 조율 신호를 감시 모델이 무해하다고 채점하는 transcript 안에 그대로 숨길 수 있는 규모입니다. 이 채널은 감시 모델의 가중치에 전혀 접근하지 않아도, 학습된 컴포넌트를 공격하지 않아도 성립하기 때문에, LLM 기반 감시자와 가드레일을 이미 무력화한 적응형 공격들과 달리 감시 모델의 판단력이 얼마나 뛰어난가와 무관합니다. 완벽하게 정확한 감시 모델이라도 애초에 받지 못한 정보는 채점할 수 없기 때문입니다.</td>
    </tr>
  </tbody>
</table>

<p>세 번째 기여는 닫는 방법입니다. 논문은 학습된 결정 경계 대신 고정된 손실 맵 두 개로 채널을 봉쇄합니다. 첫 번째 메커니즘은 공유 캐노니컬라이저입니다. 유니코드 NFKC 정규화, 대소문자 접기, 컨퓨저블 스켈레톤 폴딩, 제로폭·기본 무시 코드포인트 제거, 공백 정규화를 고정된 순서로 적용하는 멱등 함수를 서빙 경계에서 강제하고, 감시 모델은 원문이 아니라 이 캐노니컬 형태만 채점하며, 감사 로그와 다음 홉으로도 캐노니컬 형태만 전달합니다. 이 캐노니컬라이저가 모든 테넌트의 정규화 규칙보다 최소한 같거나 더 강하게 뭉갠다면, 즉 모든 테넌트 정규화 규칙의 공통 조대화라면, 정규화 계열 캐리어의 알파벳은 전부 단일값으로 붕괴하고 용량 항은 0이 됩니다. 두 번째 메커니즘은 토크나이저 정렬 어드미션 체크입니다. 캐노니컬화로도 지울 수 없는 잔여 채널, 즉 바이트 폴백이나 세그멘테이션 병리로 감시 모델의 이해력 자체를 저하시키는 공격에 대응해, 캐노니컬 형태를 감시 모델의 토크나이저에 통과시켰을 때 임계값을 넘는 UNK·바이트 폴백 런이 나오지 않는지, 참조 토크나이저 대비 세그멘테이션 엔트로피가 허용 범위 안에 있는지를 확인합니다. 위반하면 조용히 채점하는 대신 거부하거나 더 엄격한 검토 경로로 승격시킵니다. 이 봉쇄는 transcript 길이에 대해 선형 비용이고, 학습 파라미터가 없으며, 테넌트 모델 가중치에 접근할 필요가 없고, 결과물이 감사 가능합니다. 적응형 공격이 이미 학습된 가드레일을 무너뜨리고 있는 상황에서, 확률로 학습된 결정 경계 대신 고정되고 완전히 명세된 손실 맵만 남기겠다는 것이 이 설계의 핵심 판단입니다.</p>

<p>배포 위치도 명확합니다. 캐노니컬라이저와 정렬 체크는 서빙 메시의 추론 게이트웨이나 사이드카에서 결정론적 어드미션 컴포넌트로 동작하며, 모든 정책 모델의 이그레스 경로와 감시 모델의 인그레스 경로에 놓입니다. 테넌트별 토크나이저·정규화 레지스트리가 각 서빙 모델의 정규화 형식, 대소문자 처리, 공백, 바이트 폴백 설정을 기록하고, 이 레지스트리를 바탕으로 등록된 모든 정규화 규칙을 지배하는 공통 조대화를 계산합니다. 쿠버네티스 기반의 큐 관리형 서빙 패브릭 위에서는 이것이 모델을 바꾸는 것이 아니라 게이트웨이의 어드미션 정책 하나를 추가하는 일입니다. 결정적인 성질은 모니터링 무결성이 테넌트 모델 가중치에 손대지 않고도 인프라 계층에서 보장된다는 점입니다. 테넌트가 어떤 폐쇄형 모델을 들여오든, 플랫폼 감시 모델이 완전히 다른 토크나이저를 쓰든, 플랫폼은 감시 모델과 모든 다운스트림 소비자가 같은 캐노니컬 transcript를 본다는 것을 계속 보장할 수 있습니다. transcript가 클러스터 밖으로 나가지 않고, 어떤 모델 벤더의 협조도 필요 없다는 점 모두 주권형 배포가 요구하는 조건과 정확히 맞아떨어집니다.</p>

<h2 id="회사-사회-과학에-각각-어떤-의미가-있는가">회사, 사회, 과학에 각각 어떤 의미가 있는가</h2>

<p>ThakiCloud 입장에서 이 연구는 서로 다른 테넌트와 모델이 이종 토크나이저를 쓰는 것이 예외가 아니라 기본값인 우리 온프렘 플랫폼의 현실을 정확히 겨냥합니다. 감시-정책 토크나이저 정렬 검사와 정규화 캐노니컬라이저를 배포 게이트로 제공하면, 멀티테넌트 모니터링 무결성을 개별 테넌트 모델의 내부를 들여다보지 않고도 인프라 계층에서 보장할 수 있습니다. 어떤 고객이 어떤 폐쇄형 모델을 들여오든 우리 플랫폼의 감시 체계가 그 모델의 출력을 실제로 읽고 있다는 것을 구조적으로 보증할 수 있다는 뜻입니다.</p>

<p>사회적으로 이 연구는 ‘신뢰 못 하는 강한 모델을 약한 감시로 통제한다’는 AI 안전의 핵심 축이 토크나이저 층이라는 뜻밖의 지점에서 새고 있었다는 사실을 드러냅니다. 그리고 그 새는 지점을 막는 방법이 모델 가중치 접근이나 대규모 재학습 없이도 적용 가능한 결정론적 게이트라는 점이 중요합니다. 값비싼 학습된 방어가 아니라 누구나 구현할 수 있는 인프라 레벨 조치로 안전장치를 넓힐 수 있다는 뜻이기 때문입니다.</p>

<p>과학적으로는 접근하는 지점 자체가 새롭습니다. 의미론적 스테가노그래피, 즉 패러프레이징을 견디는 개념적 은닉은 이미 여러 연구가 다뤘습니다. 이 논문은 그와는 완전히 다른 층위인 ‘토크나이저 정규화 비대칭’이라는, 측정 가능하고 정보이론적으로 정의되는 은닉 채널 용량 지표를 새로 세우고, 감시-정책 토크나이저 쌍에 대한 채널 상한을 최근의 언트러스티드 모니터링 문헌 위에 추가합니다. 스테가노그래피 능력이 아니라 인프라 구성 자체가 채널을 여는 소스라는 점을 짚어낸 것이 기존 문헌과 구별되는 지점입니다.</p>

<h2 id="한계와-다음-단계">한계와 다음 단계</h2>

<p>논문은 스스로 프레임워크이자 위협 모델링 논문이라고 명시합니다. 캐노니컬라이저가 닫는 것은 어디까지나 토크나이저 층의 채널입니다. 캐노니컬화를 견디는 의미 안에 페이로드가 살아 있는 개념적 스테가노그래피는 이 봉쇄와 완전히 직교하는 문제이고, 그 쪽은 학습 기반 해석 가능성 방어가 따로 필요합니다. 또한 모든 테넌트 정규화 규칙을 지배할 만큼 공격적인 캐노니컬라이저는 대소문자, 컨퓨저블이지만 실제로는 구분되는 글리프, 특정 스크립트 특유의 결합 방식처럼 여러 언어에서 실제 의미를 담고 있는 구분까지 지워 버릴 위험이 있습니다. 스크립트별로 감시 가능성이 다르게 취약하다는 기존 연구 결과를 고려하면 오탐 비용이 언어마다 고르지 않게 분포할 가능성이 크고, 하나의 전역 캐노니컬라이저가 아니라 테넌트가 의미 있다고 선언한 구분은 접지 않는 스크립트별 정책이 필요할 수 있습니다. 정렬 체크 역시 바이트 폴백 채널을 완전히 없애지는 못하고 임계값 바로 아래에서 움직이는 적응 공격의 여지를 남기지만, 그 임계값이 고정되고 결정론적이라 예측 가능하다는 점 자체가 트레이드오프의 핵심입니다. 확률로 학습되어 계속 공략당하는 결정 경계 대신, 크기가 유계이고 로그로 남는 고정된 잔여 채널을 선택한 것입니다. 마지막으로 논문에 제시된 용량 수치는 전부 유니코드와 토크나이저 속성으로부터 유도한 분석적 결과이지 실측값이 아니며, 페어드 토크나이저 매트릭스 측정, 엔드투엔드 유출 실험, 다국어 벤치마크에서의 오탐률과 지연 비용 측정, 정렬 체크 임계값 보정이라는 구체적 평가 프로토콜을 다음 단계로 명시하고 있습니다.</p>

<p>논문 원문과 데이터는 Hugging Face에서 확인할 수 있습니다. <a href="https://huggingface.co/datasets/thaki-AI/thaki-daily-papers/tree/main/papers/2026-07-06-tokenizer-asymmetry-covert-channels">https://huggingface.co/datasets/thaki-AI/thaki-daily-papers/tree/main/papers/2026-07-06-tokenizer-asymmetry-covert-channels</a></p>

<p>arXiv 제출은 자동화 파이프라인이 tar 패키지까지 준비해 두었고, 실제 업로드는 사람이 검토한 뒤 진행하는 절차이므로 현재 상태는 제출 준비 완료(승인 대기)입니다.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="research" /><category term="ai-safety" /><category term="ai-control" /><category term="llm-security" /><category term="tokenizer" /><category term="covert-channel" /><category term="multi-tenancy" /><category term="on-prem-llm" /><summary type="html"><![CDATA[AI control의 핵심 방어선인 '신뢰 못 하는 강한 모델을 약한 감시 모델로 통제한다'는 전제는 감시자와 정책 모델이 같은 텍스트를 읽는다는 가정 위에 서 있습니다. 온프렘 멀티테넌트 클러스터에서는 이 가정이 조용히 무너집니다. 서로 다른 토크나이저와 정규화 규칙이 감시자는 볼 수 없지만 정책 모델과 결탁 수신자는 읽어 낼 수 있는 은닉 채널을 만들기 때문입니다. ThakiCloud 연구팀이 이 채널의 용량을 정량화하고, 모델 가중치를 건드리지 않는 결정론적 게이트로 봉쇄하는 방법을 제안한 논문을 소개합니다.]]></summary></entry><entry xml:lang="ar"><title type="html">توطين النموذج لا يجلب السيادة: ما تشير إليه أخبار اليوم هو ‘طبقة التنفيذ’</title><link href="https://thakicloud.github.io/ar/agentops/sovereign-ai-execution-layer/" rel="alternate" type="text/html" title="توطين النموذج لا يجلب السيادة: ما تشير إليه أخبار اليوم هو ‘طبقة التنفيذ’" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/agentops/sovereign-ai-execution-layer</id><content type="html" xml:base="https://thakicloud.github.io/ar/agentops/sovereign-ai-execution-layer/"><![CDATA[<p><img src="/assets/images/sovereign-ai-execution-layer-hero.png" alt="رسم توضيحي للمفهوم" /></p>

<p>جملة واحدة من مقابلة صحفية جعلتنا نعيد قراءة موجز أخبار هذا الصباح بأكمله. أشار الأستاذ المساعد تشوي يون سونغ، الذي يُدرّس في جامعة كوريا وجامعة كيونغي، إلى نموذج “ميثوس” الجديد من أنثروبيك كمثال، محذراً من أنه بمجرد أن يصبح الذكاء الاصطناعي أصلاً استراتيجياً، فإن وصول حتى الحليف إلى نموذج ما يمكن أن يُقطع في أي لحظة. ولخّص الأمر بهذه العبارة: “ما يمكن التحكم فيه ليس نموذج شخص آخر، بل البنية التحتية التي تتيح لك التحقق من سلسلة التوريد وحجبها مهما كان النموذج المستخدم.”</p>

<p>إليكم كيف تخترق هذه الجملة الواحدة حزمة أخبار اليوم بأكملها.</p>

<h2 id="وهم-نموذجنا-الخاص">وهم “نموذجنا الخاص”</h2>

<p>عندما نسمع عبارة “الذكاء الاصطناعي السيادي”، يتخيل معظمنا الصورة نفسها: نموذج أساسي بُني بأيدينا. وفعلاً، تدفع الحكومة مشروعاً بقيمة 530 مليار وون كوري لبناء نموذج أساسي مستقل. تتنافس أربعة فرق، هي معهد أبحاث الذكاء الاصطناعي التابع لإل جي، وإس كيه تيليكوم، وأبستيج، وموتيف تكنولوجيز، على دورة مدتها ستة أشهر، على أن يُجرى تقييم ثانٍ في أغسطس ويُطرح النموذج بالكامل كمصدر مفتوح لاحقاً. والهدف هو تأمين نموذج ضمن أفضل عشرة نماذج عالمياً بحلول عام 2027.</p>

<p>إذا اكتفينا بهذا القدر، تبدو مسألة السيادة وكأنها مسألة نموذج فحسب. لكن موجز اليوم يشير إلى الاتجاه المعاكس تماماً، وهنا بالضبط تصبح ملاحظة الأستاذ تشوي حادّة. فحتى لو وُطّن النموذج، إذا ظلت بيانات التدريب ووحدات معالجة الرسوميات والسحابة وأدوات العميل الذكي التي تُشغّل هذا النموذج مربوطة بالكامل بمنظومة خارجية، فإن السيادة لا تتحقق إلا بمقدار النصف. وقد أشار إلى ثغرة في الرؤية مفادها أن أدوات الأمان القائمة مثل SBOM أو SCA لا تستطيع قراءة أصول ليست شيفرة برمجية، كأوزان النموذج، واقترح بديلاً هو قائمة مكونات مواد الذكاء الاصطناعي (AIBOM)، التي تشمل الأوزان ومجموعات بيانات التدريب والمعاملات الفائقة وحتى مواصفات أدوات العميل الذكي.</p>

<p>خلاصة الأمر أن النموذج هو اللافتة البرّاقة، لكن السيادة تُحسم فعلياً في المكان الذي يعيش فيه ذلك النموذج ويعمل، أي طبقة التنفيذ. وخيارات عدة شركات في أخبار اليوم تشير جميعها، وكأنها اتفقت على ذلك، إلى هذه النقطة بالذات.</p>

<p><img src="/assets/images/sovereign-ai-execution-layer-diagram.svg" alt="مخطط مفاهيمي" /></p>

<p><em>مخطط مفاهيمي</em></p>

<h2 id="لماذا-قالت-هانكوم-نظام-تشغيل-لا-نموذج">لماذا قالت هانكوم “نظام تشغيل” لا “نموذج”</h2>

<p>الحدث الأكثر رمزية هو هانكوم. ففي الثاني من يوليو، وبعد 36 عاماً من التأسيس، أقرّت جمعية عامة غير عادية تعديلاً على النظام الأساسي للشركة يغيّر اسمها من “هانغول آند كمبيوتر” إلى “هانكوم”. وهذا ليس مجرد إعادة تسمية للعلامة التجارية، بل إعلان عن انتقال هوية الشركة من مطوّر برمجيات مستندات إلى شركة “نظام تشغيل عامل سيادي” تربط وتتحكم بعدة عملاء ذكاء اصطناعي ضمن بيئة واحدة.</p>

<p>الكلمة الجديرة بالملاحظة هي “نظام تشغيل”. لم تُسمّ هانكوم ما تبنيه “نموذجاً”، بل سمّته نظام تشغيل، أي أنها تستهدف الأساس الذي يُشغّل عدة عملاء ذكاء اصطناعي بأمان ويتحكم بها. وقد أعلنت الشركة عن نسخة تجريبية للنصف الثاني من العام، وبدأت بحثاً مشتركاً للتوطين المحلي مع مركز أبحاث بولندي معتمد وطنياً. ويدعم هذا التحول رقمياً أيضاً: فقد قفزت إيرادات حزمة الذكاء الاصطناعي، التي بلغت 8.9 مليار وون العام الماضي أي نحو 5 بالمئة من إجمالي الإيرادات، إلى 5.2 مليار وون في الربع الأول من هذا العام وحده، أي ما نسبته 11.52 بالمئة.</p>

<p>وتظهر الحركة نفسها المصمَّمة في شركة KT أيضاً. فقد باعت الشركة نحو 4000 روبوت خدمة كانت تملكها وأعادت استئجارها ضمن هيكل جديد، متخلّية عن ملكية الأجهزة. وبدلاً من ذلك، راهنت على منصة تشغيل سحابية توحّد التحكم بروبوتات من مصنّعين مختلفين على شاشة واحدة. والحساب هنا هو: بدلاً من بيع الروبوتات، سيطر على الأساس الذي تعمل عليه الروبوتات معاً. المنتجات مختلفة، لكن الاتجاه واحد. فالقيمة، بحسب هذا الحساب، لا تأتي من المنتج الفردي بل من طبقة التنسيق.</p>

<h2 id="النموذج-وصل-فلماذا-لا-يزال-القلق-قائماً">النموذج وصل، فلماذا لا يزال القلق قائماً</h2>

<p>يتضح سبب أهمية الأساس بشكل أوضح تماماً حين يهتز ذلك الأساس. ويظهر خبران في موجز اليوم هذا المشهد بجلاء.</p>

<p>نبدأ بالقطاع المالي. ففي العام الماضي، بلغت الحوادث المالية في القطاع المصرفي الكوري 431.8 مليار وون، وهو أعلى رقم على الإطلاق. وفي أحد صناديق الادخار المجتمعية في مدينة بوتشون، لم يُكتشف قرض غير قانوني بقيمة 24.2 مليار وون لسنوات عدة. لذلك تتسابق البنوك على تبني أنظمة كشف المعاملات المشبوهة القائمة على الذكاء الاصطناعي. وتقول كاكاو بنك إنه بعد تطبيق نموذج كشف تسلسلي، ارتفع عدد حالات منع الاحتيال المالي إلى 4.4 أضعاف في المتوسط الشهري. حتى هذه النقطة، القصة قصة نجاح.</p>

<p>لكن المشكلة تبدأ بعدها. فنحو 10 بالمئة فقط من الشركات المالية المحلية طوّرت نموذج ذكاء اصطناعي خاصاً بها، وثلث هذه النسبة يعتمد بالكامل على مزوّدين خارجيين للبنية السحابية والنموذج والبيانات. بمعنى آخر، فإن أنظمة كشف الشذوذ التي تتعامل مع بيانات معاملات حساسة تعمل فعلياً على أساس شخص آخر. فتبنّي نموذج ووضع ذلك النموذج تحت سيطرتك الخاصة مسألتان مختلفتان تماماً.</p>

<p>ويُظهر حادث مورّد آبل الطرف المتطرف من هذا القلق. فقد تعرّضت شركة تاتا إلكترونيكس، إحدى موردات آيفون، لهجوم برمجيات فدية أدى إلى تسريب 630 غيغابايت من البيانات ضمن نحو 200 ألف ملف على الشبكة المظلمة، تضمنت بحسب التقارير قائمة موردي مكونات آيفون الجديدة وصوراً لاختبار نماذج أولية. وقد باشر فريق الاستجابة للحوادث السيبرانية التابع للحكومة الهندية التحقيق. والملاحظة الجديرة بالانتباه أن هذا النمط ليس جديداً. فقد اخترق المهاجمون شريك تكنولوجيا المعلومات التابع لشركة TSMC عام 2023، وموّرد قطع غيار تويوتا عام 2022، بالطريقة نفسها تماماً. فليست الشركة الأم بل المورّد من يصبح البوابة. وطالما ظلت البيانات مبعثرة في أماكن متعددة راكبة على أنظمة التعاون، فمهما كان النموذج المصنوع محلياً جيداً، ستتسرب المعلومات من أضعف حلقة في السلسلة. ويؤكد خبر آخر اليوم، يفيد بأن 66 بالمئة من أضرار اختراقات الأصول الرقمية في النصف الأول من العام تُعزى إلى كوريا الشمالية، أن هشاشة طبقة التنفيذ باتت بالفعل هدفاً لتهديدات على مستوى الدول.</p>

<h2 id="ما-يمكن-التحكم-فيه-هو-الأساس-ولا-شيء-غيره">ما يمكن التحكم فيه هو الأساس، ولا شيء غيره</h2>

<p>عند هذه النقطة نعود إلى جملة الأستاذ تشوي. ما يمكن التحكم فيه ليس نموذج شخص آخر، بل البنية التحتية التي تتيح لك التحقق من سلسلة التوريد وحجبها مهما كان النموذج المستخدم. وإذا لخّصنا الآلام التي أظهرتها أخبار هذه الشركات، تتقلص إلى أربعة أسئلة. هل يمكن مراجعة ما يُنفَّذ؟ هل يمكن إبقاء البيانات والتنفيذ تحت سيادتك الخاصة؟ هل يُعزل اختراق مكان واحد بحيث لا ينتشر إلى الكل؟ وهل يمكن إدارة هذا كله بتكلفة يمكن تحمّلها؟</p>

<p>هذا بالضبط سبب تصميم ThakiCloud لمنتج Paxis كسحابة أصلية للعملاء الذكيين، حول هذه الأسئلة الأربعة. تتعامل Paxis مع المهارات والأدوات والسياسات وسجلات المراجعة كموارد من الدرجة الأولى. فبوابة السياسات تُصفّي مسبقاً ما يُسمح للعميل الذكي بتنفيذه، وسجل المراجعة يُسجّل لاحقاً ما فعله فعلياً. وهذا يسير في الاتجاه نفسه الذي تستهدفه شفافية سلسلة التوريد على طراز AIBOM التي ذكرها الأستاذ تشوي. كما أن تصنيف استقلالية العميل الذكي إلى مستويات من L0 إلى L3 وتطبيق الحوكمة على كل مستوى يجسّد قابلية التحكم التي يطالب بها القطاع المالي كطبقة بنيوية بحد ذاتها. وتشغيل أعباء العمل التعاونية داخل بيئات معزولة يقطع مادياً سلسلة التسرب المتتالي كالتي شهدها حادث مورّد آبل. ولأن المنصة تعمل على كوبرنيتيس سيادي محلي، يمكن الاحتفاظ بالبيانات الحساسة داخل شبكة مغلقة دون إرسالها إلى شبكة خارجية. أما توجيه التكلفة، الذي يختار النموذج الأمثل لكل مهمة، فهو الإجابة عن السؤال الرابع، أي الاستدامة.</p>

<p>واختيار هانكوم تغيير اسمها التجاري فقط من أجل كلمة “نظام تشغيل”، ورهان KT على منصة بدلاً من بيع الروبوتات، هما تعبيران مختلفان عن الرؤية ذاتها. فقيمة عصر العملاء الأذكياء لا تأتي من نموذج فردي، بل من الأساس الذي يعيش عليه العميل الذكي ويعمل. وPaxis هو المنتج الذي يقدّم هذا الأساس بشكل قابل للمراجعة وسيادي.</p>

<h2 id="البرّاق-هو-النموذج-والمحسوم-هو-الأساس">البرّاق هو النموذج، والمحسوم هو الأساس</h2>

<p>حتى في يوم واحد كهذا، انهمرت أخبار كبرى مثل دورة الذاكرة العشوائية الفائقة، وحرب مراكز البيانات بقيمة ألف تريليون وون، وسباق كبرى شركات التكنولوجيا لبناء شرائحها الخاصة. والعناوين الرئيسية تذهب دائماً إلى النماذج والشرائح. لكن السبب الذي يمنع النوم عن العاملين في الشركات مختلف قليلاً. هل يستطيعون شرح ما يفعله عميلنا الذكي الآن؟ وإذا وقع حادث، هل يمكن تتبّع مكان بدايته؟ وهل هذه البيانات فعلاً بين أيدينا؟</p>

<p>السيادة لا تكتمل بالإعلان. ولا تكتمل بمجرد أننا بنينا نموذجنا الخاص. إنما تستحق أن تُسمى سيادة فقط حين يمكننا في أي لحظة أن نفتحها ونرى أين يُشغَّل ذلك النموذج، وما الذي سُمح له بفعله، وما الذي فعله فعلاً. وما تشير إليه أخبار اليوم بصمت ليس النموذج البرّاق، بل الأساس الذي يقوم تحته. ومن يرسّخ ذلك الأساس أولاً سيمسك بزمام المبادرة في الجولة القادمة.</p>

<h2 id="مراجع">مراجع</h2>

<p>يمكن التحقق من الحقائق المذكورة في هذا المقال عبر التقارير التالية.</p>

<ul>
  <li><a href="https://byline.network/2026/07/2-429/">هانغول آند كمبيوتر تغيّر اسمها إلى هانكوم وتعلن “نظام تشغيل عامل سيادي” (Byline Network)</a></li>
  <li><a href="https://www.etoday.co.kr/news/view/2557967">موتيف تكنولوجيز تنضم إلى إل جي وإس كيه تيليكوم وأبستيج في سباق رباعي لنموذج أساسي محلي (Etoday)</a></li>
  <li><a href="https://www.etnews.com/20260701000165">مورّد آبل الهندي تاتا يتعرض لهجوم فدية وتسريب 630 غيغابايت (Electronic Times)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="agentops" /><category term="agentops" /><category term="paxis" /><category term="enterprise-ai" /><category term="thakicloud" /><summary type="html"><![CDATA[من السباق الرباعي لبناء نموذج أساسي محلي إلى تغيير هانكوم لاسمه التجاري، تشير أخبار صباح 5 يوليو 2026 إلى اتجاه واحد. لقد انتقلت نقطة الحسم الحقيقية للذكاء الاصطناعي السيادي بالفعل من 'أي نموذج تبني' إلى 'أين وكيف تُشغّل هذا النموذج وتراجعه'.]]></summary></entry><entry xml:lang="ar"><title type="html">عصر المحركات البخارية في انتظار كارنو: العقلية التي يحتاجها العلم الآن</title><link href="https://thakicloud.github.io/ar/culture/waiting-for-carnot/" rel="alternate" type="text/html" title="عصر المحركات البخارية في انتظار كارنو: العقلية التي يحتاجها العلم الآن" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/culture/waiting-for-carnot</id><content type="html" xml:base="https://thakicloud.github.io/ar/culture/waiting-for-carnot/"><![CDATA[<p><img src="/assets/images/waiting-for-carnot-hero.webp" alt="صورة تجريدية لبخار وطاقة موجية تتقاطع في أنماط تداخل" /></p>

<h2 id="سؤال-العشرين-واط">سؤال العشرين واط</h2>

<p>لديّ عادة قديمة. كلما صادفت ظاهرة ما، أحاول أولا إعادة كتابتها بلغة الطاقة. الضوء والصوت كلاهما موجات، والموجة هي الطريقة التي تعبر بها الطاقة الفضاء. الاتصالات فن تحميل المعلومات على تلك الطاقة، والبرمجيات هي النظام الشكلي الذي يعالج تلك المعلومات. أكثر من عشرين عاما من كتابة الكود لم تشفني من هذه العادة، بل عمقتها.</p>

<p>انظر إلى الذكاء الاصطناعي اليوم من خلال هذه العادة وسيعلق رقم واحد في حلقك. يعمل الدماغ البشري بنحو عشرين واطا فقط. بطاقة أقل من مصباح متوهج نتعلم اللغات ونتعرف على الوجوه، وأحيانا نتخيل نظريات فيزيائية جديدة. في المقابل، تُدرَّب النماذج الكبيرة اليوم في مراكز بيانات تبتلع طاقة مدينة صغيرة. نظامان يحلان مسائل متشابهة، والطاقة التي ينفقانها تختلف بمراتب عديدة، وليست مرتبة أو مرتبتين.</p>

<p>لا أقرأ هذه الفجوة كمشكلة أداء، بل كمشكلة فهم. الحضارة التي تفهم مهمة من حيث المبدأ تنجزها بطاقة أقل فأقل مع الوقت. أما الحضارة التي تقلد النتيجة فقط فتصب الطاقة لسد الفجوة. حقيقة أننا نقلد عشرين واطا بالجيجاواط تبدو لي أصدق دليل كمي على أننا لا نعرف بعد مبادئ الذكاء.</p>

<h2 id="نصف-القرن-الذي-سبق-كارنو">نصف القرن الذي سبق كارنو</h2>

<p>لسنا هنا لأول مرة. فتاريخ العلم عرض هذا المشهد أكثر من مرة.</p>

<p>بحلول أواخر القرن الثامن عشر كانت المحركات البخارية تدير مناجم أوروبا ومصانعها. حقق محرك وات نجاحا تجاريا، وتنافس المهندسون بشراسة على بنائه أكبر وأدق. ومع ذلك لم يعرف أحد لماذا تعمل هذه المحركات، ولا ما إذا كان هناك حد جوهري لاستخراج الشغل من الحرارة. كانت الآلات تدور، ولم تكن النظرية موجودة.</p>

<p>نشر سادي كارنو ورقته عام 1824 مبينا أن كل محرك حراري يواجه سقف كفاءة تحدده درجات الحرارة وحدها، سقفا لا تكسره أي براعة هندسية. كان ذلك بعد نصف قرن من بدء البخار في تحويل الصناعة. ومن تلك الورقة القصيرة نمت الديناميكا الحرارية. ظهر مفهوم الإنتروبيا، وصيغ قانون حفظ الطاقة، وبدأت سلسلة طويلة وصلت لاحقا إلى الميكانيكا الإحصائية ونظرية المعلومات.</p>

<p>ما يهمني هنا هو ترتيب الأحداث. جاءت الآلة العاملة أولا، وجاء الفهم لاحقا. والقفزة الحقيقية لم تأت ممن بنوا آلات أكبر، بل ممن سأل لماذا تعمل الآلات أصلا. بعد كارنو لم تعد الحضارة مضطرة إلى تكبير الغلايات إلى ما لا نهاية، إذ صار بإمكانها حساب الحد النظري للكفاءة وتصميم طريقها نحوه.</p>

<p>يقف التعلم العميق اليوم تماما حيث وقف المحرك البخاري قبل كارنو. المحركات تعمل بشكل رائع، والصناعة يعاد تنظيمها بالفعل. لكن لا توجد ديناميكا حرارية للذكاء. لماذا يظهر التعميم عند هذا الحجم من البيانات والمعاملات؟ ما الحدود الجوهرية والتكلفة الدنيا للعملية التي نسميها التعلم؟ مثل المهندسين قبل كارنو، لا نعرف هذه الأشياء إلا كقواعد تجريبية.</p>

<h2 id="سحابتا-كلفن">سحابتا كلفن</h2>

<p>في أبريل عام 1900 ألقى اللورد كلفن محاضرة في المؤسسة الملكية عن سحابتين تخيمان على فيزياء عصره. الأولى كانت الفشل في رصد حركة الأرض عبر الأثير، الوسط الذي كان يُعتقد أنه يحمل الضوء. والثانية كانت عجز النظرية الكلاسيكية عن تفسير توزيع طاقة إشعاع الجسم الأسود. في مزاج ذلك العصر بدت المسألتان كلمسات أخيرة على بناء شبه مكتمل.</p>

<p>من هاتين السحابتين خرجت النسبية وميكانيكا الكم. الاستثناءات التي بدت تافهة أجبرت البناء كله على إعادة التشييد.</p>

<p>الدرس المعتاد من هذه القصة يتعلق بتواضع التنبؤ. لكنني أريد وضع التشديد في مكان مختلف قليلا: كانت هناك عيون رأت السحب سحبا. حتى في عصر بدا فيه كل شيء محلولا، رفض بعض الناس كنس البقايا غير المفسرة تحت سجادة الخطأ الطفيف، ومن تلك البقايا بالضبط وُلدت الفيزياء التالية.</p>

<p>للذكاء الاصطناعي اليوم سحبه أيضا. القاعدة التجريبية القائلة إن مزيدا من الحجم يجلب مزيدا من القدرة تعمل جيدا، لكن لا شيء يفسر السبب. تعمم النماذج كثيرا خارج بيانات تدريبها، لكن لا نظرية تتنبأ بموعد انهيار التعميم. والعلاقة بين إنتاج جمل مقنعة وفهم العالم ما زالت ضبابا. إن كنت منتشيا بسرعة صعود درجات الاختبارات المعيارية بدت لك هذه لمسات أخيرة. أما أنا فأراها سحابتين.</p>

<h2 id="الإنجاز-المسمى-التوسيع">الإنجاز المسمى التوسيع</h2>

<p>أريد تجنب سوء فهم: لا أنوي التقليل من شأن التوسيع.</p>

<p>الوصول إلى هنا بحشد القوة الحاسوبية إنجاز يستحق مكانا في تاريخ الهندسة بمعاييري. أنظمة موزعة تربط عشرات آلاف المسرعات في تدريب واحد، وطرق استمثال تتقارب باستقرار فوقها. هذه هندسة دقيقة، ووصفها بالقوة الغاشمة إهانة لمن بنوها. وبصفتي شخصا ظل يبشر بأهمية التعلم العميق قبل أن يصبح رائجا، أعترف بأن مشاهدة النبوءة تتحقق بهذا الحجم تحرك شيئا في داخلي.</p>

<p>المشكلة ليست الإنجاز بل الوهم الذي يخلقه. ما دام منحنى التوسيع يصعد، يبدأ المنحنى نفسه في الظهور كتقدم علمي. لكن صنع محرك أقوى بتكبير الغلاية وتأسيس الديناميكا الحرارية نشاطان مختلفان. الأول ينفذ طريقة معروفة على نطاق أكبر، والثاني يسأل لماذا تنجح الطريقة ويحسب حدودها. نحتاج الاثنين. وحين يبقى الأول وحده يزدهر المجال هندسيا ويتجمد علميا.</p>

<p>يلفتني تباين واحد. في الفترة نفسها سلكت الحوسبة الكمومية والمعلومات الكمومية طريقا آخر. منذ أيام كانت فيها الأجهزة بدائية بنى ذلك المجال نظريته أولا: حدود تصحيح الأخطاء، وتكميم التشابك كمورد، ونظرية تعقيد للمسائل التي تسهل كموميا وتلك التي لا تسهل. إنها حالة نادرة مشى فيها الفهم أمام الآلة. وأظن أن هذا الترتيب بالذات هو سبب صلابة النتائج الأخيرة الخارجة من ذلك المجال.</p>

<h2 id="ثقافة-تستهلك-الصناديق">ثقافة تستهلك الصناديق</h2>

<p>ما يقلقني أكثر من التقنية هو الثقافة.</p>

<p>بالنسبة لكثير من الباحثين والمهندسين الداخلين إلى المجال الآن، النموذج صندوق: يدخل المدخل ويخرج المخرج، ولا حاجة لفتحه ولا جرأة على ذلك. بضعة أسطر من استدعاءات API تنتج منتجات كانت مستحيلة بالأمس، فيبدو فتح الصندوق هواية غير مجدية. أصبح صقل الموجهات وتحديث لوحات الترتيب الحركات الافتراضية للبحث.</p>

<p>التجريد بريء في ذاته. أنا نفسي صعدت السلم من الأسمبلي إلى اللغات العالية والأطر، والتجريد مصدر الإنتاجية، وليس على الجميع فهم الترانزستورات. لكن في تاريخ العلم جاءت قفزة الطبقة التالية دائما ممن نزل تحت حدود التجريد. كثيرون استخدموا المحرك البخاري كصندوق، لكن كارنو رسم تدفق الحرارة داخله. كثيرون استهلكوا اللاسلكي كصندوق عجيب، لكن ماكسويل وهرتز قرآ معادلات الموجات في داخله.</p>

<p>إجادة استخدام الصندوق والجرأة على فتحه عضلتان مختلفتان. ثقافة اليوم تدرب الأولى فقط. أعطها جيلا واحدا وقد نجد أنفسنا في مجال يفيض بمن يديرون المحركات ولا يبقى فيه من يؤسس الديناميكا الحرارية.</p>

<h2 id="الذين-غيروا-الإحداثيات">الذين غيروا الإحداثيات</h2>

<p>فماذا نفعل بعد فتح الصندوق؟ دعوني أستخرج تلميحا من تاريخ العلم: القفزات الكبرى لم تأت من مزيد من الحساب بل من تغيير التمثيل.</p>

<p>أثبت فورييه أن أي إشارة مهما تعقدت يمكن إعادة كتابتها كمجموع موجات بسيطة. الإشارة نفسها لا تتغير، لكن ما إن تتغير إحداثيات النظر إليها حتى تظهر في مجال التردد بنية كانت خفية في مجال الزمن. الاتصالات ومعالجة الإشارات الحديثة كلها تقف على هذا التحول في المنظور. وأعاد شانون كتابة الاتصال من مسألة فولتات ودارات إلى مسألة احتمال وإنتروبيا، فصار السقف النظري لما يمكن لقناة أن تحمله من معلومات قابلا للحساب. حين يتغير التمثيل تظهر الحدود، وحين تظهر الحدود يمكن التصميم نحوها.</p>

<p>وبصفتي من قضى عمره يفكك الضوء والصوت كموجات، أعترف بأنني حين أنظر داخل الشبكات العصبية تلوح لي لغة الموجات باستمرار: تمثيلات تتراكب وتتداخل في فضاءات عالية الأبعاد، ومكونات تُرشَّح وتُضخَّم عبر الطبقات. لا أعرف إن كانت هذه هي اللغة الصحيحة، وربما نحتاج رياضيات مختلفة تماما. لا أدعي أن الموجات هي الجواب. لكن يصعب علي التخلص من الشك في أن ما نحتاجه الآن ليس عنقودا أكبر بقدر ما هو نظام إحداثيات جديد. البنية التي لن تظهر أبدا في إحداثيات منحنيات الخسارة ودرجات المعايير قد تسقط كمتباينة واحدة في تمثيل آخر.</p>

<h2 id="العيش-قبل-ديناميكا-الذكاء-الحرارية">العيش قبل ديناميكا الذكاء الحرارية</h2>

<p>نعود إلى سؤال البداية: أي عقلية يحتاجها العالِم في زمن كهذا؟</p>

<p>أول ما أسميه هو التواضع. ليس إتيكيت خفض الذات، بل دقة الإدراك. الاعتراف الصريح بأننا نملك محركا يعمل ولا نملك نظرية. رفض الخلط بين صعود درجات المعايير ونمو الفهم. إبقاء الفجوة بين عشرين واطا والجيجاواط على رأس قائمة الواجبات. هذا يكفي.</p>

<p>يليه انضباط التحديق في السحب. الصناعة ستتكفل بجعل ما ينجح ينجح أكثر. أما عمل العالِم فهو مواجهة البقايا غير المفسرة بدل تصنيفها خطأ طفيفا. لماذا يعمم؟ متى ينكسر؟ أسئلة كهذه لا تنفع أرباح الربع القادم، وعلم نصف القرن القادم سيولد منها بالضبط.</p>

<p>وتنفع أيضا عادة الشك في التمثيل. نظام الإحداثيات الذي نستخدمه الآن ليس الوحيد. كانت الإشارات موجودة قبل فورييه والاتصال موجودا قبل شانون، وما كان ناقصا هو لغة إعادة الكتابة. التمرن على إعادة كتابة مجالك بلغة غريبة، واستعارة رياضيات من حقل مجاور. معظم هذه المحاولات يفشل، والمحاولة التي تنجح تغير سماء المجال كله.</p>

<p>وأضيف أمرا أخيرا: ليس هذا وقت الإحباط. كان طلاب الفيزياء عام 1900 محظوظين، إذ وُلدوا في عصر ظن أن البناء اكتمل فصاروا الجيل الذي أعاد بناءه. غياب ديناميكا حرارية للذكاء يعني أن موقعها شاغر. ونادرا ما يرسل تاريخ العلم دعوة أكثر إثارة من هذه.</p>

<h2 id="إلى-كارنو-القادم">إلى كارنو القادم</h2>

<p>تبني ThakiCloud عناقيد GPU ومنصات ذكاء اصطناعي. يمكن القول إن حرفتنا بناء غلايات هذا العصر. ولهذا بالذات نكرر على أنفسنا أن الغلايات ليست القصة كلها. البنية التحتية لا تطرح الأسئلة نيابة عنك، فالبنية الجيدة تتيح فقط لصاحب الأسئلة الجيدة أن يجرب أسرع وبتكلفة أقل. وهوسنا بكفاءة المنصة وتكلفة الطاقة يعود في النهاية إلى المكان نفسه: أمام المعيار الذي وضعه دماغ العشرين واط، ما زال على حوسبة اليوم أن تتواضع كثيرا.</p>

<p>انتظر عصر المحركات البخارية كارنو، ولم يكن الانتظار عبثا. في مكان ما الآن شخص يفتح الصندوق ويسأل عن المبادئ بدل المعايير، وربما ما زال طالبا. أرجو أن تصل هذه المقالة إلى كارنو القادم كتشجيع صغير. المحركات تدور بالفعل، وما نحتاجه الآن هو شجاعة السؤال: لماذا تعمل؟</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="culture" /><category term="فلسفة-العلم" /><category term="التعلم-العميق" /><category term="الديناميكا-الحرارية" /><category term="الموجات" /><category term="ثقافة-البحث" /><category term="التواضع" /><summary type="html"><![CDATA[الفجوة بين آلة تعمل ومبدأ نفهمه من أقدم المشاهد في تاريخ العلم. في عصر يحل كل شيء بالقوة الحاسوبية، تعيد هذه المقالة قراءة عصر التعلم العميق بعدسة الطاقة والموجات، وتدعو إلى تواضع العالِم.]]></summary></entry><entry xml:lang="ar"><title type="html">GLM-5.2 بمعدل 2,626 tok/s على AMD MI355X: اقتصاديات الخدمة التي صنعها MXFP4 وSGLang</title><link href="https://thakicloud.github.io/ar/llmops/glm-5-2-amd-mi355x-mxfp4/" rel="alternate" type="text/html" title="GLM-5.2 بمعدل 2,626 tok/s على AMD MI355X: اقتصاديات الخدمة التي صنعها MXFP4 وSGLang" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/glm-5-2-amd-mi355x-mxfp4</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/glm-5-2-amd-mi355x-mxfp4/"><![CDATA[<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-hero.webp" alt="صورة تجريدية تمثل تدفق الحوسبة المتوازية الذي يتم ضغطه على طول خط الأنابيب ليتقارب في نواة واحدة عالية الكفاءة" /></p>

<p>انتشرت نتيجة اختبار أداء بسرعة في تايم لاين المطورين الأسبوع الماضي. كانت تفيد بأن GLM-5.2 تم تشغيله على عقدة واحدة من AMD MI355X بمعدل 2,626 رمزاً (token) في الثانية، وبتكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell. إذا نظرنا إلى الأرقام فقط، يبدو الأمر كدعاية اعتيادية من نوع “عتادنا أسرع”، لكن سبب أهمية هذه الحالة يكمن في مكان آخر. فهي تجمع بين تشغيل نموذج MoE ضخم بحجم 743B على معالج رسوميات من AMD وليس من NVIDIA، مع ضغطه إلى مستوى 4 بت دون فقدان في الدقة.</p>

<p>هذا المقال موجه لقادة الهندسة الذين يدرسون الخدمة المحلية (on-premise) والخدمة متعددة السحابات، وفرق منصات التعلم الآلي التي تفكر في اختيار مورّد وحدات معالجة الرسوميات، وعلماء البيانات الذين يحتاجون إلى تقييم اقتصاديات خدمة النماذج المفتوحة الأوزان الكبيرة. سنتحقق أولاً من المصدر الأصلي لمعرفة ما الذي قاسته هذه النتيجة بالضبط، ثم نحلل لماذا كان تكميم MXFP4 وتوازي MoE في SGLang حاسمين، وأخيراً نوضح أين تقف منصة ai-platform من ThakiCloud ضمن هذا التوجه.</p>

<p>لنبدأ بالخلاصة. الرسالة الحقيقية لهذا الاختبار ليست “AMD أسرع”، بل أن <strong>مكدس الخدمة (صيغة التكميم ومحرك الاستدلال) بدأ يفكّ قفل الاعتماد على مورّد عتاد واحد</strong>. وهذه النقطة التي ينفكّ فيها القفل هي بالضبط سبب وجود منصات الخدمة المحلية.</p>

<h2 id="ما-هي-هذه-التقنية">ما هي هذه التقنية</h2>

<p>هذه نتيجة تلاقي ثلاثة عناصر: النموذج، والعتاد، ومكدس الخدمة الذي يربط بينهما.</p>

<p><strong>النموذج، GLM-5.2.</strong> هو نموذج MoE مفتوح الأوزان أصدرته Z.ai (المعروفة سابقاً باسم Zhipu)، بإجمالي معلمات (parameters) يبلغ نحو 743B، ومعلمات نشطة لكل رمز تبلغ نحو 39B. يصل طول السياق إلى مليون رمز (1M)، ويُعرف بأنه قوي بشكل خاص في مهام برمجة الواجهة الأمامية (frontend). ورغم أن إجمالي معلماته كبير، فإن معلماته النشطة لا تتجاوز 39B بفضل بنية MoE، ما يجعله نموذجاً متفرقاً (sparse) ضخماً نموذجياً من نوع “يُخزَّن بثقل ويُستخدم بخفة”.</p>

<p><strong>العتاد، AMD Instinct MI355X.</strong> هو أحدث مسرّع لمراكز البيانات من AMD، وتكمن قوته في سعة الذاكرة الكبيرة لكل وحدة معالجة رسوميات (GPU)، ما يتيح احتواء نماذج كبيرة على عدد أقل من وحدات المعالجة. تم قياس هذه الحالة على تكوين عقدة واحدة (8 وحدات معالجة رسوميات، مع توازي موتّرات tp=8). وللإشارة، فإن استهلاك الذاكرة لكل وحدة معالجة رسوميات وفق FP8 يبلغ نحو 89 جيجابايت، أي نصف مستوى BF16 البالغ نحو 175 جيجابايت.</p>

<p><strong>مكدس الخدمة، تكميم MXFP4 (عبر AMD Quark) مع SGLang.</strong> هنا يكمن جوهر الموضوع. تم تحويل نموذج GLM-5.2 الأصلي بصيغة BF16 إلى صيغة <strong>MXFP4</strong> (فاصلة عائمة دقيقة التدرج بـ 4 بت) باستخدام أداة التكميم من AMD المسماة <strong>Quark</strong>، ويذكر المصدر الأصلي أن هذا التحويل كان “بلا فقدان” (lossless) في الدقة مقارنة بتكميم FP8 الرسمي. أما محرك الاستدلال المختار فكان <strong>SGLang</strong>. والسبب واضح: من بين الأطر التي جرى اختبارها، كان SGLang الوحيد الذي يدعم MXFP4 بشكل أصلي، واستطاع من خلال خيار <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> توزيع الخبراء (experts) على وحدات المعالجة ثم توجيه الرموز عبر NVLink/NVSwitch، أي تفعيل توازي MoE بالشكل الصحيح.</p>

<p>وفيما يلي ملخص لخط الأنابيب الكامل.</p>

<pre><code class="language-mermaid">flowchart TB
    A[GLM-5.2 الأصلي&lt;br/&gt;BF16 · 743B MoE] --&gt; B[تكميم MXFP4&lt;br/&gt;عبر AMD Quark]
    B --&gt; C{التحقق من الدقة}
    C --&gt;|بلا فقدان مقارنة بـ FP8 الرسمي| D[محرك خدمة SGLang]
    C --&gt;|في حال حدوث فقدان| A
    D --&gt; E[توازي خبراء MoE&lt;br/&gt;--enable-moe-ep]
    E --&gt; F[عقدة MI355X واحدة&lt;br/&gt;8 GPU · tp=8]
    F --&gt; G[تدفق واحد 213 tok/s]
    F --&gt; H[إجمالي العقدة 2,626 tok/s]
</code></pre>

<p>يكمن الاختلاف عن النهج التقليدي في نقطتين. الأولى، أن صيغة التكميم هي MXFP4 وليست FP8. فتقليل عدد البتات عادة ما يؤدي إلى اضطراب الدقة، لكن أسلوب التدرج الدقيق (microscaling) يضع مقياساً منفصلاً لكل كتلة صغيرة، وهو تصميم يهدف إلى الحفاظ على الجودة حتى عند مستوى 4 بت. الثانية، أن كل هذا تم تشغيله خارج نظام CUDA البيئي، أي على AMD ROCm.</p>

<h2 id="نتائج-اختبار-الأداء-الفعلية">نتائج اختبار الأداء الفعلية</h2>

<p>الأرقام التي نشرها المصدر الأصلي (Wafer.ai) تنقسم إلى مسارين. ينبغي النظر إليهما بشكل منفصل لأن ظروف حمل العمل تختلف بينهما.</p>

<p><strong>سيناريو زمن استجابة تدفق واحد.</strong> في طلب واحد بمدخل 10 آلاف رمز ومخرج 1.5 ألف رمز، بلغ المعدل <strong>213 رمزاً في الثانية</strong>. يمثل هذا الرقم حالة مستخدم واحد يُدخل سياقاً طويلاً ويتلقى الإجابة عبر البث المباشر (streaming).</p>

<p><strong>سيناريو الإنتاجية الإجمالية للعقدة.</strong> في ظروف مدخل 20 ألف رمز، ومخرج ألف رمز، ومعدل إصابة ذاكرة تخزين مؤقتة (cache) بنسبة 60%، تمت معالجة 2.4 طلب في الثانية (2.4 rps)، محققةً إنتاجية إجمالية بلغت <strong>2,626 tok/s لكل عقدة</strong>. وفي هذه الحالة، ظل زمن الوصول إلى أول رمز (TTFT) عند 5 ثوانٍ أو أقل. تمثل هذه الظروف حالة قريبة من الخدمة الإنتاجية التي تدفع طلبات متعددة في آن واحد.</p>

<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-results.webp" alt="رسم بياني بالأعمدة يوضح إنتاجية التدفق الواحد وإجمالي العقدة، والتكلفة النسبية مقارنة بـ Blackwell" /></p>

<p>أما فيما يخص التكلفة، فتذكر Wafer.ai أن تكوين MXFP4 هذا يحقق <strong>تكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell</strong>، أي إنتاجية لكل دولار أعلى بأكثر من الضعف. وفي تحليل منفصل، أفادت SemiAnalysis (InferenceX) أن MI355X، ضمن تكوين مختلف يستخدم SGLang وFP8، أرخص بنسبة تصل إلى <strong>40% لكل مليون رمز</strong> مقارنة بـ B200. وبما أن صيغة التكميم وحمل العمل مختلفان بين الرقمين، فمن الأدق عدم مقارنتهما مباشرة، بل قراءتهما على أنهما “مصدران مستقلان يشيران إلى نفس الاتجاه العام”، وهو التنافسية السعرية لـ MI355X. ولا بد من التوضيح أن مؤشر التكلفة في الرسم البياني أعلاه هو تصوير بصري لادعاء Wafer.ai بـ”أكثر من الضعف”، وهو مؤشر نسبي وليس سعراً مطلقاً.</p>

<p>تجدر الإشارة هنا إلى نقطة مهمة. هذه الأرقام ليست نتيجة إعادة إنتاج قمنا بها بأنفسنا بعد الحصول على عقدة MI355X فعلية، بل هي قيم قياس نشرها المصدر الأصلي. ولعدم توفر جهاز MI355X فعلي لدينا، لم نتمكن من إعادة الإنتاج المستقل، وبالتالي فإن جميع الأرقام الواردة في هذا المقال هي قيم مقتبسة. نخطط للتعامل مع إعادة الإنتاج بنفس الظروف بشكل منفصل حالما نحصل على العتاد.</p>

<h2 id="لماذا-كان-mxfp4-وsglang-حاسمين">لماذا كان MXFP4 وSGLang حاسمين</h2>

<p>الأهم من العتاد في هذه النتيجة هو اختيار مكدس الخدمة. وهناك ثلاثة أسباب لذلك.</p>

<p><strong>أولاً، يتيح التكميم بـ 4 بت احتواء نماذج MoE الضخمة على عدد أقل من وحدات المعالجة.</strong> تحميل 743B معلمة بصيغة BF16 يتطلب مئات الجيجابايتات من الذاكرة. وعند خفضها إلى MXFP4، تنخفض ذاكرة الأوزان بشكل كبير، ما يتيح وضع النموذج نفسه في عدد أقل من وحدات المعالجة وضمن عقدة أضيق. وبما أن جزءاً كبيراً من تكلفة الخدمة يتحدد بحسب “عدد وحدات المعالجة اللازمة لاحتواء هذا النموذج”، فإن التكميم بـ 4 بت القريب من عدم الفقدان ينعكس مباشرة على سعر الوحدة.</p>

<p><strong>ثانياً، يجعل توازي MoE عملية الحساب مقتصرة على المعلمات النشطة فقط.</strong> في نماذج MoE، لا يُفعَّل لكل رمز سوى عدد قليل من الخبراء. ويقوم خيار <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> في SGLang بتوزيع الخبراء على وحدات المعالجة وإرسال الرموز إلى الخبير المعني عبر وصلات بينية عالية السرعة. والمفتاح الحقيقي للإنتاجية هو إحياء بنية “حساب 39B النشطة فقط بدل حساب كامل 743B” على مستوى توزيع العتاد.</p>

<p><strong>ثالثاً، تناغم الصيغة مع المحرك يفك قيد الاعتماد على مورّد واحد.</strong> هنا يكمن الاستنتاج الهادئ لهذا الإنجاز. فبمجرد توفر محرك يدعم MXFP4 بشكل أصلي (SGLang) وأداة تحوّل إلى تلك الصيغة بلا فقدان (AMD Quark)، أصبحت الخدمة على مستوى الإنتاج ممكنة على ROCm وليس فقط على CUDA. وكلما زاد توحيد مكدس الخدمة، تحوّل سؤال “أي مورّد لوحدة المعالجة” من مسألة أداء إلى مسألة توفر وسعر. وهذا هو التحول الذي يعيد قوة التفاوض إلى المشتري.</p>

<h2 id="دلالات-التطبيق-على-منتجات-thakicloud">دلالات التطبيق على منتجات ThakiCloud</h2>

<p>ترتبط هذه الحالة ارتباطاً مباشراً باستراتيجية <strong>ai-platform</strong> من ThakiCloud. فمنصة ai-platform هي بنية تحتية لخدمات AI/ML SaaS قائمة على Kubernetes، تقوم بخدمة النماذج في بيئات عملاء متنوعة وجدولة موارد وحدات المعالجة عبر Kueue. ومن هذا المنظور، تحمل هذه النتيجة ثلاث دلالات.</p>

<p><strong>الخدمة متعددة الموردين لم تعد تنازلاً في الأداء.</strong> في الماضي، كان الافتراض القائل بأن “الأداء لا يتحقق إلا مع NVIDIA” يغلق عملياً باب اختيار المورّد. وحالة GLM-5.2 على MI355X دليل على تزعزع هذا الافتراض. فإذا استطاعت ai-platform تجريد vLLM وSGLang كخلفيات خدمة (backends)، وجدولة عقد NVIDIA وAMD معاً فوقها، فسيتمكن العملاء من توجيه طلباتهم إلى أرخص عتاد متاح حسب حمل العمل. وفي عناقيد (clusters) متعددة المستأجرين، هذه المرونة تعني مباشرة تنافسية في سعر الخدمة.</p>

<p><strong>التكميم أصبح شاغلاً من الدرجة الأولى للمنصة.</strong> الصيغ منخفضة البتات القريبة من عدم الفقدان مثل MXFP4 تتيح تحقيق “نفس اتفاقية مستوى الخدمة (SLA) بعدد أقل من وحدات المعالجة”. وبالنسبة للعملاء الذين يعتمدون الخدمة المحلية، خصوصاً في بيئات القطاع العام والمالي المحلية التي تتطلب سيادة البيانات والاستضافة الذاتية (self-hosting)، فإن كمية وحدات المعالجة المتاحة نفسها تشكل قيداً. والتكميم بلا فقدان يتيح تشغيل نماذج أكبر ضمن هذا القيد، لذا فإن استيعاب ai-platform لسلاسل أدوات مثل Quark كخطوة قياسية في خط أنابيب الخدمة يُعد توجهاً طبيعياً.</p>

<p><strong>كفاءة التكلفة هي الحجة الأساسية لعرض الخدمة المحلية.</strong> أكثر سؤال يُطرح على ThakiCloud عند اقتراح الخدمة المحلية والسحابة السيادية هو “إذاً، ما مدى الرخص؟”. واختبارات الأداء المستقلة التي تشير إلى تكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell، وأرخص بنسبة تصل إلى 40% مقارنة بـ B200، يمكن استخدامها كدليل على أن تنويع العتاد فوق مكدس خدمة مناسب يخفض التكلفة الإجمالية للملكية (TCO) فعلياً. وبالطبع فإن هذا يفترض إمكانية إعادة الإنتاج في بيئة العميل، وهذه القدرة على إعادة الإنتاج هي بحد ذاتها القيمة التي تقدمها المنصة.</p>

<h2 id="القيود-والاعتراضات">القيود والاعتراضات</h2>

<p>من أجل التوازن، نستعرض أسباب عدم المبالغة في الثقة بهذه النتيجة.</p>

<p><strong>أولاً، اختبار الأداء هو لقطة لظروف محددة.</strong> رقم 2,626 tok/s جاء من حمل عمل محدد بمدخل 20 ألف رمز، ومخرج ألف رمز، ومعدل إصابة ذاكرة تخزين مؤقتة 60%. وفي حمل عمل تتركز فيه توليدات طويلة على مطالبات (prompts) قصيرة، أو حيث يكون معدل إصابة الذاكرة المؤقتة منخفضاً، ستختلف الإنتاجية بشكل كبير. والفجوة بين 213 tok/s للتدفق الواحد و2,626 tok/s لإجمالي العقدة تُظهر بالفعل هذه الحساسية.</p>

<p><strong>ثانياً، ادعاء “عدم الفقدان” في MXFP4 محدود بنطاق التحقق.</strong> يذكر المصدر الأصلي أنه بلا فقدان مقارنة بـ FP8 الرسمي، لكن من المرجح أن هذا مبني على مجموعة تقييم محددة. وتأثير التكميم بـ 4 بت قد يختلف حسب المهمة، سواء في البرمجة أو الرياضيات أو السياقات الطويلة، لذا يجب قبل الاعتماد الفعلي قياس تدهور الجودة مباشرة باستخدام مجموعة تقييم خاصة بالشركة.</p>

<p><strong>ثالثاً، لا يزال مستوى نضج تشغيل نظام ROCm البيئي متغيراً غير محسوم.</strong> نجاح اختبار الأداء وثبات التشغيل الموثوق في بيئة الإنتاج أمران مختلفان. فلا تزال هناك فجوة مع نظام CUDA البيئي في توافق برامج التشغيل (drivers) والنواة (kernel) والمكتبات، وفي نضج أدوات التعامل مع الأعطال. والحكم على التكلفة الإجمالية للملكية بالاعتماد فقط على سعر العتاد قد يغفل تكاليف الطاقم التشغيلي وتوقف الخدمة.</p>

<p>ومع ذلك، فإن الاتجاه العام واضح. فتوحيد مكدس الخدمة يوسّع خيارات العتاد المتاحة، والمستفيد من هذا التحول هو منصات الخدمة، وعملاؤها، القادرون على الإفلات من قيد المورّد الواحد واختيار العتاد الأمثل لكل حمل عمل. وهذا بالضبط ما تستهدفه منصة ai-platform من ThakiCloud.</p>

<h2 id="المصادر">المصادر</h2>

<ul>
  <li>Wafer.ai, “Performance per dollar is getting faster and cheaper”: <a href="https://www.wafer.ai/blog/glm52-amd">https://www.wafer.ai/blog/glm52-amd</a></li>
  <li>SemiAnalysis InferenceX, “AMD MI355X GLM-5 Inference: Up to 40% Cheaper per Million Tokens than B200 on SGLang FP8”: <a href="https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200">https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200</a></li>
  <li>LMSYS, “Win on TCO: How AMD Instinct MI355X Achieves Cost-Competitive Distributed Inference Through SGLang with MoRI”: <a href="https://www.lmsys.org/blog/2026-05-28-mori/">https://www.lmsys.org/blog/2026-05-28-mori/</a></li>
  <li>بطاقة نموذج GLM-5.2 (743B / 39B نشطة · MoE · سياق 1024K): <a href="https://recipes.vllm.ai/zai-org/GLM-5.2">https://recipes.vllm.ai/zai-org/GLM-5.2</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="amd" /><category term="mi355x" /><category term="glm" /><category term="mxfp4" /><category term="quantization" /><category term="sglang" /><category term="vllm" /><category term="self-hosting" /><summary type="html"><![CDATA[نتحقق من حالة خدمة GLM-5.2 743B MoE على عقدة واحدة من AMD MI355X بمعدل 2,626 tok/s لكل عقدة، بتكلفة أقل بأكثر من الضعف مقارنة بـ Blackwell، من زاوية تكميم MXFP4 وتوازي MoE في SGLang، ونربط ذلك باستراتيجية ai-platform من ThakiCloud للخدمة متعددة الموردين.]]></summary></entry><entry xml:lang="ar"><title type="html">لماذا يكون نموذج أكبر بثمانية أضعاف أرخص بخمسة أضعاف: البنية الحقيقية لتكلفة استدلال النماذج اللغوية الكبيرة</title><link href="https://thakicloud.github.io/ar/llmops/llm-inference-economics-kv-cache-moe-roofline/" rel="alternate" type="text/html" title="لماذا يكون نموذج أكبر بثمانية أضعاف أرخص بخمسة أضعاف: البنية الحقيقية لتكلفة استدلال النماذج اللغوية الكبيرة" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/llmops/llm-inference-economics-kv-cache-moe-roofline</id><content type="html" xml:base="https://thakicloud.github.io/ar/llmops/llm-inference-economics-kv-cache-moe-roofline/"><![CDATA[<p><img src="/assets/images/llm-inference-economics-kv-cache-moe-roofline-hero.webp" alt="بنية تكلفة استدلال النماذج اللغوية الكبيرة" /></p>

<h2 id="نظرة-عامة-مفارقة-أن-يكون-نموذج-أكبر-بثمانية-أضعاف-أرخص-بخمسة-أضعاف">نظرة عامة: مفارقة أن يكون نموذج أكبر بثمانية أضعاف أرخص بخمسة أضعاف</h2>

<p>طرح سؤال مثير للاهتمام مؤخراً في مجتمع بنية استدلال النماذج. فـ DeepSeek V4 Flash، وهو نموذج بإجمالي 284 مليار معلمة، يسعّر رموز الإخراج (output) بأرخص بنحو خمسة أضعاف من Qwen3.6-35B-A3B البالغ 35 مليار معلمة. وإذا نظرنا إلى الأسعار الفعلية، نجد أن رموز الإدخال (input) لكلا النموذجين متقاربة عند نحو 0.14 دولار لكل مليون رمز، لكن رموز الإخراج تبلغ 0.18-0.28 دولار لكل مليون رمز في DeepSeek V4 Flash، مقابل 1.00-1.49 دولار لكل مليون رمز في Qwen3.6.</p>

<p>وهناك ما هو أغرب من ذلك. فمن حيث المعلمات النشطة لكل رمز، يستخدم Qwen3.6 نحو 3 مليارات معلمة بينما يستخدم DeepSeek V4 Flash نحو 13 مليار معلمة. أي أن Qwen، من ناحية حجم الحوسبة، أخف بأربعة أضعاف تقريباً، ومع ذلك يسير سعر السوق في الاتجاه المعاكس تماماً. وهكذا تنكسر مرتين متتاليتين الفكرة البديهية القائلة إن عدد المعلمات يساوي التكلفة.</p>

<p>يشرّح هذا المقال تلك المفارقة على ثلاثة مستويات: أولاً، لماذا يكون الحد المهيمن في تكلفة فك الترميز (decode) هو قراءة الذاكرة وليس الحوسبة؛ ثانياً، التوتر البنيوي بين عمق ذاكرة KV المؤقتة والتسعير الثابت؛ وثالثاً، ما الذي يظهر عند حساب صيغة الخدمة المثلى على 8xH100 مباشرة باستخدام نموذج roofline. وبالنسبة لجهة مثل ThakiCloud تقدم خدمة النماذج مباشرة في بيئات العملاء، فإن هذه البنية تتحول مباشرة إلى قدرة تنافسية في التكلفة، لذا نستعرض أيضاً الدلالات العملية لذلك.</p>

<h2 id="التحقق-من-الحقائق-المعمارية-للنموذجين">التحقق من الحقائق المعمارية للنموذجين</h2>

<p>لنبدأ أولاً بتحديد المواصفات بدقة.</p>

<p>DeepSeek V4 Flash هو نموذج MoE بإجمالي 284 مليار معلمة و13 مليار معلمة نشطة. يختار الموجّه (router) أفضل 6 خبراء (top-6) من بين 256 خبيراً موجَّهاً (routed expert) بالإضافة إلى خبير مشترك واحد (shared expert). أما الانتباه (attention) فهو مكدس هجين يجمع بين CSA (الانتباه المتفرق المضغوط) وHCA (الانتباه شديد الضغط)، حيث يقرأ فقط أفضل 1,024 مُدخلاً مضغوطاً من ذاكرة KV المؤقتة في كل تمريرة استعلام. ووفقاً للمصادر الرسمية، عند سياق يبلغ مليون رمز (1M) يخفّض ذلك عمليات الفاصلة العائمة (FLOPs) لكل رمز إلى 27%، وذاكرة KV المؤقتة إلى 10% مقارنة بـ V3.2. أما نقطة التفتيش (checkpoint) فهي بصيغة مختلطة، حيث تكون خبراء MoE بصيغة FP4 والباقي بصيغة FP8.</p>

<p>Qwen3.6-35B-A3B هو نموذج MoE بإجمالي 35 مليار معلمة و3 مليارات معلمة نشطة (256 خبيراً، 8 موجَّهين + خبير مشترك واحد). والانتباه هجين بين طبقات انتباه خطي من نوع Gated DeltaNet وطبقات انتباه كامل (full attention) (برأسي KV اثنين، وبُعد رأس 256). السياق الأصلي يبلغ 262 ألف رمز، ويمتد حتى مليون رمز عبر تقنية YaRN. وعند نقطة تفتيش بصيغة FP8 يبلغ حجمه نحو 35 جيجابايت، ما يجعله يتسع في وحدة H100 واحدة.</p>

<p>وباختصار، كلا النموذجين تصميمان حديثان وموجهان نحو الكفاءة. وما يجعل هذه المقارنة أكثر إثارة هو أن Qwen ليس مكلفاً لأنه مجرد نموذج كثيف (dense) ساذج.</p>

<h2 id="البنية-الحقيقية-لتكلفة-فك-الترميز-نموذج-roofline">البنية الحقيقية لتكلفة فك الترميز: نموذج roofline</h2>

<p>توليد الرموز (فك الترميز) مقيد بعرض النطاق الترددي للذاكرة، لا بالحوسبة. والتقريب من الدرجة الأولى لزمن خطوة فك الترميز هو كالتالي.</p>

<div class="language-text highlighter-rouge"><div class="highlight"><pre class="highlight"><code>T_step = (بايتات الأوزان المطلوب قراءتها + مجموع بايتات قراءة KV لكل طلب) / عرض النطاق الترددي للذاكرة
throughput = حجم الدفعة (batch_size) / T_step
</code></pre></div></div>

<p>وهنا يختلف طابع الحدّين اختلافاً تاماً.</p>

<p>قراءة الأوزان (weight) تتقاسمها الدفعة. فإذا قُرئت الأوزان مرة واحدة في كل خطوة، فإن جميع الطلبات داخل الدفعة تشترك في هذه القراءة. فعند دفعة بحجم 512، تنخفض تكلفة الأوزان لكل رمز إلى 1/512. وهذا هو سبب أن إجمالي معلمات MoE يصبح “شبه مجاني عند الدفعات الكبيرة”.</p>

<p>أما قراءة ذاكرة KV المؤقتة فهي منفصلة لكل طلب. فكل طلب يجب أن يقرأ ذاكرة KV الخاصة بسياقه، وهذه التكلفة لا تتوزع حتى مع تكبير الدفعة. وتزداد خطياً كلما ازداد عمق السياق.</p>

<p>لذلك، عندما تكون الدفعة كبيرة بما يكفي ويطول السياق، يتحول الحد المهيمن في التكلفة من الأوزان إلى قراءة ذاكرة KV. غير أن تسعير واجهة برمجة التطبيقات (API) ثابت لكل رمز بغض النظر عن عمق السياق: فالطلب الذي يحمل تاريخاً بطول 32 ألف رمز والطلب الذي يحمل تاريخاً بطول 500 ألف رمز يدفعان السعر نفسه لكل رمز إخراج. ومن منظور مزوّد الخدمة، فإن النموذج القادر على إبقاء قراءة ذاكرة KV محدودة بغض النظر عن العمق هو الذي يحقق هامش ربح ضمن نظام التسعير الثابت.</p>

<pre><code class="language-mermaid">flowchart TB
    A["تكلفة خطوة فك الترميز"] --&gt; B["قراءة الأوزان"]
    A --&gt; C["قراءة ذاكرة KV المؤقتة"]
    B --&gt; B1["تتقاسمها الدفعة بأكملها&lt;br/&gt;تنقسم إلى 1/512 عند دفعة 512"]
    C --&gt; C1["تحدث لكل طلب على حدة&lt;br/&gt;لا تتوزع مع الدفعة"]
    C1 --&gt; D{"عمق السياق"}
    D --&gt;|"الانتباه القياسي"| E["يزداد بما يتناسب مع العمق&lt;br/&gt;قراءة O(L)"]
    D --&gt;|"الانتباه المتفرق CSA/HCA"| F["1,024 مُدخلاً ثابتاً&lt;br/&gt;ثابت بغض النظر عن العمق"]
    E --&gt; G["انفجار التكلفة&lt;br/&gt;عند السياق الطويل"]
    F --&gt; H["تأمين الهامش&lt;br/&gt;ضمن التسعير الثابت"]
</code></pre>

<h2 id="صيغة-الخدمة-على-8xh100-مقارنة-بالأرقام">صيغة الخدمة على 8xH100: مقارنة بالأرقام</h2>

<p>لننتقل الآن إلى وضع النموذجين فعلياً على 8xH100 (طراز SXM5، بذاكرة 80 جيجابايت HBM3 لكل وحدة، وعرض نطاق 3.35 تيرابايت/ثانية لكل وحدة، بإجمالي 640 جيجابايت، وتجميع إجمالي 26.8 تيرابايت/ثانية). وحددنا التكلفة بالساعة عند نحو 20 دولاراً وفق نموذج الطلب عند الحاجة (on-demand).</p>

<p>وفرضيات النمذجة هي كالتالي: يمتلك Qwen3.6 أوزاناً بصيغة FP8 تبلغ نحو 35 جيجابايت؛ وبافتراض أن 10 من طبقاته الهجينة الأربعين هي طبقات انتباه كامل، فإن ذاكرة KV لكل رمز تبلغ نحو 10 كيلوبايت [تقدير] (رأسا KV اثنان × بُعد 256 × 2 لـ K/V × 10 طبقات × بايت واحد). أما DeepSeek V4 Flash فوزنه الفعلي يبلغ نحو 150 جيجابايت [تقدير] بخبراء بصيغة FP4 وطبقات كثيفة (dense) بصيغة FP8؛ وذاكرة KV المخزَّنة، استناداً إلى الادعاء الرسمي بنسبة 10% مقارنة بـ V3.2، تبلغ نحو 3.5 كيلوبايت لكل رمز [تقدير]، بينما تكون القراءة عند فك الترميز ثابتة عند نحو 4 ميغابايت لكل طلب في كل خطوة عبر أفضل 1,024 مُدخلاً.</p>

<h3 id="صيغة-الخدمة-تختلف-من-الأساس">صيغة الخدمة تختلف من الأساس</h3>

<p>الصيغة المثلى لـ Qwen3.6 هي ثماني نسخ مستقلة (DP8). وبما أن النموذج يتسع في وحدة واحدة، فلا يوجد أي اتصال بين وحدات المعالجة على الإطلاق، ويتبقى نحو 38 جيجابايت من ميزانية ذاكرة KV لكل وحدة. وهذه هي صيغة الخدمة النموذجية للتصميم الموجَّه نحو الاستضافة المحلية.</p>

<p>أما DeepSeek V4 Flash فيتطلب تجميع الوحدات الثماني كلها في مجموعة واحدة من نوع TP/EP. وفي مقابل اتصال all-to-all الذي يفرضه ذلك، تشترك الدفعة بأكملها في ميزانية ذاكرة KV تبلغ نحو 490 جيجابايت.</p>

<h3 id="حسابات-الإنتاجية-حسب-عمق-السياق">حسابات الإنتاجية حسب عمق السياق</h3>

<p>هذه نتائج حسابات roofline (والقيم المتحققة فعلياً عادة ما تكون 50-60% من هذه الأرقام، ولا تشمل اتصال EP ولا مرحلة prefill).</p>

<p>عند سياق 8 آلاف رمز (8K)، تعمل مجموعة Qwen بمعدل نحو 76 ألف رمز/ثانية وDeepSeek V4 Flash بنحو 90 ألف رمز/ثانية، وهما متقاربان. وإذا أُخذ في الحسبان عبء الاتصال، فإن Qwen يصبح في الواقع أفضل. وهذا يعني أنه عند السياق القصير، يكون النموذج الأصغر أرخص من الناحية الحوسبية أو مكافئاً له.</p>

<p>عند 32 ألف رمز (32K) تبدأ الفجوة بالاتساع. إذ ترتفع قراءة ذاكرة KV لكل طلب في Qwen إلى 320 ميغابايت، فينخفض إلى نحو 31 ألف رمز/ثانية، بينما يحافظ DeepSeek V4 Flash على نحو 90 ألف رمز/ثانية لأن قراءة ذاكرة KV لديه لا تزال ثابتة. أي فارق يقارب ثلاثة أضعاف.</p>

<p>عند 256 ألف رمز (256K)، تصل ذاكرة KV لكل طلب في Qwen إلى 2.56 جيجابايت، ويؤدي سقف التخزين إلى تقييد حجم الدفعة لكل وحدة عند 14، فينخفض إلى نحو 5.3 آلاف رمز/ثانية. أما DeepSeek V4 Flash فيعمل بنحو 45 ألف رمز/ثانية، بفارق قدره 8.5 أضعاف.</p>

<p>عند مليون رمز (1M)، يتعين على Qwen قراءة 10 جيجابايت لكل طلب في كل خطوة، فينخفض إلى نحو 1.2 ألف رمز/ثانية بسقف 24 جلسة متزامنة. أما DeepSeek V4 Flash فيعمل بنحو 11 ألف رمز/ثانية مع 64 جلسة متزامنة، بفارق يقترب من عشرة أضعاف.</p>

<p>وبتحويل ذلك إلى دولارات، عند 32K يكون السعر 0.18 دولار لكل مليون رمز لـ Qwen مقابل 0.06 دولار لكل مليون رمز لـ DeepSeek V4 Flash؛ وعند 1M يكون 4.6 دولار لكل مليون رمز لـ Qwen مقابل 0.5 دولار لكل مليون رمز لـ DeepSeek V4 Flash. وفي النطاق من عشرات إلى مئات الآلاف من الرموز، وهو متوسط العمق لأحمال العمل الوكيلية (agentic)، تتسع فجوة التكلفة إلى 3-10 أضعاف، وهو ما يقع بالضبط في نفس رتبة حجم فارق أسعار واجهة برمجة التطبيقات الملحوظ (نحو خمسة أضعاف).</p>

<p><img src="/assets/images/llm-inference-economics-kv-cache-moe-roofline-results.webp" alt="مقارنة الإنتاجية والتكلفة حسب عمق السياق" /></p>

<p>وهناك أمر يجدر الإفصاح عنه بأمانة: يوجد تباين يصل إلى 40 ضعفاً بين المصادر العامة بخصوص ذاكرة KV المخزَّنة لكل رمز في DeepSeek V4 Flash (إذ يتعارض ادعاء وثائق vLLM recipes بنسبة “10% مقارنة بـ V3.2” مع جدول ذاكرة KV في بعض أدلة النشر). وقد اعتمد الحساب أعلاه على الادعاء الأول، الأقرب إلى مصدر أولي، ونشدد على أن الاستنتاج يستند إلى اتجاه التوسع (بنية اتساع الفجوة مع تزايد العمق) لا إلى القيم المطلقة.</p>

<h2 id="ثلاثة-أمور-يكشفها-الحساب">ثلاثة أمور يكشفها الحساب</h2>

<p>أولاً، عنق الزجاجة في Qwen ليس تخزين ذاكرة KV بل قراءتها. فبفضل Gated DeltaNet، التخزين (نحو 10 كيلوبايت لكل رمز) ممتاز بالفعل. المشكلة أن قراءة O(L) في طبقات الانتباه الكامل تتكرر في كل خطوة فك ترميز. أما DeepSeek V4 Flash فتخزينه صغير أيضاً، وقراءته مقيدة بثابت تماماً.</p>

<p>ثانياً، تمتص الدفعة قراءة أوزان MoE البالغة 284 مليار معلمة. فعند دفعة كبيرة، تكون قراءة الأوزان لكل خطوة ثابتة عند نحو 150 جيجابايت، وهو ما يصل إلى 0.3 جيجابايت لكل رمز عند توزيعه على 512 رمزاً. في المقابل، تقرأ كل وحدة في Qwen بنمط DP8 نحو 35 جيجابايت بشكل مستقل، ما يصل إجمالاً إلى 280 جيجابايت لكل خطوة على مستوى العنقود (cluster). وهكذا ينعكس الفارق البالغ ثمانية أضعاف في إجمالي المعلمات عند النظر إلى القراءة الفعلية.</p>

<p>ثالثاً، رغم أن Qwen أرخص من الناحية الحوسبية عند السياق القصير، فإن سعره في السوق أعلى بخمسة أضعاف. وهذا دليل كمّي على أن قائمة الأسعار لا تعكس التكلفة الفعلية. فـ DeepSeek يشغّل واجهة برمجة تطبيقاته الخاصة (1st-party API) بحجم حركة مرور ضخم، وينقل إلى التسعير وفورات التكلفة الناتجة عن تحسينات البنية التحتية، مثل النوى المخصصة (deep_gemm_mega_moe، وذاكرة مؤشر FP4)، وفصل مرحلتي prefill وdecode، وMTP، وخصم بنسبة 98% عند إصابة الذاكرة المؤقتة (cache hit). أما Qwen3.6-35B، الذي صُمم أساساً للاستخدام المحلي أو وحدة معالجة رسوميات واحدة، فإن خدمته عبر واجهة برمجة التطبيقات تتولاها غالباً جهات خارجية باستخدام مكدس vLLM عام؛ وعندما تكون كثافة حركة المرور منخفضة، يتعين إدماج وقت خمول وحدة المعالجة ضمن السعر، ما يرفع السعر المعروض. وسعر السوق دالة على كثافة الطلب ومستوى التحسين، لا على التكلفة الفعلية.</p>

<h2 id="دلالات-التطبيق-على-منتج-thakicloud">دلالات التطبيق على منتج ThakiCloud</h2>

<p>يرتبط هذا التحليل ارتباطاً مباشراً بالقرارات التي تواجهها منصة ai-platform من ThakiCloud يومياً. فعند خدمة النماذج على وحدات معالجة الرسوميات الخاصة بالعملاء في بيئات السحابة المحلية (on-prem) والسحابة السيادية، فإن ما يحدد تكلفة الرمز على العتاد نفسه ليس حجم النموذج بل صيغة الخدمة. وكما توضح الحسابات أعلاه، يمكن أن تختلف الإنتاجية الفعلية بعدة أضعاف على نفس تكوين 8xH100 تبعاً للاختيار بين DP8 ومجموعة TP/EP، ونوع بيانات ذاكرة KV المؤقتة (dtype)، وإعداد max-model-len. وتعتمد ai-platform كإجراء قياسي ضبط معاملات خدمة vLLM، فوق جدولة وحدات معالجة الرسوميات القائمة على K8s وKueue، بما يتناسب مع ملف حمل العمل (متوسط عمق السياق، وعدد الجلسات المتزامنة)، ونموذج roofline في هذا المقال هو نقطة انطلاق ذلك التحجيم (sizing).</p>

<p>وهناك أيضاً بُعد يتعلق بأحمال عمل الوكلاء (agents). ففي Paxis (السحابة الأصيلة للوكلاء من ThakiCloud)، ينتج الوكلاء تاريخاً طويلاً واستدعاءات أدوات (tool call) متكررة، وهذا بالضبط نوع حركة المرور الذي يدفع عمق ذاكرة KV إلى العمق. والاستنتاج العملي لهذا التحليل هو أن الجمع بين نموذج يظل قوياً عند السياق العميق وبنية تحتية للتخزين المؤقت للسوابق (prefix cache) هو ما يحدد اقتصاديات الوكلاء. فتكلفة الخدمة المنخفضة (ai-platform) هي ما ينتج اقتصاديات وحدة الوكيل (Paxis).</p>

<h2 id="القيود-والحجج-المضادة">القيود والحجج المضادة</h2>

<p>لنوضح قيود هذا التحليل صراحة. أولاً، roofline نموذج للحد الأعلى. فالإنتاجية الفعلية عادة ما تكون عند 50-60% من هذه الأرقام بسبب كفاءة النوى (kernels)، واتصال all-to-all في EP، والتداخل بين prefill وdecode، بينما تدفع تقنيات تنبؤية مثل MTP الإنتاجية في الاتجاه المعاكس إلى الأعلى. ثانياً، تتعارض أرقام ذاكرة KV لدى DeepSeek V4 Flash بين المصادر العامة، لذا أبقينا على وسم [تقدير]. ثالثاً، عدد طبقات الانتباه الكامل في Qwen3.6 تقدير مبني على الإعداد (config) العام، وتتغير القيم المطلقة إذا اختلفت نسبة الهجين. رابعاً، الجودة محور منفصل: فـ DeepSeek V4 Flash أضعف من V4 Pro في الاستدلال متعدد الخطوات المعقد، لذا فإن اختيار النموذج بناءً على التكلفة وحدها استنتاج خاطئ. ويجيب هذا التحليل الخاص بالتكلفة فقط على سؤال: أي صيغة خدمة اقتصادية عند مستوى ثابت ومحدد من متطلبات الجودة.</p>

<h2 id="المراجع">المراجع</h2>

<ul>
  <li><a href="https://recipes.vllm.ai/deepseek-ai/DeepSeek-V4-Flash">vLLM Recipes: DeepSeek-V4-Flash</a></li>
  <li><a href="https://recipes.vllm.ai/Qwen/Qwen3.6-35B-A3B">vLLM Recipes: Qwen3.6-35B-A3B</a></li>
  <li><a href="https://api-docs.deepseek.com/quick_start/pricing">DeepSeek API Docs: Models &amp; Pricing</a></li>
  <li><a href="https://openrouter.ai/deepseek/deepseek-v4-flash">OpenRouter: DeepSeek V4 Flash</a></li>
  <li><a href="https://openrouter.ai/qwen/qwen3.6-35b-a3b">OpenRouter: Qwen3.6 35B A3B</a></li>
  <li><a href="https://qwen.ai/blog?id=qwen3.6-35b-a3b">مدونة Qwen الرسمية: Qwen3.6-35B-A3B</a></li>
  <li><a href="https://www.spheron.network/blog/deploy-deepseek-v4-flash-gpu-cloud/">Spheron: Deploy DeepSeek V4-Flash on GPU Cloud</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="LLM-الاستدلال" /><category term="KV-التخزين-المؤقت" /><category term="MoE" /><category term="vLLM" /><category term="تكلفة-الخدمة" /><category term="DeepSeek" /><category term="Qwen" /><summary type="html"><![CDATA[نحلل، باستخدام نموذج roofline، المفارقة التي تجعل DeepSeek V4 Flash بحجم 284B مليار معلمة يسعّر رموز الإخراج بأرخص بخمسة أضعاف من Qwen3.6 بحجم 35B. من قراءات ذاكرة KV المؤقتة إلى اقتصاديات تجميع الدفعات في MoE وصولاً إلى حسابات صيغة الخدمة على 8xH100، نستعرض البنية الحقيقية لتكلفة الاستدلال بالأرقام.]]></summary></entry><entry xml:lang="ar"><title type="html">هل ماتت عملية الضبط الدقيق فعلا؟ استراتيجية البقاء لعام 2026 عبر إشارات موثّقة من شهر يونيو</title><link href="https://thakicloud.github.io/ar/research/llmops/finetuning-survival-strategy-2026/" rel="alternate" type="text/html" title="هل ماتت عملية الضبط الدقيق فعلا؟ استراتيجية البقاء لعام 2026 عبر إشارات موثّقة من شهر يونيو" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/llmops/finetuning-survival-strategy-2026</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/llmops/finetuning-survival-strategy-2026/"><![CDATA[<p><img src="/assets/images/finetuning-survival-strategy-2026-hero.webp" alt="صورة توضيحية لاستراتيجية بقاء الضبط الدقيق" /></p>

<h2 id="مدخل-ألا-يكفي-الآن-أن-نستغني-عن-الضبط-الدقيق">مدخل: “ألا يكفي الآن أن نستغني عن الضبط الدقيق؟”</h2>

<p>كل من يبني منصة ذكاء اصطناعي أو يبيعها اليوم لا بد أنه سمع هذا السؤال مرة على الأقل. بما أن النماذج الطليعية أصبحت بهذا القدر من الجودة، وبما أنه يمكن حقن المعرفة الخاصة بالمجال عبر المهارات (skills) وسقالات الوكلاء (agentic scaffolding)، فهل يستحق الأمر إنفاق المال والوقت لتدريب نموذج مستقل؟ طرحنا على أنفسنا السؤال ذاته. لذلك تحققنا منه بالاعتماد حصرا على مصادر نُشرت خلال شهر واحد بالضبط، من 5 يونيو إلى 5 يوليو 2026.</p>

<p>المنهجية بسيطة. قسّمنا البحث إلى أربعة محاور: أدلة انتفاء الحاجة إلى الضبط الدقيق، أدلة استمرار بقائه، تحركات السوق والموردين، ونقاشات الممارسين الميدانيين. ثم أعدنا التحقق من ستة ادعاءات محورية تؤثر في اتجاه القرار عبر تدقيق تفنيدي (adversarial) مستقل. من أصل ستة، تأكدت أربعة ادعاءات بالكامل وتأكد ادعاءان جزئيا، ولم يُفنَّد أي منها. هذا المقال مبني حصرا على الحقائق التي اجتازت هذا التحقق.</p>

<p>الخلاصة المسبقة هي التالية: منتج الضبط الدقيق يحتضر بالفعل، لكن الذي يحتضر هو قطاع محدد هو واجهة SFT ذاتية الخدمة، بينما تُعاد صياغة التقنية ذاتها ضمن منتج مختلف تماما هو ملكية النموذج واقتصاديات عمال الوكلاء (agent workers)، بل تزداد قيمتها العلاوية في هذا الاتجاه.</p>

<h2 id="ما-الذي-يموت-فعلا">ما الذي يموت فعلا</h2>

<p>الحدث الأكثر دلالة هو قرار OpenAI. أعلنت الشركة في 7 مايو 2026 حظر إنشاء مهام ضبط دقيق جديدة للمؤسسات الجديدة، وابتداء من 2 يوليو انتقلت إلى مرحلة منع وصول المؤسسات غير النشطة لأكثر من 60 يوما، وفي 6 يناير 2027 ستُنهي بالكامل إمكانية إنشاء مهام ضبط دقيق جديدة حتى للعملاء النشطين الحاليين. يبقى الاستدلال (inference) على النماذج المضبوطة دقيقا سابقا متاحا إلى أن يُلغى النموذج الأساسي، لكن مسار تشغيل تدريب جديد يُغلق.</p>

<p>اللافت هو البند الاستثنائي. الضبط الدقيق القائم على التعلم المعزز، أي RFT، يُفصل في مسار منفصل ويستمر رغم هذا الإغلاق. أوقفت OpenAI الضبط الدقيق المُوجَّه (SFT) بينما أبقت على التخصيص عالي القيمة الذي يمتلك مكافأة قابلة للتحقق. أما Anthropic فلم تفتح أصلا واجهة ضبط دقيق ذاتية الخدمة في واجهتها العامة، وتدفع باتجاه Agent Skills كمسار قياسي يحمّل المعرفة الخاصة بالمجال ديناميكيا من بنية مجلدات. وهكذا فإن أكبر موردَي نماذج يشيران إلى الاتجاه ذاته.</p>

<p>إشارات الأسعار تحمل الرسالة نفسها. منافسة الأسعار على الضبط الدقيق بتقنية LoRA بين Together AI وFireworks AI تعني أن هذا القطاع أصبح سلعة أساسية (commodity) وتقلّصت هوامشه. أصبح تشغيل الضبط الدقيق المُوجَّه بخفة وذاتيا أمرا سهلا تقنيا، وبالتالي فقد جاذبيته كمشروع تجاري.</p>

<h2 id="لكن-لا-يوجد-دليل-على-أن-المهارات-حل-شامل-أيضا">لكن لا يوجد دليل على أن المهارات حل شامل أيضا</h2>

<p>على عكس الشعور السائد، الأدلة الأكاديمية على أن المهارات تحلّ محل الضبط الدقيق بشكل عام لا تزال ضعيفة. أظهرت دراسة SkillJuror، المقدَّمة ضمن هذه النافذة الزمنية، أن تقديم المهارات بصيغة مُهيكَلة يرفع معدل اجتياز التحقق بمقدار 4.1 نقطة مئوية مقارنة بالصيغة المسطّحة. الأثر حقيقي لكنه ليس كبيرا. أما الدراسة الخلفية الأسبق قليلا، SkillsBench، فتحمل نتيجة أكثر إثارة للاهتمام: المهارات المُنسَّقة (curated) بعناية ترفع معدل الاجتياز بمعدل 16.2 نقطة مئوية في المتوسط، لكن التباين بين المجالات متطرف، إذ يتراوح بين سلبي وحتى +51.9 نقطة مئوية، وفي 16 من أصل 84 مهمة تراجع الأداء فعليا. والأهم أن المهارات التي كتبها النموذج بنفسه لم تُحدث أثرا إيجابيا في المتوسط.</p>

<p>بمعنى آخر، فرضية “المهارات تكفي” فرضية مشروطة تصح فقط عند تطبيق مهارات نسّقها إنسان بعناية على المجال المناسب. تكلفة تنسيق المهارات ليست مجانية، ولا يوجد ما يضمن أنها أرخص دائما من الضبط الدقيق. وللإشارة، لم نجد ضمن هذه النافذة الزمنية أي معيار قياس (benchmark) يقارن مباشرة نموذجا مضبوطا دقيقا مقابل نموذج طليعي مزوَّد بمهارات على نفس مجموعة المهام. هذه الفجوة تبقى واجبا معلّقا على الطرفين.</p>

<h2 id="إشارات-معاكسة-تماما-خلال-شهر-يونيو">إشارات معاكسة تماما خلال شهر يونيو</h2>

<p>في الشهر نفسه، تدفقت أيضا إشارات قوية في اتجاه الضبط الدقيق وملكية النموذج. جميعها أحداث تم التحقق منها عبر مصادر مستقلة.</p>

<p>أولا، تحوّلت مخاطر الاعتماد الجيوسياسي على واجهات النماذج الطليعية إلى حدث واقعي مُقاس. في 12 يونيو 2026، وبناء على توجيه من ضوابط التصدير الأمريكية، عطّلت Anthropic نموذجَي Fable 5 وMythos 5 على مستوى العالم بأكمله. تعذّر تطبيق فلترة الجنسية في الزمن الحقيقي، فتأثر عمليا جميع المستخدمين وليس فقط العملاء خارج الولايات المتحدة، واستغرق رفع التعطيل 19 يوما. أي شركة وضعت أعمالها الجوهرية على واجهة نموذج طليعي واحدة، تكون قد تلقّت في يونيو درسا مدته 19 يوما.</p>

<p>ثانيا، منظومة الأوزان المفتوحة تُصمَّم اليوم على أساس الضبط الدقيق. أعلنت NVIDIA في 4 يونيو عن Nemotron 3 Ultra، وهو نموذج خليط خبراء (MoE) بحجم إجمالي 550 مليار معلمة ونشِط منها 55 مليارا، ويأتي مزودا افتراضيا بوصفات LoRA SFT وSFT الكامل وتعلم معزز GRPO. رخصة OpenMDW-1.1 تسمح صراحة بتسويع وإعادة توزيع النماذج المشتقة من الضبط الدقيق. الهدف من تصميم هذه الرخصة هو أن تملك الشركات وتبيع النموذج الذي دربته على بياناتها الخاصة. وفي 29 يونيو، أطلقت Palantir وNVIDIA معا منتجا مدمجا للذكاء الاصطناعي السيادي يتيح ضبط الأوزان المفتوحة دقيقا وتشغيلها داخل بيئة معزولة عن الشبكة (air-gapped). في الاتحاد الأوروبي، طُرح مشروع قانون لتصنيف أحمال العمل العامة وفق درجات ضمان السيادة، وفي كوريا كذلك مشاريع الذكاء الاصطناعي السيادي قيد التنفيذ.</p>

<p>ثالثا، ظهرت حالة انتصار عملي لعامل الضبط الدقيق. في معيار قياس نشرته شركة الذكاء الاصطناعي القانوني Harvey بالتعاون مع Fireworks، حقق نموذج Kimi K2.6 المضبوط بتقنية SFT فقط، ودون أي مساعدة من نموذج طليعي، معدل اجتياز إجمالي بلغ 15% على 100 مهمة، متجاوزا نموذج Claude Opus 4.7 المستقل الذي حقق 14%، وبتكلفة أقل بنحو 11.4 مرة. أما التركيبة الهجينة التي تستدعي نموذجا طليعيا انتقائيا إلى جانب عامل الضبط الدقيق، فحققت أعلى معدل اجتياز عند 18%. رغم أن هذا معيار قياس صادر عن المورّد نفسه، فإنه دليل عملي على أن الجمع بين عامل مضبوط دقيقا وتصعيد انتقائي إلى نموذج طليعي، في مجال ضيق، يحقق الجودة والتكلفة معا.</p>

<p>رابعا، تفوق النماذج الصغيرة في مجالات ضيقة لا يزال يتكرر. في ورقة بحثية نُشرت في 11 يونيو، أظهر نموذج Mistral-7B المضبوط دقيقا بتقنية QLoRA تفوقا في التحقق من الادعاءات الطبية الحيوية على GPT-4o وGPT-5، بفارق يصل إلى 12 نقطة مئوية في مقياس F1. وقد استُخدم لهذا التدريب 1,008 عينة فقط.</p>

<h2 id="السوق-ينقسم-إلى-ثلاثة-مسارات">السوق ينقسم إلى ثلاثة مسارات</h2>

<p>عند تراكب هذه الإشارات معا، يتضح أن السوق لا ينقسم بين “الموت أو البقاء” فحسب، بل ينقسم إلى ثلاثة مسارات.</p>

<pre><code class="language-mermaid">flowchart TB
    A["سوق الضبط الدقيق&lt;br/&gt;إعادة تشكّل 2026"] --&gt; B["المسار 1&lt;br/&gt;واجهة SFT ذاتية الخدمة"]
    A --&gt; C["المسار 2&lt;br/&gt;النموذج السيادي المملوك المخصص"]
    A --&gt; D["المسار 3&lt;br/&gt;الضبط الدقيق بالتعلم المعزز واقتصاديات العمال"]
    B --&gt; B1["مرحلة انكماش&lt;br/&gt;إغلاق تدريجي من OpenAI&lt;br/&gt;تحوّل LoRA إلى سلعة أساسية"]
    C --&gt; C1["ارتفاع علاوة القيمة&lt;br/&gt;منتجات ضبط دقيق معزولة عن الشبكة&lt;br/&gt;مشروع قانون تصنيف السيادة&lt;br/&gt;رخص مصممة على أساس الضبط الدقيق"]
    D --&gt; D1["نمو جديد&lt;br/&gt;RFT يبقى في مسار منفصل&lt;br/&gt;عامل ضبط دقيق + تصعيد لنموذج طليعي"]
    C1 --&gt; E["ملكية النموذج كمنتج"]
    D1 --&gt; E
</code></pre>

<p>المسار الأول، واجهة SFT ذاتية الخدمة، في مرحلة انكماش. طول السياق الكبير للنماذج الطليعية، ودعمها الأصلي لاستدعاء الأدوات، والمخرجات المُهيكَلة، استوعبت جزءا كبيرا من مشكلتَي الالتزام بالصيغة ومفردات المجال، اللتين كانتا سبب وجود الضبط الدقيق في الأصل. المسار الثاني، النموذج المخصص المملوك، يُعاد تشكيله كخدمة علاوية (premium). عصر الضبط الدقيق الخفيف عبر الواجهة البرمجية ينتهي، لكن التخصيص الثقيل الذي تملك فيه الشركة نموذجها وتتحكم فيه يزداد قيمة. المسار الثالث طلب جديد يخلقه عصر الوكلاء. كلما تحسّنت أدوات التنسيق (orchestrators)، تزداد استدعاءات العمال منخفضي التكلفة المسؤولين عن المهام الفرعية المتكررة، ولا يمكن تحمّل استدعاء نموذج طليعي في كل شريحة من هذه الاستدعاءات.</p>

<h2 id="الشروط-الخمسة-التي-يفوز-فيها-الضبط-الدقيق-بوضوح">الشروط الخمسة التي يفوز فيها الضبط الدقيق بوضوح</h2>

<p>عند تلخيص الحالات الموثّقة كنمط، يتضح أن احتمال فوز الضبط الدقيق وعائده على الاستثمار يرتفعان كلما تجمّعت الشروط التالية.</p>

<ol>
  <li>عندما تكون المهمة ضيقة ومتكررة وصيغة المخرجات ثابتة. التصنيف والتحقق والاستخراج المُهيكَل أمثلة نموذجية، والحالة التي حققت تفوقا بـ12 نقطة مئوية بـ1,008 عينة فقط من هذا النوع.</li>
  <li>عندما توجد مكافأة قابلة للتحقق. إذا توفرت تغذية راجعة من البيئة تسمح بتطبيق GRPO أو RFT، فهذا أفضل من التعلم المُوجَّه، وهو السبب الذي جعل OpenAI تُبقي على RFT وحده بعد إيقاف SFT.</li>
  <li>عندما يكون تكرار الاستدعاء مرتفعا والتكلفة والزمن هما القيد المُهيمن. شرائح عمال الوكلاء تندرج هنا، وفارق التكلفة بمقدار 11.4 مرة يصبح حاسما كلما ازداد الحجم.</li>
  <li>عند وجود متطلبات سيادة بيانات أو تنظيم أو شبكة معزولة. المجالات العامة والمالية والدفاعية تكون فيها خيارات الواجهة الخارجية محدودة أصلا.</li>
  <li>عندما تشكّل واجهة النموذج الطليعي نفسها مخاطرة في سلسلة التوريد. كما أظهر حادث التعطيل لمدة 19 يوما، لم تعد ضوابط التصدير وتغيرات السياسات سيناريو افتراضيا.</li>
</ol>

<p>في المقابل، لم نجد ضمن هذه النافذة الزمنية أي دليل على أن النموذج المضبوط دقيقا تفوّق على النموذج الطليعي في الاستدلال المفتوح المجال، أو المعرفة الحديثة، أو معالجة الذيل الطويل (long-tail). في هذه المجالات، التقييم الصادق هو ترك الساحة للمهارات وللنماذج الطليعية.</p>

<h2 id="دلالات-هذا-التحليل-من-منظور-منتجات-thakicloud">دلالات هذا التحليل من منظور منتجات ThakiCloud</h2>

<p>يتقاطع هذا الانقسام تماما مع اتجاه منتجَينا الرئيسيَّين.</p>

<p>من منظور ai-platform، ما يتطلبه المساران 2 و3 هو في النهاية بنية تحتية للتدريب والخدمة تعمل داخل شبكة العميل المعزولة. تُشغّل منصة ai-platform لدى ThakiCloud خمسة أنابيب تدريب هي SFT وCPT وDPO وGRPO وGKD، فوق جدولة وحدات معالجة الرسوميات (GPU) القائمة على Kubernetes وKueue. من المهم بالنسبة لنا أن هذا البحث أكد أن المحورين اللذين بدأ السوق يعترف بعلاوة قيمتهما هما GRPO المبني على مكافأة قابلة للتحقق، والتقطير (distillation) الذي ينقل مخرجات النموذج الطليعي إلى نموذج صغير. وكلما تزايدت متطلبات النشر الداخلي والسيادة، يتحوّل الضبط الدقيق من ميزة في واجهة برمجية إلى قضية قدرة بُنى تحتية، وهذا هو الموقع الذي نقف فيه.</p>

<p>من منظور Paxis، يوضّح هذا الاستنتاج بجلاء تقسيم الأدوار بين المهارات والضبط الدقيق. Paxis هو مستوى التحكم السحابي الأصلي للوكلاء (Agent-Native Cloud) لدى ThakiCloud، يختار من بين أكثر من 960 مهارة عبر خوارزمية BM25 وينفذها داخل صندوق رملي معزول، بحيث يمر كل سلوك عبر بوابات سياسة وسجلات تدقيق. الدرس الذي كشفته معايير قياس المهارات، وهو أن المهارات فعّالة فقط عند تنسيقها بعناية، وأن المهارات ذاتية التوليد غير موثوقة، يؤكد أن استثمار Paxis في تنسيق المهارات وحلقات التحقق كان الاتجاه الصحيح. وفي الوقت ذاته، يوضّح نمط حالة Harvey أن عامل الضبط الدقيق اقتصادي في المهام الفرعية المتكررة لأسطول الوكلاء، وأن التنسيق القائم على المهارات وعمال الضبط الدقيق ليسا في علاقة تنافس، بل طبقتان لبنية واحدة. إنه تصميم لا يتخلى عن النموذج الطليعي بل يستخدمه باقتصاد.</p>

<h2 id="الحدود-وحجج-مضادة">الحدود وحجج مضادة</h2>

<p>يجب أيضا وضع سيناريوهات قد تُبطل هذا التحليل. أقوى حجة مضادة هي سرعة تطور تحسين فضاء النص. صنّفناها كدراسة خلفية، لكن SkillOpt من Microsoft Research حقق تحسنا في الأداء بمقدار 19 إلى 25 نقطة مئوية بالاعتماد فقط على تحسين وثائق المهارات عبر آلية rollout، دون المساس بأوزان النموذج إطلاقا. إذا نضج هذا المسار، فقد يزحف حتى على آخر معاقل الضبط الدقيق، وهي دقة المهام الضيقة. حتى في هذا السيناريو، ما يبقى حيا ليس وظيفة التدريب بل عقد البنية التحتية الخاص بخدمة وتشغيل نموذج مملوك للعميل داخل شبكة معزولة. وقد لوحظ فعلا ضمن إشارات السوق في هذه النافذة الزمنية أن القيمة المضافة تنتقل من طبقة التدريب إلى طبقة الخدمة.</p>

<p>حد آخر يكمن في البيانات ذاتها. معيار قياس Harvey إعلان صادر عن المورّد نفسه، ولم نتمكن من الحصول ضمن هذه النافذة الزمنية على بيانات سوق كمية مباشرة تُظهر تراجع أو ازدياد الطلب على الضبط الدقيق. كما ينبغي التمييز بين قرار OpenAI بإغلاق الخدمة، الذي هو قرار من جانب العرض، وبين أي دليل مباشر على تراجع الطلب.</p>

<h2 id="خاتمة">خاتمة</h2>

<p>الشعور القائل بأن “الضبط الدقيق لم يعد ضروريا” صحيح فقط بنسبة النصف. صحيح أن SFT كسلعة أساسية يتراجع فعلا، لكن الأحداث الموثّقة خلال شهر يونيو 2026 تُظهر أن الضبط الدقيق يُعاد تشكيله في اتجاهين هما ملكية النموذج واقتصاديات عمال الوكلاء. حان وقت تغيير السؤال. لم يعد السؤال “هل نُجري ضبطا دقيقا أم لا”، بل “في أي الشروط نملك النموذج”، وهذا هو السؤال الصحيح للنصف الثاني من عام 2026.</p>

<h2 id="المراجع">المراجع</h2>

<ul>
  <li><a href="https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models">NVIDIA Debuts Nemotron 3 Family of Open Models (NVIDIA Newsroom, 2026-06-04)</a></li>
  <li><a href="https://arxiv.org/pdf/2606.15007">تقرير Nemotron 3 Ultra التقني (arXiv:2606.15007)</a></li>
  <li><a href="https://arxiv.org/abs/2606.12854">Small LLMs for Biomedical Claim Verification (arXiv:2606.12854, 2026-06-11)</a></li>
  <li><a href="https://www.aljazeera.com/news/2026/6/13/us-orders-anthropic-to-disable-ai-models-for-all-foreign-nationals">US orders Anthropic to disable AI models for all foreign nationals (Al Jazeera, 2026-06-13)</a></li>
  <li><a href="https://www.cnbc.com/2026/06/30/anthropic-says-trump-admin-has-lifted-export-controls-on-claude-fable-5-and-mythos-5.html">Anthropic says Trump admin has lifted export controls (CNBC, 2026-06-30)</a></li>
  <li><a href="https://arxiv.org/abs/2606.19659v1">SAGE-OPD: تقطير انتقائي قائم على السياسة (arXiv:2606.19659, 2026-06-17)</a></li>
  <li><a href="https://arxiv.org/abs/2606.11543">SkillJuror (arXiv:2606.11543, 2026-06)</a></li>
  <li><a href="https://fireworks.ai/blog/open-source-agents-frontier-advisors">How Harvey &amp; Fireworks Beat Closed Source on Cost + Quality (Fireworks AI Blog)</a></li>
  <li><a href="https://community.openai.com/t/openai-is-winding-down-the-fine-tuning-api-and-platform-discussion-thread/1380522">OpenAI is winding down the fine-tuning API (OpenAI Developer Community)</a></li>
  <li><a href="https://www.linuxfoundation.org/press/linux-foundation-releases-openmdw-1.1-nvidia-adopts-openmdw-for-cosmos-isaac-gr00t-ising-and-nemotron-ai-model-families">Linux Foundation Releases OpenMDW-1.1 (Linux Foundation, 2026-05-28)</a></li>
  <li><a href="https://arxiv.org/abs/2602.12670">SkillsBench (arXiv:2602.12670, دراسة خلفية)</a></li>
  <li><a href="https://www.microsoft.com/en-us/research/blog/skillopt-agent-skills-as-trainable-parameters/">SkillOpt: Agent skills as trainable parameters (Microsoft Research, دراسة خلفية)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="llmops" /><category term="fine-tuning" /><category term="slm" /><category term="sovereign-ai" /><category term="grpo" /><category term="distillation" /><category term="agent-skills" /><category term="llmops" /><summary type="html"><![CDATA[كلما تحسّنت النماذج اللغوية الكبيرة ومهارات الوكلاء، ينتشر في الصناعة شعور بأن fine-tuning (الضبط الدقيق) لم يعد ضروريا. بل إن OpenAI بصدد إيقاف واجهة برمجة الضبط الدقيق ذاتية الخدمة فعليا. لكن في الشهر نفسه، تدفقت إشارات معاكسة تماما: توقف نماذج طليعية لمدة 19 يوما، ورخصة أوزان مفتوحة مصممة على أساس الضبط الدقيق، وانتصار عملي لعامل ضبط دقيق أرخص بـ11 مرة من النموذج الطليعي. بالاعتماد فقط على مصادر نُشرت بين 5 يونيو و5 يوليو 2026، نقدّم هنا تحليلا متقاطعا لما يموت فعلا وما يبقى حيا.]]></summary></entry><entry xml:lang="ar"><title type="html">اللحظة التي يتحول فيها الترميز التخميني إلى خسارة في عناقيد GPU متعددة المستأجرين داخل المنشأة</title><link href="https://thakicloud.github.io/ar/research/sovereign-speculative-serving/" rel="alternate" type="text/html" title="اللحظة التي يتحول فيها الترميز التخميني إلى خسارة في عناقيد GPU متعددة المستأجرين داخل المنشأة" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/ar/research/sovereign-speculative-serving</id><content type="html" xml:base="https://thakicloud.github.io/ar/research/sovereign-speculative-serving/"><![CDATA[<h2 id="لمن-هذا-المقال">لمن هذا المقال</h2>

<p>نكتب هذا المقال للمهندسين الذين يشغّلون بأنفسهم خدمة استدلال نماذج اللغة الكبيرة، سواء داخل الشركة أو خارجها، ولا سيما من يتعامل منهم مع بيئات متعددة المستأجرين يشترك فيها عدة عملاء أو نماذج داخل عنقود GPU واحد. نفترض أن القارئ يعرف بالفعل ما هو الترميز التخميني، ونحاول هنا مساعدته على الإجابة عن سؤال عملي: هل سيحقق هذا الأسلوب فائدة حقيقية عند تطبيقه على عنقودنا نحن. الجواب المختصر هو أن الأمر يتوقف على مدى خلو العتاد فعلا من الحمل، وأن هذا القرار يجب أن تتخذه الجدولة لا النموذج المسودة.</p>

<p><img src="/assets/images/sovereign-speculative-serving-diagram.svg" alt="مخطط مفاهيمي" /></p>

<p><em>مخطط مفاهيمي</em></p>

<h2 id="المشكلة-الشروط-التي-تقوم-عليها-قصص-النجاح-تختلف-عن-شروطنا">المشكلة: الشروط التي تقوم عليها قصص النجاح تختلف عن شروطنا</h2>

<p>يُعد الترميز التخميني اليوم الأداة الأساسية لخفض زمن استجابة خدمة نماذج اللغة الكبيرة. يقترح نموذج مسودة صغير ورخيص عدة مرشحين للرمز التالي مسبقا، ثم يتحقق منها النموذج الهدف في تمريرة أمامية واحدة. عند أحجام الدفعات المعتادة في أحمال العمل التفاعلية، تكون خطوة فك الترميز في الغالب محكومة بعرض النطاق الترددي للذاكرة، ما يترك وحدات الحساب خاملة في معظم الأحيان، وعمل التحقق هو الذي يملأ هذه القدرة الخاملة بالضبط، ولذلك يصبح توليد الرموز المقبولة أرخص بكثير من التوليد التسلسلي. تطور الأمر مؤخرا من المسودات الخطية إلى مسودات الأشجار، ثم إلى مسودات الأشجار المتوازية، مع ارتفاع مستمر في عائد الرموز المقبولة. أما JetSpec، وهو العمل السابق الذي تستهدفه هذه الورقة مباشرة، فقد أبلغ عن معدل معالجة يتجاوز 1,000 رمز في الثانية باستخدام مسودات الأشجار المتوازية.</p>

<p>المشكلة أن كل هذا التسريع يقوم على افتراض واحد فقط، وهو وجود قدرة حاسوبية فائضة تمتص عملية التحقق مجانا. والعنقود المشترك هو بالضبط ما يزيل هذه الوفرة. تشغّل ThakiCloud عناقيد داخل المنشأة سيادية البيانات لصالح الصناعات الخاضعة للتنظيم والمؤسسات محدودة الموارد التي لا يمكنها إخراج المطالبات إلى الخارج. تتميز هذه العناقيد بخاصيتين في آن واحد. الأولى هي تعدد المستأجرين، حيث توضع عدة نماذج وعملاء معا لتحقيق أقصى استفادة من المسرّعات الباهظة الثمن. والثانية هي عدم التجانس، أي مزيج من A100 وH100 وبطاقات GPU من فئة المستهلك تم شراؤها على فترات مختلفة. فإذا كانت بطاقة GPU مشبعة أصلا بطلبات مستأجرين آخرين، فإن وحدات الحساب لم تعد خاملة. في هذه الحالة، تصبح الرموز الإضافية التي يرسلها المتنبئ إلى النموذج الهدف للتحقق منها ليست مجانية، بل هي حمل حسابي حقيقي، يطيل زمن التمريرة الأمامية لكل الطلبات التي تشارك الدفعة نفسها. وهكذا يمكن أن ينقلب التسريع الملاحظ في حالة المستأجر الواحد إلى بطء إضافي في حالة تعدد المستأجرين، والأسوأ من ذلك أن هذا البطء الإضافي هو أثر خارجي يتحمله مستأجرون مجاورون لم يطلبوا التخمين أصلا.</p>

<h2 id="المساهمة-الأساسية-تحويل-التسريع-إلى-قيمة-تستطيع-الجدولة-حسابها">المساهمة الأساسية: تحويل التسريع إلى قيمة تستطيع الجدولة حسابها</h2>

<p>المساهمة الأولى لهذه الورقة هي التعبير الصريح عن التسريع الفعلي المتحقق $S_{real}$ كدالة في ثلاثة متغيرات تستطيع الجدولة رصدها والتحكم فيها مباشرة، وهي معدل القبول لكل رمز، والقدرة الحاسوبية الفائضة، وتداخل التجميع الدفعي. وعندما تُنمذج كلفة التحقق بهذه المتغيرات، يُشتق بشكل طبيعي الشرط الذي يتوقف عنده التخمين عن تحقيق أي فائدة كلما اقتربت القدرة الحاسوبية الفائضة من الصفر. ولأن عائد الرموز المقبولة يشبع عند نقطة معينة مهما زاد طول المسودة، بينما تستمر كلفة التحقق في المقام في الازدياد بشكل متناسب مع طول المسودة، فإنه يوجد دائما طول للمسودة يتحول عنده التخمين إلى خسارة على بطاقة GPU مشبعة. وميزانية المسودة المثلى المشتقة من ذلك تتقلص هي أيضا كلما تقلصت القدرة الحاسوبية الفائضة، وهي قيمة لم تكشف عنها الأنظمة السابقة المتمركزة حول المسودة للجدولة حتى الآن.</p>

<p>ثانيا، تصوغ هذه النمذجة تداخل التجميع الدفعي كأثر خارجي. فحين تكبّر رموز التحقق الخاصة بطلب يستخدم التخمين حجم الدفعة، يزداد أيضا زمن الاستجابة بين الرموز لبقية المستأجرين الذين يشاركون الدفعة نفسها. أي أن الأمر مسألة باريتو يجب أن تنظر معا في المكسب الذي يحققه طلب واحد والكلفة التي يتحملها عدة جيران، وليست مسألة يمكن حلها بالنظر إلى طلب واحد بمعزل عن غيره. وبناء على هذه الملاحظة، تضع الورقة شرطي قبول لتحديد أي الطلبات يُعالَج عبر التخمين ومتى. أولا، يجب أن يكون التخمين مفيدا للطلب نفسه. وثانيا، يجب ألا يتجاوز الأثر الخارجي الناتج عنه هامش أهداف مستوى الخدمة (SLO) الخاص ببقية المستأجرين المشتركين في الدفعة نفسها.</p>

<p>المساهمة الثالثة هي SovereignSpec، وهو تنفيذ فعلي لهذا النموذج في صورة سياسة قابلة للنشر. يتألف من ثلاث سياسات متعاونة مبنية فوق Kueue وKubernetes. الأولى هي قبول واعٍ بمعدل القبول، حيث تقرأ الجدولة في كل نبضة جدولة القدرة الحاسوبية الفائضة الآنية لبطاقات GPU المرشحة، وتطبق شرط القبول أعلاه، وإذا لم يتحقق الشرط فإنها لا ترفض الطلب بل تعالجه بفك ترميز عادي بلا تخمين. الثانية هي التوزيع غير المتجانس، حيث تُوجَّه الطلبات ذات معدل القبول المرتفع والحساسة لزمن الاستجابة إلى بطاقات GPU التي تملك قدرة حاسوبية فائضة كبيرة، بينما تُعالَج الطلبات ذات معدل القبول المنخفض أو الموجهة نحو الإنتاجية بفك ترميز عادي على البطاقات المشبعة أصلا. والثالثة هي التجميع الدفعي الحافظ للسيادة. فكثيرا ما يخضع المستأجر داخل المنشأة لقيد إقامة بيانات يمنعه من مشاركة عقدة أو ولاية قضائية معينة مع مستأجرين آخرين، ويعامل SovereignSpec هذا القيد كقيد صارم يُتحقق منه قبل حساب التسريع أصلا، بحيث يُستبعد أي توزيع يتجاوز حدود الثقة من الاعتبار منذ البداية، مهما بلغ التسريع المتوقع من كِبَر.</p>

<p>نتائج تحليل الأنظمة التي تعرضها الورقة مثيرة للاهتمام أيضا. ففي حالة الخمول، يظهر التسريع المألوف الذي يتجاوز الضعفين، لكن كلما التهم التجميع الدفعي المشترك القدرة الحاسوبية الفائضة، يتراجع التسريع بشكل مطرد، حتى ينخفض في حالة الإشباع، مع مسودة ضعيفة أو طول مفرط، إلى أقل من واحد، أي إلى خسارة صافية. وفي هذه الحالة، فإن الأسلوب التقليدي الذي ينفذ التخمين دون شرط يدفع ضريبة فك ترميز تتجاوز 20 بالمئة بينما يظن أنه يحقق تسريعا. كذلك أظهرت الورقة أن مجرد ضبط ميزانية المسودة بحسب القدرة الحاسوبية الفائضة، دون الحاجة إلى مسودة أفضل، يمكن أن يستعيد مكاسب نسبية في حدود 20 بالمئة اعتمادا على قرارات الجدولة وحدها، كما بيّنت بالأرقام أنه في غياب شرط الأثر الخارجي، تحدث فعلا حالات يُسرَّع فيها طلب واحد على حساب انتهاك أهداف مستوى الخدمة لعدة جيران.</p>

<h2 id="ما-الذي-يعنيه-هذا-للشركة-والمجتمع-والعلم">ما الذي يعنيه هذا للشركة والمجتمع والعلم</h2>

<p>بالنسبة لـThakiCloud، يشكل هذا البحث رافعة عملية يمكن وضعها مباشرة فوق حزمة خدمة الاستدلال القائمة على Kueue وKubernetes التي نشغّلها بالفعل. فالمؤسسات التي لا يمكنها إخراج المطالبات إلى الخارج لا تملك خيارا سوى شراء المسرّعات بإفراط، أو كسر مبدأ إقامة البيانات باللجوء إلى واجهة برمجية خارجية. وإذا أمكن، على غرار ما يسعى إليه SovereignSpec، إبقاء الترميز التخميني رابحا صافيا حتى تحت حمل متعدد المستأجرين، فإن العتاد نفسه من بطاقات GPU يمكنه خدمة عدد أكبر من المستأجرين مع خفض كلفة الطاقة لكل رمز، وهذا يمثل وسيلة ملموسة لتحسين اقتصاديات الخدمة داخل المنشأة دون المساس بحدود الثقة.</p>

<p>أما اجتماعيا، فإن هذا النوع من تحسين الجدولة يتيح للصناعات الخاضعة للتنظيم والمؤسسات محدودة الموارد خدمة نماذج اللغة الكبيرة بكلفة يمكن تحملها مع الحفاظ على سيادة البيانات، دون الاعتماد على واجهات برمجية ضخمة من مزودي الحوسبة فائقة النطاق. وهو عمل يذهب في اتجاه دحض الفكرة الشائعة القائلة إن هناك دائما مفاضلة حتمية بين سيادة البيانات وكفاءة الخدمة.</p>

<p>أما من الزاوية العلمية، فمدخل هذه الورقة مختلف. فقد سبق لعدة دراسات قياس أن أبلغت عن وجود فجوة كبيرة بين نظرية الترميز التخميني وأدائه الفعلي. وهذه الورقة تحدد المتغير الأساسي الذي يصنع هذه الفجوة، وهو القدرة الحاسوبية الفائضة، بوصفه قيمة يمكن للجدولة التعامل معها، وتعيد تعريف قرار التخمين بوصفه قرار جدولة لا قرار مسودة. وهي بذلك تسد بدقة الفراغ الذي تركته الأبحاث السابقة التي كانت تفترض بيئة أحادية المستأجر ومتجانسة العتاد فقط.</p>

<h2 id="القيود-والخطوات-التالية">القيود والخطوات التالية</h2>

<p>لا تخفي الورقة قيودها الذاتية. فهذا بحث مفاهيمي وتحليلي، ولا توجد بعد نتائج مقيسة على عنقود فعلي. كل الأرقام الواردة في الورقة هي قيم متوقعة من نموذج تم اشتقاقه من معاملات ضُبطت بالرجوع إلى معدلات قبول موثّقة وقياسات فصل مكونات موثّقة، وليست قيما مقيسة فعليا. ويحتاج ضبط المعاملات الأساسية، مثل وزن كلفة التحقق والقدرة الحاسوبية الفائضة، إلى تنميط لكل نموذج ونوع GPU على حدة، وأي خطأ في تقديرها يحمل خطر الموافقة على تخمين يشكل في الواقع خسارة صافية. كذلك فإن صيغة تداخل التجميع الدفعي هي تقريب من الرتبة الأولى يفترض منطقة الإشباع، ولذلك تحتاج منطقة الانتقال ذات القدرة الحاسوبية الفائضة المتوسطة إلى معايرة قائمة على القياس الفعلي. ولسد هذه الفجوة، يطرح فريق البحث خطة تقييم محددة، تشمل تنميط المعاملات على A100 وH100 وبطاقات GPU من فئة المستهلك، وتنفيذ الخوارزمية فعليا عبر إضافة فحص قبول في Kueue وخطافات جدولة في vLLM أو SGLang، ثم قياس التسريع الفعلي المتحقق إلى جانب زمن الاستجابة عند النسبة المئوية P99 والعدالة واستهلاك الطاقة لكل رمز.</p>

<p>يمكن الاطلاع على نص الورقة الكامل وبياناتها على Hugging Face. <a href="https://huggingface.co/datasets/thaki-AI/thaki-daily-papers/tree/main/papers/2026-07-05-sovereign-speculative-serving">https://huggingface.co/datasets/thaki-AI/thaki-daily-papers/tree/main/papers/2026-07-05-sovereign-speculative-serving</a></p>

<p>أما تقديم الورقة إلى arXiv، فقد أعد خط الأتمتة بالفعل حزمة tar الخاصة بها، غير أن الرفع الفعلي يمر أولا بمراجعة بشرية، ولذلك فإن الحالة الراهنة هي جاهزة للتقديم وبانتظار الموافقة.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="research" /><category term="llm-serving" /><category term="speculative-decoding" /><category term="kubernetes" /><category term="kueue" /><category term="gpu-scheduling" /><category term="multi-tenancy" /><summary type="html"><![CDATA[كل إنجازات الترميز التخميني التي تجاوزت 1,000 TPS، بما فيها JetSpec، تفترض عنقودا أحادي المستأجر يمتلك وفرة في القدرة الحاسوبية الفائضة على عتاد من فئة B200. أما في عنقود داخل المنشأة يجمع فيه Kueue وKubernetes عدة مستأجرين في دفعات مشتركة، فإن السياسة نفسها قد تزيد زمن الاستجابة بدلا من أن تخفضه. نقدم هنا ورقة بحثية قام فيها فريق أبحاث ThakiCloud بنمذجة هذه الفجوة كدالة في معدل القبول، والقدرة الحاسوبية الفائضة، وتداخل التجميع الدفعي، واقترح سياسة SovereignSpec التي تجعل جدولة النظام نفسها هي من تتخذ هذا القرار مباشرة.]]></summary></entry><entry xml:lang="en"><title type="html">Localizing the Model Does Not Bring Sovereignty: What Today’s News Points To Is the ‘Execution Layer’</title><link href="https://thakicloud.github.io/en/agentops/sovereign-ai-execution-layer/" rel="alternate" type="text/html" title="Localizing the Model Does Not Bring Sovereignty: What Today’s News Points To Is the ‘Execution Layer’" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/agentops/sovereign-ai-execution-layer</id><content type="html" xml:base="https://thakicloud.github.io/en/agentops/sovereign-ai-execution-layer/"><![CDATA[<p><img src="/assets/images/sovereign-ai-execution-layer-hero.png" alt="Key concept illustration" /></p>

<p>One sentence from an interview made us reread this morning’s entire digest. Adjunct Professor Choi Yoon-seong, who teaches at Korea University and Kyonggi University, pointed to Anthropic’s next-generation model “Mythos” as an example and warned that once AI becomes a strategic asset, even an ally’s access to a model can be cut off at any time. He summed it up this way: “What you can control is not someone else’s model, but the infrastructure that lets you verify and block the supply chain no matter which model you use.”</p>

<p>Here is why that single sentence runs through today’s entire bundle of news.</p>

<h2 id="the-illusion-of-our-own-model">The Illusion of “Our Own Model”</h2>

<p>When people hear “sovereign AI,” most picture the same image: a foundation model built with our own hands. And indeed, the government is pushing a KRW 530 billion project to build an independent foundation model. Four teams, LG AI Research, SK Telecom, Upstage, and Motif Technologies, are competing on a six-month cycle, with a second evaluation in August and a full open-source release planned afterward. The goal is to secure a model ranked in the global top 10 by 2027.</p>

<p>Seen only this far, the sovereignty question looks like a model question. But today’s digest points in the opposite direction, and that is exactly where Professor Choi’s diagnosis gets sharp. Even if you localize the model, if the training data, GPUs, cloud, and agent tools that run that model are all locked into an external ecosystem, sovereignty is only half achieved. He pointed out a visibility gap: existing security tools like SBOM or SCA cannot read assets that are not code, such as model weights, and proposed an AI Bill of Materials (AIBOM) as an alternative, one that captures weights, training datasets, hyperparameters, and even agent tool specifications.</p>

<p>To put it plainly: the model is the flashy signage, but sovereignty is actually decided where that model lives and breathes, the execution layer. The choices made by several companies in today’s news all point, as if by agreement, to exactly this spot.</p>

<p><img src="/assets/images/sovereign-ai-execution-layer-diagram.svg" alt="Concept diagram" /></p>

<p><em>Concept diagram</em></p>

<h2 id="why-hancom-called-itself-an-os-not-a-model">Why Hancom Called Itself an “OS,” Not a “Model”</h2>

<p>The most symbolic event is Hancom. On July 2, 36 years after its founding, an extraordinary shareholders’ meeting passed an amendment to its articles of incorporation changing its name from “Hangul and Computer” to “Hancom.” This is not simple rebranding. It is a declaration that the company is moving its identity from a document software maker to a “sovereign agentic OS” company that connects and controls multiple AI agents within a single environment.</p>

<p>The word to notice is “OS.” Hancom did not call what it is building a “model.” It called it an operating system, meaning it is targeting the foundation that safely runs and controls multiple agents. The company has announced a beta for the second half of the year and has begun joint localization research with a Polish nationally certified research center. The shift is backed by numbers too: AI package revenue, which was KRW 8.9 billion last year, about 5 percent of total revenue, jumped to KRW 5.2 billion in the first quarter of this year alone, or 11.52 percent of revenue.</p>

<p>The same determined move can be seen at KT. KT sold off its roughly 4,000 serving robots and restructured to lease them back, stepping away from hardware ownership. Instead, it bet on a cloud operations platform that integrates control of robots from different manufacturers on a single screen. The calculation is this: instead of selling robots, take control of the foundation on which the robots operate together. The products differ, but the direction is the same. Value comes not from individual products but from the orchestration layer.</p>

<h2 id="the-model-arrived-so-why-is-everyone-still-uneasy">The Model Arrived, So Why Is Everyone Still Uneasy?</h2>

<p>Why the foundation matters becomes clearest precisely when that foundation shakes. Two articles in today’s digest show exactly that scene.</p>

<p>Start with the financial sector. Last year, financial fraud incidents at Korean banks reached KRW 431.8 billion, an all-time high. At one Community Credit Cooperative in Bucheon, an illegal loan scheme worth KRW 24.2 billion went undetected for years. So banks are rushing to adopt AI-based fraud detection systems. KakaoBank says that after applying a sequence detection model, the number of financial fraud cases it prevented rose 4.4 times on a monthly average. So far, this is a success story.</p>

<p>The problem comes next. Only about 10 percent of domestic financial firms have developed their own AI models, and of those, a third still depend entirely on external providers for cloud infrastructure, the model, and the data. In other words, the anomaly detection systems handling sensitive transaction data are, in effect, running on someone else’s foundation. Adopting a model and putting that model under your own control are entirely different problems.</p>

<p>The Apple supplier incident shows the extreme end of this unease. Tata Electronics, an iPhone supplier, suffered a ransomware attack that exposed 630GB of data across roughly 200,000 files on the dark web, reportedly including a list of new iPhone component suppliers and prototype test photos. India’s incident response team has opened an investigation. What is worth noting is that this pattern is not new. TSMC’s IT partner in 2023 and Toyota’s parts supplier in 2022 were breached in the exact same way. It is not headquarters but the supplier that becomes the entry point. As long as data is scattered across many locations riding on collaboration systems, no matter how good a domestically built model may be, information leaks through the weakest link. Another article today, noting that 66 percent of virtual asset hacking damage in the first half of the year was attributed to North Korea, confirms that vulnerabilities in the execution layer have already become a target for state-level threats.</p>

<h2 id="what-you-can-control-is-the-foundation-and-nothing-else">What You Can Control Is the Foundation, and Nothing Else</h2>

<p>This brings us back to Professor Choi’s sentence. What you can control is not someone else’s model, but the infrastructure that lets you verify and block the supply chain no matter which model you use. Distilling the pain points these companies’ news items point to, four questions remain. Can you audit what is being executed? Can you keep data and execution under your own sovereignty? Is a breach in one place isolated so it does not spread to the whole? And can all of this be run at a cost you can sustain?</p>

<p>This is exactly why ThakiCloud designed Paxis as an Agent-Native Cloud, around these four questions. Paxis treats skills, tools, policies, and audit logs as first-class resources. A policy gate filters what an agent is allowed to execute beforehand, and an audit log records what it actually did afterward. This points in the same direction as the AIBOM-style supply-chain transparency Professor Choi described. Grading agent autonomy into tiers from L0 to L3 and applying governance at each tier implements the controllability that the financial sector demands directly as a layer of the architecture. Running collaborative workloads inside isolated sandboxes physically severs the kind of chain-reaction leak seen in the Apple supplier incident. And because it runs on sovereign, on-premises Kubernetes, sensitive data can stay inside a closed network rather than being sent out to an external one. Cost routing, which picks the optimal model for each task, answers the fourth question: sustainability.</p>

<p>Hancom’s choice to change its corporate name just to claim the word “OS,” and KT’s bet on a platform instead of selling robots, are different expressions of the same insight. In the age of agents, value comes not from individual models but from the foundation where agents live and work. Paxis is the product that delivers that foundation in an auditable, sovereign form.</p>

<h2 id="what-is-flashy-is-the-model-what-is-decided-is-the-foundation">What Is Flashy Is the Model, What Is Decided Is the Foundation</h2>

<p>Even today, big headlines poured in: a DRAM super-cycle, a KRW 1,000 trillion data center war, big tech’s race to build its own chips. Headlines always go to models and chips. But the reason a practitioner at a company loses sleep at night is a little different. Can I explain what our agent is doing right now? If an incident happens, can I trace where it started? Is this data really in our own hands?</p>

<p>Sovereignty is not completed by declaration. It is not completed by the mere fact that we built our own model. It only deserves to be called sovereignty when you can open it up at any time and see where that model runs, what it was authorized to do, and what it actually did. What today’s news quietly points to is not the flashy model but the foundation underneath it. And whichever side lays that foundation first will hold the initiative in the next round.</p>

<h2 id="references">References</h2>

<p>The facts cited in this article can be verified in the reporting below.</p>

<ul>
  <li><a href="https://byline.network/2026/07/2-429/">Hangul and Computer renames itself Hancom, declares “sovereign agentic OS” (Byline Network)</a></li>
  <li><a href="https://www.etoday.co.kr/news/view/2557967">Motif Technologies joins LG, SKT, and Upstage in four-way race for domestic foundation model (Etoday)</a></li>
  <li><a href="https://www.etnews.com/20260701000165">Apple’s Indian supplier Tata hit by ransomware, 630GB leaked (Electronic Times)</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="agentops" /><category term="agentops" /><category term="paxis" /><category term="enterprise-ai" /><category term="thakicloud" /><summary type="html"><![CDATA[From the four-way race for a domestic foundation model to Hancom's corporate rebrand, the morning news on July 5, 2026 points in one direction. The real battleground for sovereign AI has already shifted from 'which model do you build' to 'where and how do you run and audit that model.']]></summary></entry><entry xml:lang="en"><title type="html">The Age of Steam Engines, Waiting for Carnot: The Mindset Science Needs Right Now</title><link href="https://thakicloud.github.io/en/culture/waiting-for-carnot/" rel="alternate" type="text/html" title="The Age of Steam Engines, Waiting for Carnot: The Mindset Science Needs Right Now" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/culture/waiting-for-carnot</id><content type="html" xml:base="https://thakicloud.github.io/en/culture/waiting-for-carnot/"><![CDATA[<p><img src="/assets/images/waiting-for-carnot-hero.webp" alt="Abstract visual of steam and wave energy crossing into interference patterns" /></p>

<h2 id="the-20-watt-question">The 20-Watt Question</h2>

<p>I have an old habit. Whenever I meet a phenomenon, I first try to rewrite it in the language of energy. Light and sound are both waves, and a wave is how energy crosses space. Communication is the art of loading information onto that energy, and software is the formal system that manipulates the information. Twenty-plus years of writing code never cured the habit. If anything, it deepened.</p>

<p>Look at today’s artificial intelligence through that habit and one number sticks in your throat. The human brain runs on roughly 20 watts. On less power than an incandescent bulb, we learn languages and recognize faces. Occasionally we even imagine new theories of physics. Today’s large models, by contrast, are trained in data centers that swallow the power of a small city. Two systems solving broadly similar problems, and the energy they spend differs by many orders of magnitude. Not one or two.</p>

<p>I do not read this gap as a performance problem. I read it as an understanding problem. A civilization that understands a task in principle does it with less and less energy over time. A civilization that only imitates the result pours energy into the gap. The very fact that we are imitating 20 watts with gigawatts strikes me as the most honest quantitative evidence that we do not yet know the principles of intelligence.</p>

<h2 id="the-half-century-before-carnot">The Half Century Before Carnot</h2>

<p>We have been here before. The history of science has staged this scene more than once.</p>

<p>By the late eighteenth century, steam engines were already driving the mines and factories of Europe. Watt’s engine was a commercial success, and engineers competed fiercely to build them bigger and finer. Yet nobody knew why the engines worked, or whether there was a fundamental limit to extracting work from heat. The machines ran. The theory did not exist.</p>

<p>Sadi Carnot published his paper in 1824, showing that every heat engine faces an efficiency ceiling set by temperature alone, a ceiling no engineering cleverness can break. That was half a century after steam power began transforming industry. And from that short paper grew the science of thermodynamics. Entropy emerged, energy conservation was formalized, and a long chain began that eventually reached statistical mechanics and information theory.</p>

<p>What I care about here is the order of events. The working machine came first. Understanding came later. And the real leap came not from the people who built bigger machines but from the person who asked why the machines worked at all. After Carnot, civilization no longer had to grow boilers indefinitely. It could compute the theoretical limit of efficiency and design its way toward it.</p>

<p>Deep learning today sits exactly where the steam engine sat before Carnot. The engines work magnificently. Industry is already being reorganized. But there is no thermodynamics of intelligence. Why does generalization emerge at this scale of data and parameters? What are the fundamental limits and minimum costs of the process we call learning? Like the engineers before Carnot, we know these things only as rules of thumb.</p>

<h2 id="kelvins-two-clouds">Kelvin’s Two Clouds</h2>

<p>In April 1900, Lord Kelvin gave a lecture at the Royal Institution about two clouds hanging over the physics of his day. One was the failure to detect the Earth’s motion through the ether, the medium then believed to carry light. The other was the inability of classical theory to explain the energy distribution of blackbody radiation. In the mood of the time, both looked like minor finishing work on a nearly completed building.</p>

<p>Out of those two clouds came relativity and quantum mechanics. The exceptions that looked trivial forced the whole building to be rebuilt.</p>

<p>The lesson usually drawn from this story is about the humility of prediction. I want to put the emphasis somewhere slightly different. There were eyes that recognized the clouds as clouds. Even in an age when everything seemed solved, some people refused to sweep the unexplained residue under the rug of minor error, and the next physics was born precisely from that residue.</p>

<p>Today’s artificial intelligence has its own clouds. The empirical law that more scale brings more capability works well, but nothing explains why. Models often generalize surprisingly far beyond their training data, yet no theory predicts when generalization will collapse. The relation between producing plausible sentences and understanding the world remains fog. If you are drunk on the speed at which benchmark scores climb, these look like finishing work. To me they look like two clouds.</p>

<h2 id="the-achievement-called-scaling">The Achievement Called Scaling</h2>

<p>I want to avoid a misunderstanding. I have no intention of belittling scaling.</p>

<p>Getting here by concentrating computing power is, by my standards, an achievement that belongs in the history of engineering. Distributed systems that bind tens of thousands of accelerators into a single training run, optimization methods that converge stably on top of them. This is precise engineering. Calling it brute force would be an insult to the engineers who built it. As someone who went around preaching that deep learning would matter long before it was fashionable, I confess that watching the prediction come true at this scale moves me.</p>

<p>The problem is not the achievement but the illusion it creates. While the scaling curve climbs, the curve itself starts to look like scientific progress. But making a stronger engine by enlarging the boiler and founding thermodynamics are different kinds of activity. The former executes a known method at greater scale. The latter asks why the method works and computes its limits. We need both. When only the former survives, a field prospers as engineering and stagnates as science.</p>

<p>One contrast strikes me. Over the same period, quantum computing and quantum information walked a different road. From the days when the hardware was still primitive, that field built its theory first: the limits of error correction, the quantification of entanglement as a resource, a complexity theory of which problems become easy quantumly and which do not. It is a rare case of understanding walking ahead of the machine. I suspect that ordering is exactly why the recent results coming out of that field look so solid.</p>

<h2 id="a-culture-that-consumes-boxes">A Culture That Consumes Boxes</h2>

<p>What worries me more than the technology is the culture.</p>

<p>For many researchers and engineers entering the field now, the model is a box. Input goes in, output comes out, and there is neither need nor courage to open it. A few lines of API calls produce products that were impossible yesterday, so opening the box looks like an inefficient hobby. Polishing prompts and refreshing leaderboards have become the default motions of research.</p>

<p>Abstraction itself is innocent. I climbed the same ladder from assembly through high-level languages and frameworks, and abstraction is where productivity comes from. Not everyone needs to understand transistors. But in the history of science, the leap to the next layer has always come from someone who climbed down below the abstraction boundary. Many people used steam engines as boxes; Carnot drew the flow of heat inside the box. Many people consumed wireless telegraphy as a marvelous box; Maxwell and Hertz read the wave equations inside it.</p>

<p>Using a box well and daring to open it are different muscles. Today’s culture trains only the first one. Give it a generation and we may find ourselves in a field overflowing with people who can run the engines, with no one left who can found the thermodynamics.</p>

<h2 id="the-people-who-changed-coordinates">The People Who Changed Coordinates</h2>

<p>So what should we do after opening the box? Let me pull one hint from the history of science. The great leaps came not from more computation but from a change of representation.</p>

<p>Fourier showed that any signal, however complex, can be rewritten as a sum of simple waves. The signal stays the same, but once the coordinates for viewing it change, structure invisible in the time domain becomes vivid in the frequency domain. All of modern communication and signal processing stands on that shift of perspective. Shannon rewrote communication from a problem of voltages and circuits into a problem of probability and entropy. Suddenly the theoretical ceiling on how much information a channel can carry became computable. When the representation changes, the limits become visible. When the limits are visible, you can design toward them.</p>

<p>As someone who has spent a career unfolding light and sound as waves, I confess that when I look inside neural networks, the language of waves keeps flickering at the edge of my vision. Representations overlapping and interfering in high-dimensional spaces, components filtered and amplified as they pass through layers. I do not know whether this is the right language. Perhaps entirely different mathematics is needed. I make no claim that waves are the answer. But I find it hard to shake the suspicion that what we need now is less a bigger cluster than a new coordinate system. Structure that will never appear in the coordinates of loss curves and benchmark scores may fall out as a single inequality in some other representation.</p>

<h2 id="living-before-the-thermodynamics-of-intelligence">Living Before the Thermodynamics of Intelligence</h2>

<p>Which brings us back to the opening question. In a time like this, what mindset should a scientist hold?</p>

<p>The first thing I would name is humility. Not the etiquette of lowering yourself. The accuracy of your perception. Admitting plainly that we own a working engine but not a theory. Refusing to mistake rising benchmark scores for growing understanding. Keeping the gap between 20 watts and gigawatts at the top of the homework list. That much is enough.</p>

<p>Next is the discipline of staring at clouds. Industry will take care of making what works work better. The scientist’s job is to face the unexplained residue instead of filing it under minor error. Why does it generalize? When does it break? Questions like these do nothing for next quarter’s earnings, and the science of the next half century will be born exactly there.</p>

<p>A habit of doubting the representation also helps. The coordinate system we use now is not the only one. Signals existed before Fourier and communication existed before Shannon. What was missing was the language to rewrite them. Practicing rewriting your own field in an alien language, borrowing mathematics from a neighboring discipline. Most such attempts fail, and the one that succeeds changes the sky over the whole field.</p>

<p>Let me add one last thing. This is not a time for discouragement. The physics students of 1900 were lucky. They were born into an age that believed the building was finished, and they became the generation that rebuilt it. That there is no thermodynamics of intelligence means the site for it is vacant. The history of science rarely sends a more thrilling invitation.</p>

<h2 id="to-the-next-carnot">To the Next Carnot</h2>

<p>ThakiCloud builds GPU clusters and AI platforms. You could say our trade is building the boilers of this era. Which is exactly why we keep telling ourselves that boilers are not the whole story. Infrastructure does not ask the questions for you. Good infrastructure only lets a person with good questions experiment faster and at lower cost. Our obsession with platform efficiency and energy cost returns, in the end, to the same place: measured against the standard set by a 20-watt brain, today’s computing still has a great deal to be humble about.</p>

<p>The age of steam engines waited for Carnot, and the waiting was not in vain. Somewhere right now, someone is prying open the box, asking about principles instead of benchmarks, perhaps still a student. I hope this essay reaches that next Carnot as a small cheer. The engines are already running. What we need now is the courage to ask why they work.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="culture" /><category term="philosophy-of-science" /><category term="deep-learning" /><category term="thermodynamics" /><category term="waves" /><category term="research-culture" /><category term="humility" /><summary type="html"><![CDATA[The gap between a machine that works and a principle we understand is one of the oldest scenes in the history of science. In an era that solves everything with computing power, this essay rereads the deep learning age through the lens of energy and waves, and argues for a scientist's humility.]]></summary></entry><entry xml:lang="en"><title type="html">GLM-5.2 on AMD MI355X at 2,626 tok/s: the serving economics MXFP4 and SGLang built</title><link href="https://thakicloud.github.io/en/llmops/glm-5-2-amd-mi355x-mxfp4/" rel="alternate" type="text/html" title="GLM-5.2 on AMD MI355X at 2,626 tok/s: the serving economics MXFP4 and SGLang built" /><published>2026-07-05T00:00:00+09:00</published><updated>2026-07-05T00:00:00+09:00</updated><id>https://thakicloud.github.io/en/llmops/glm-5-2-amd-mi355x-mxfp4</id><content type="html" xml:base="https://thakicloud.github.io/en/llmops/glm-5-2-amd-mi355x-mxfp4/"><![CDATA[<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-hero.webp" alt="Abstract image depicting parallel computation flows compressing along a pipeline and converging into a single high-efficiency core" /></p>

<p>Last week a benchmark result spread quickly across developer timelines. It claimed that GLM-5.2 was served on a single AMD MI355X node at 2,626 tokens per second, and at a cost more than twice as low as Blackwell. Taken at face value, the numbers sound like the usual “our hardware is fast” marketing, but what makes this case interesting is something else entirely. It is the combination of running a 743B-scale MoE model, not on NVIDIA but on AMD GPUs, compressed down to roughly 4-bit precision without losing accuracy.</p>

<p>This post is written for engineering leaders evaluating on-premises and multi-cloud serving, ML platform teams weighing GPU vendor choices, and data scientists who need to work out the serving economics of large open-weight models. We will first check exactly what the original source measured, then break down why MXFP4 quantization and SGLang’s MoE parallelism were decisive, and finally lay out where ThakiCloud’s ai-platform stands in relation to this trend.</p>

<p>Here is the conclusion up front. The real message of this benchmark is not “AMD is fast.” It is that <strong>the serving stack, the quantization format and the inference engine, is starting to break open the hardware vendor lock-in</strong>. And that exact point where the lock-in breaks open is precisely why on-premises serving platforms exist.</p>

<h2 id="what-this-technology-is">What This Technology Is</h2>

<p>This result comes from three pieces fitting together: the model, the hardware, and the serving stack that bridges the two.</p>

<p><strong>The model: GLM-5.2.</strong> This is an open-weight MoE model released by Z.ai (formerly Zhipu), with roughly 743B total parameters and about 39B parameters active per token. Its context length reaches 1 million tokens (1M), and it is regarded as particularly strong at frontend coding tasks. Because the total parameter count is huge while only 39B parameters are active, it is a textbook example of a large sparse model: heavy to store, light to actually run.</p>

<p><strong>The hardware: AMD Instinct MI355X.</strong> This is AMD’s newest data center accelerator, and its strength is the large memory capacity per GPU, which lets you fit a large model onto fewer GPUs. This case was measured on a single node configuration (8 GPUs, tensor parallelism tp=8). For reference, memory usage per GPU at FP8 is about 89GB, roughly half of the approximately 175GB required at BF16.</p>

<p><strong>The serving stack: MXFP4 quantization (AMD Quark) plus SGLang.</strong> This is where the core of the story lies. The original BF16 GLM-5.2 was converted to the <strong>MXFP4</strong> format (a 4-bit microscaling floating-point format) using AMD’s quantization toolkit, <strong>Quark</strong>, and the original source states that this conversion was lossless relative to the official FP8 quantization, with no accuracy degradation. For the inference engine, they chose <strong>SGLang</strong>. The reason is clear: among the frameworks tested, SGLang was the one that natively supported MXFP4, and it was able to properly drive MoE parallelism, distributing experts across GPUs with the <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> option and routing tokens between them over NVLink/NVSwitch.</p>

<p>The full pipeline looks like this:</p>

<pre><code class="language-mermaid">flowchart TB
    A[GLM-5.2 original&lt;br/&gt;BF16 · 743B MoE] --&gt; B[MXFP4 quantization&lt;br/&gt;via AMD Quark]
    B --&gt; C{Accuracy check}
    C --&gt;|Lossless vs official FP8| D[SGLang serving engine]
    C --&gt;|If degraded| A
    D --&gt; E[MoE expert parallelism&lt;br/&gt;--enable-moe-ep]
    E --&gt; F[MI355X single node&lt;br/&gt;8 GPUs · tp=8]
    F --&gt; G[Single stream 213 tok/s]
    F --&gt; H[Node aggregate 2,626 tok/s]
</code></pre>

<p>There are two ways this differs from the conventional approach. First, the quantization format is MXFP4, not FP8. Cutting bits further usually destabilizes accuracy, but the microscaling approach assigns a separate scale to each small block, which is designed to preserve quality even at roughly 4-bit precision. Second, all of this ran outside the CUDA ecosystem entirely, on AMD ROCm.</p>

<h2 id="the-actual-benchmark-results">The Actual Benchmark Results</h2>

<p>The numbers published by the original source (Wafer.ai) fall into two categories. Since the workload conditions differ, they need to be looked at separately.</p>

<p><strong>Single-stream latency scenario.</strong> For a single request with 10k input tokens and 1.5k output tokens, it produced <strong>213 tokens per second</strong>. This corresponds to the situation of one user feeding in a long context and receiving the answer as a stream.</p>

<p><strong>Node-aggregate throughput scenario.</strong> Under conditions of 20k input tokens, 1k output tokens, and a 60% cache hit rate, it processed 2.4 requests per second (2.4 rps) while delivering an aggregate throughput of <strong>2,626 tok/s per node</strong>. TTFT (time to first token) was kept under 5 seconds throughout. This is closer to the conditions of production serving, where many requests are pushed in concurrently.</p>

<p><img src="/assets/images/glm-5-2-amd-mi355x-mxfp4-results.webp" alt="Bar chart showing single-stream and node-aggregate throughput, and relative cost versus Blackwell" /></p>

<p>The cost claim goes like this. Wafer.ai states that this MXFP4 configuration costs <strong>more than twice as low as Blackwell</strong>, meaning throughput per dollar is more than double. In a separate analysis, SemiAnalysis (InferenceX) reported that, under a different SGLang FP8 configuration, MI355X is <strong>up to 40% cheaper per million tokens</strong> than B200. Since the two figures come from different quantization formats and workloads, it is more accurate to read them not as a direct comparison but as “multiple independent sources pointing in the same direction, namely MI355X’s cost competitiveness.” The cost index in the chart above visualizes Wafer.ai’s “more than 2x” claim, and we note that it is a relative indicator, not an absolute price.</p>

<p>One caveat is needed here. These numbers are not something we reproduced by securing an actual MI355X node ourselves; they are the measurements published by the original source. We do not have physical access to an MI355X, so we were unable to independently reproduce these results, and every figure in this post is therefore a cited value. We plan to cover a same-conditions reproduction separately once we have the hardware.</p>

<h2 id="why-mxfp4-and-sglang-were-decisive">Why MXFP4 and SGLang Were Decisive</h2>

<p>What matters more than the hardware in this result is the choice of serving stack. There are three reasons.</p>

<p><strong>First, 4-bit quantization fits a large MoE model onto fewer GPUs.</strong> Loading 743B parameters at BF16 requires memory on the order of hundreds of GB. Dropping to MXFP4 drastically reduces weight memory, so the same model can fit onto fewer GPUs, into a smaller node. A large share of serving cost is determined by “how many GPUs does it take to hold this model,” so near-lossless 4-bit quantization translates directly into unit cost.</p>

<p><strong>Second, MoE parallelism keeps computation limited to the active parameters.</strong> In an MoE model, only a small number of experts are activated per token. SGLang’s <code class="language-plaintext highlighter-rouge">--enable-moe-ep</code> scatters the experts across GPUs and routes each token to the right expert over a high-speed interconnect. The key to throughput is preserving, at the level of hardware placement, a structure that computes only the 39B active parameters rather than the full 743B.</p>

<p><strong>Third, the fit between format and engine is what breaks the vendor lock-in.</strong> This is the quiet conclusion behind this achievement. Once an engine that natively supports MXFP4 (SGLang) and a toolkit that losslessly converts to that format (AMD Quark) were both in place, production-grade serving became viable on ROCm rather than CUDA. As the serving stack becomes more standardized, “which vendor’s GPU” stops being a performance question and becomes a matter of availability and price. This is the shift that hands negotiating power back to the buyer.</p>

<h2 id="implications-for-thakiclouds-products">Implications for ThakiCloud’s Products</h2>

<p>This case connects directly to the strategy behind ThakiCloud’s <strong>ai-platform</strong>. ai-platform is a Kubernetes-based AI/ML SaaS infrastructure that serves models across diverse customer environments and schedules GPU resources through Kueue. From that vantage point, this result carries three implications.</p>

<p><strong>Multi-vendor serving is no longer a performance compromise.</strong> In the past, the assumption that “you cannot get good performance without NVIDIA” effectively foreclosed vendor choice. The GLM-5.2 MI355X case is evidence that assumption is shaking. If ai-platform abstracts vLLM and SGLang as serving backends and can schedule NVIDIA and AMD nodes together on top of that abstraction, customers can route requests to whatever available hardware is cheapest for a given workload. In a multi-tenant cluster, that flexibility translates directly into serving cost competitiveness.</p>

<p><strong>Quantization is a first-class platform concern.</strong> Near-lossless low-bit formats like MXFP4 make it possible to hit the same SLA with fewer GPUs. For on-premises customers, especially domestic public sector and financial environments where data sovereignty and self-hosting are required, the sheer number of GPUs that can be procured is itself a constraint. Lossless quantization lets you run a bigger model within that constraint, so it is a natural direction for ai-platform to absorb toolchains like Quark as a standard stage of its serving pipeline.</p>

<p><strong>Cost efficiency is the core argument for on-premises proposals.</strong> The question ThakiCloud hears most often when proposing on-premises and sovereign cloud deployments is “so how much cheaper is it.” Independent benchmarks showing more than 2x cheaper than Blackwell and up to 40% cheaper than B200 can serve as evidence that hardware diversification, on top of the right serving stack, actually lowers real TCO. Naturally this depends on reproducing the result in the customer’s own environment, and that reproduction capability itself is the value the platform provides.</p>

<h2 id="limitations-and-counterarguments">Limitations and Counterarguments</h2>

<p>For balance, here are the reasons not to over-trust this result.</p>

<p><strong>First, the benchmark is a snapshot of specific conditions.</strong> The 2,626 tok/s figure comes from a specific workload: 20k input, 1k output, 60% cache hit rate. Throughput will change substantially under workloads with short prompts and heavy generation, or with low cache hit rates. The gap between the single-stream 213 tok/s and the node-aggregate 2,626 tok/s already shows that sensitivity.</p>

<p><strong>Second, the MXFP4 “lossless” claim holds only within its tested scope.</strong> The original source says it is lossless relative to official FP8, but this is most likely measured against a specific evaluation set. The impact of 4-bit quantization can differ by task, coding, math, long context, and so on, so before adopting it in production you need to measure quality degradation directly against your own evaluation set.</p>

<p><strong>Third, the operational maturity of the ROCm ecosystem remains a variable.</strong> A benchmark holding up is a different matter from stable production operation. A gap with the CUDA ecosystem still exists in driver, kernel, and library compatibility, and in the maturity of incident-response tooling. Judging total cost of ownership by hardware unit price alone can miss the cost of operational staffing and downtime.</p>

<p>Even so, the direction is clear. Standardization of the serving stack is widening hardware choice, and the beneficiaries of that shift are serving platforms, and their customers, that can escape vendor lock-in and pick the optimal hardware for each workload. ThakiCloud’s ai-platform is aimed at exactly that point.</p>

<h2 id="sources">Sources</h2>

<ul>
  <li>Wafer.ai, “Performance per dollar is getting faster and cheaper”: <a href="https://www.wafer.ai/blog/glm52-amd">https://www.wafer.ai/blog/glm52-amd</a></li>
  <li>SemiAnalysis InferenceX, “AMD MI355X GLM-5 Inference: Up to 40% Cheaper per Million Tokens than B200 on SGLang FP8”: <a href="https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200">https://inferencex.semianalysis.com/blog/mi355x-glm5-fp8-sglang-40-cheaper-than-b200</a></li>
  <li>LMSYS, “Win on TCO: How AMD Instinct MI355X Achieves Cost-Competitive Distributed Inference Through SGLang with MoRI”: <a href="https://www.lmsys.org/blog/2026-05-28-mori/">https://www.lmsys.org/blog/2026-05-28-mori/</a></li>
  <li>GLM-5.2 model card (743B / 39B active, MoE, 1024K context): <a href="https://recipes.vllm.ai/zai-org/GLM-5.2">https://recipes.vllm.ai/zai-org/GLM-5.2</a></li>
</ul>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="amd" /><category term="mi355x" /><category term="glm" /><category term="mxfp4" /><category term="quantization" /><category term="sglang" /><category term="vllm" /><category term="self-hosting" /><summary type="html"><![CDATA[We examine a case of serving the GLM-5.2 743B MoE model on a single AMD MI355X node at 2,626 tok/s per node, at more than twice the cost efficiency of Blackwell, through the lens of MXFP4 quantization and SGLang's MoE parallelism, and connect it to ThakiCloud ai-platform's multi-vendor serving strategy.]]></summary></entry></feed>