<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="4.4.1">Jekyll</generator><link href="https://thakicloud.github.io/feed.xml" rel="self" type="application/atom+xml" /><link href="https://thakicloud.github.io/" rel="alternate" type="text/html" /><updated>2026-06-21T10:49:42+09:00</updated><id>https://thakicloud.github.io/feed.xml</id><title type="html">Thaki Cloud Tech Blog | ThakiCloud | 다키클라우드 기술 블로그</title><subtitle>Thaki Cloud (ThakiCloud, 다키클라우드, thaki cloud, THAKI CLOUD, ثاكي كلاود)는 AI/ML Engineering, LLMOps, DevOps 분야의 최신 기술과 실무 경험을 공유하는 전문 기술 블로그입니다. 머신러닝 모델 운영, 쿠버네티스, 클라우드 인프라, AI 엔지니어링 커리어, 인공지능 기술 블로그, 다키클라우드 개발 팀의 깊이 있는 인사이트를 제공합니다. مدونة تقنية متخصصة في هندسة الذكاء الاصطناعي والحوسبة السحابية.</subtitle><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><entry xml:lang="ko"><title type="html">로컬에서 도는 멀티에이전트: Gemma 4 26B로 10개 병렬 서브에이전트 오케스트레이션</title><link href="https://thakicloud.github.io/ko/agentops/gemma4-local-multi-agent-orchestration/" rel="alternate" type="text/html" title="로컬에서 도는 멀티에이전트: Gemma 4 26B로 10개 병렬 서브에이전트 오케스트레이션" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/agentops/gemma4-local-multi-agent-orchestration</id><content type="html" xml:base="https://thakicloud.github.io/ko/agentops/gemma4-local-multi-agent-orchestration/"><![CDATA[<p>멀티에이전트 오케스트레이션이라고 하면 보통 클라우드 API를 떠올립니다. 그런데 최근 커뮤니티에서 공유된 데모는 다른 방향을 보여줍니다. Gemma 4 26B를 <strong>로컬 머신에서 띄워</strong> 10개의 병렬 서브에이전트로 SVG 아트 갤러리를 코딩하고, 100 tokens/sec 이상의 처리량을 달성했다는 것입니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙과 멀티에이전트 워크플로를 직접 다룹니다. 이 데모가 왜 온프레미스 추론 경제성의 변곡점을 보여주는지, 그리고 운영 관점에서 무엇을 시사하는지 짚어보겠습니다.</p>

<h2 id="무엇이-달라졌나-로컬-멀티에이전트가-실용-영역에-들어왔다">무엇이 달라졌나: 로컬 멀티에이전트가 실용 영역에 들어왔다</h2>

<p>핵심은 두 가지가 동시에 성립했다는 점입니다.</p>

<ul>
  <li><strong>모델이 충분히 작고 빠르다</strong>: Gemma 4 26B 같은 중형 오픈웨이트 모델이 로컬 GPU에서 실용적인 처리량으로 돌아갑니다.</li>
  <li><strong>에이전트를 병렬로 띄울 수 있다</strong>: 단일 모델 인스턴스 위에서 다수의 서브에이전트를 병렬로 fan-out 해 독립 작업을 분배합니다.</li>
</ul>

<p>10개 서브에이전트가 각각 SVG 작품을 생성하고 그 결과를 갤러리로 조립하는 구조는, 클라우드 API 비용 없이 로컬에서 멀티에이전트 패턴을 검증할 수 있다는 것을 보여줍니다. (100+ tokens/sec는 작성자의 로컬 환경 자가 보고 수치이므로 [추정]으로 받아들이는 것이 정확합니다. 하드웨어·양자화·배치 설정에 따라 크게 달라집니다.)</p>

<h2 id="멀티에이전트-오케스트레이션의-운영-관점">멀티에이전트 오케스트레이션의 운영 관점</h2>

<p>병렬 서브에이전트를 띄우는 것은 멋지지만, 운영에는 규율이 필요합니다. 저희가 멀티에이전트 워크플로를 다루며 얻은 원칙은 이렇습니다.</p>

<ul>
  <li><strong>워커는 싸게, 게이트만 비싸게</strong>: 탐색·생성 같은 fan-out 작업은 작은 로컬 모델로 충분합니다. 합성·검증 같은 판단 단계만 강한 모델에 배분합니다. 전부 같은 모델로 돌리면 품질도, 비용도 최적이 아닙니다.</li>
  <li><strong>병렬은 자원 경합을 부른다</strong>: 10개 서브에이전트를 동시에 띄우면 GPU 메모리와 KV 캐시가 경합합니다. 순차 처리와 병렬 처리의 트레이드오프를 작업 성격에 맞춰 결정해야 합니다.</li>
  <li><strong>검증 단계가 품질을 만든다</strong>: 병렬 워커의 산출물을 모은 뒤, 적대적(adversarial) 검증 단계를 한 번 더 두면 모델 등급을 올리지 않고도 품질이 올라갑니다. 품질 문제는 모델이 약해서가 아니라 검증이 없어서 나는 경우가 많습니다.</li>
</ul>

<h2 id="thakicloud-관점-온프레미스-추론-경제성">ThakiCloud 관점: 온프레미스 추론 경제성</h2>

<p>로컬 멀티에이전트 데모가 의미 있는 진짜 이유는 <strong>데이터 주권과 비용</strong>입니다. 민감한 코드·문서를 외부 API에 보내지 않고 사내 GPU에서 처리하려는 수요가 분명히 존재합니다. 중형 오픈웨이트 모델이 실용 처리량에 도달하면서, 이 수요는 더 이상 이론이 아니라 운영 가능한 옵션이 됩니다.</p>

<p>저희가 다루는 영역이 바로 이 지점입니다. K8s 위에서 모델 서빙을 표준화하고, Kueue로 GPU 워크로드를 큐잉하며, 멀티에이전트 오케스트레이션을 재현 가능하게 운영하는 일입니다. 로컬 단일 머신 데모를 조직 규모의 서빙 인프라로 확장하면, 자원 스케줄링·격리·관측성이 핵심 과제가 됩니다. 단순히 모델을 띄우는 것과, 다수의 테넌트가 안정적으로 멀티에이전트를 돌리게 하는 것은 다른 문제입니다.</p>

<h2 id="마치며">마치며</h2>

<p>Gemma 4 26B 로컬 멀티에이전트 데모는 “온프레미스 추론이 실용 영역에 들어왔다”는 신호입니다. 모델이 작아지고 빨라지면서, 멀티에이전트 패턴을 클라우드 비용 없이 검증할 수 있게 되었습니다. 이를 조직 규모로 키우는 일에 관심 있는 엔지니어라면, 이런 서빙·스케줄링 문제가 매일의 과제인 곳입니다.</p>

<hr />

<p>출처: Gemma 4 26B 로컬 멀티에이전트 오케스트레이션 커뮤니티 데모. Gemma 모델 정보: https://ai.google.dev/gemma (처리량 수치는 작성자 로컬 벤치 자가 보고 [추정])</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="agentops" /><category term="gemma4" /><category term="multi-agent" /><category term="local-inference" /><category term="on-premise" /><category term="orchestration" /><category term="llm-serving" /><summary type="html"><![CDATA[Gemma 4 26B를 로컬에서 띄워 10개 병렬 서브에이전트로 SVG 아트 갤러리를 코딩하는 데모를 분석합니다. 온프레미스 추론 경제성과 멀티에이전트 오케스트레이션을 ThakiCloud K8s 서빙 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">토큰 비용을 60~95% 깎는 가역 압축: Headroom과 ThakiCloud의 컨텍스트 위생</title><link href="https://thakicloud.github.io/ko/dev/headroom-reversible-context-compression/" rel="alternate" type="text/html" title="토큰 비용을 60~95% 깎는 가역 압축: Headroom과 ThakiCloud의 컨텍스트 위생" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/dev/headroom-reversible-context-compression</id><content type="html" xml:base="https://thakicloud.github.io/ko/dev/headroom-reversible-context-compression/"><![CDATA[<p>AI 코딩 에이전트를 매일 돌리는 팀이라면 가장 큰 숨은 비용이 어디서 나오는지 알고 있습니다. 바로 컨텍스트입니다. 도구 출력, RAG 결과, 로그, 파일, 대화 히스토리가 매 턴 쌓이고, 그 토큰이 그대로 청구서가 됩니다. 넷플릭스 출신 엔지니어 Tejas Chopra가 오픈소스화한 <strong>Headroom</strong>(PyPI: headroom-ai, GitHub: chopratejas/headroom)은 이 문제를 정면으로 겨냥합니다. “도구 출력·로그·파일·RAG 청크를 LLM에 닿기 전에 압축해 토큰을 60~95% 줄이되 답은 동일하게”를 표방합니다.</p>

<p>저희 ThakiCloud는 이미 이 도구를 프로덕션 도구 체인에 채택해 운영 중이기 때문에, 단순 소개가 아니라 실사용 관점에서 정리합니다.</p>

<h2 id="무엇이-다른가-가역reversible-압축">무엇이 다른가: 가역(reversible) 압축</h2>

<p>기존 컨텍스트 절감 도구들은 대부분 비가역입니다. 한 번 자르면 원본을 되돌릴 수 없습니다. Headroom의 핵심 차별점은 <strong>로컬에서 동작하고, 여러 콘텐츠 타입을 커버하며, 가역적</strong>이라는 점입니다. 원본은 설정된 TTL 안에서 복원할 수 있습니다. 즉 “압축했더니 에이전트가 디테일을 잃었다”는 전형적 실패를 구조적으로 막습니다.</p>

<p>Headroom은 라이브러리, 프록시, MCP 서버 세 가지 형태로 붙일 수 있습니다. 콘텐츠 타입을 인식해서 JSON의 이상치·로그의 실패 라인만 남기는 식으로 선택적으로 압축하고, 브레드크럼 해시로 원본 복원 경로를 유지합니다.</p>

<h2 id="내부-구성-요소">내부 구성 요소</h2>

<p>Headroom은 콘텐츠 타입별로 다른 압축기를 씁니다.</p>

<ul>
  <li><strong>SmartCrusher</strong> — 딕셔너리 배열, 중첩 객체, 혼합 타입을 다루는 범용 JSON 압축기입니다. 반복 구조의 JSON 도구 출력(검색 결과, 로그 행, 레코드 리스트)을 결정론적으로 줄입니다.</li>
  <li><strong>코드 압축기</strong> — 소스 코드를 구조 인식으로 압축합니다.</li>
  <li><strong>이미지 압축</strong> — 이미지 페이로드도 절감 대상입니다.</li>
</ul>

<p>통합도 광범위합니다. Python/TypeScript 라이브러리 호출, Anthropic/OpenAI SDK 래퍼, 미들웨어, MCP 클라이언트까지 드롭인으로 붙습니다. 코드를 거의 바꾸지 않고 끼워 넣을 수 있다는 점이 채택 장벽을 낮춥니다.</p>

<h2 id="thakicloud-관점-왜-채택했나">ThakiCloud 관점: 왜 채택했나</h2>

<p>저희 환경에서 가장 효과가 큰 지점은 <strong>반복 구조의 대용량 JSON 도구 출력</strong>입니다. 검색 결과나 로그 배열을 컨텍스트에 넣기 전에 SmartCrusher로 결정론적으로 압축하면, 무손실에 가까운 상태로 절반 이상을 절감할 수 있습니다(평문은 압축 대상이 아니라 JSON 경로에 한정됩니다). 가역성 덕분에 압축본을 우선 투입하고, 특정 섹션이 필요할 때만 원본을 복원하는 운영이 가능합니다.</p>

<p>이는 멀티에이전트 오케스트레이션에서 특히 중요합니다. K8s 위에서 다수의 서브에이전트가 도는 워크플로에서는 컨텍스트 위생이 곧 비용 통제이고, 캐시 히트율 관리이며, 응답 지연 관리입니다. Headroom은 이 레이어를 코드 변경 없이 끼워 넣을 수 있게 해줍니다.</p>

<p>한 가지 정직한 한계도 짚습니다. Headroom은 로컬 프로세스를 실행할 수 있어야 동작하므로, 샌드박스로 격리된 환경에서는 쓸 수 없습니다. 단일 프로바이더의 네이티브 compaction만으로 충분하고 크로스 에이전트 메모리가 필요 없는 팀에는 과잉일 수 있습니다.</p>

<h2 id="마치며">마치며</h2>

<p>Headroom은 “컨텍스트는 공짜가 아니다”라는 원칙을 도구로 구현한 사례입니다. 가역 압축이라는 설계 덕분에, 비용을 깎으면서도 에이전트가 디테일을 잃지 않습니다. ThakiCloud가 컨텍스트 위생을 어떻게 비용·신뢰성 문제로 다루는지에 관심 있는 엔지니어라면, 이런 레이어를 프로덕션에서 직접 운영하는 곳이 저희입니다.</p>

<hr />

<p>출처: Headroom (headroom-ai), PyPI https://pypi.org/project/headroom-ai/ · GitHub https://github.com/chopratejas/headroom (작성자 Tejas Chopra, 2026-06 릴리스)</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="dev" /><category term="headroom" /><category term="context-compression" /><category term="token-cost" /><category term="llm-serving" /><category term="rag" /><category term="mcp" /><summary type="html"><![CDATA[AI 코딩 에이전트의 가장 큰 숨은 비용은 컨텍스트입니다. 넷플릭스 출신 엔지니어가 오픈소스화한 Headroom은 도구 출력·로그·파일·RAG 청크를 가역적으로 압축해 토큰을 60~95% 줄입니다. ThakiCloud가 프로덕션에 채택한 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">LLM 없이 PDF를 마크다운으로: LiteParse와 RAG 인제스트 비용·데이터 주권</title><link href="https://thakicloud.github.io/ko/dev/liteparse-model-free-pdf-parser-rag/" rel="alternate" type="text/html" title="LLM 없이 PDF를 마크다운으로: LiteParse와 RAG 인제스트 비용·데이터 주권" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/dev/liteparse-model-free-pdf-parser-rag</id><content type="html" xml:base="https://thakicloud.github.io/ko/dev/liteparse-model-free-pdf-parser-rag/"><![CDATA[<p>RAG 파이프라인의 첫 단계는 문서 인제스트입니다. 그리고 그 첫 단계에서 가장 흔히 막히는 것이 PDF 파싱입니다. 최근 LLM 기반 파서가 늘었지만, LLM을 매 문서에 돌리면 비용과 지연이 누적되고, 민감한 문서를 외부 모델에 보내는 데이터 주권 문제도 생깁니다. LlamaIndex(Jerry Liu)가 발표한 <strong>LiteParse</strong>는 다른 방향을 택합니다. <strong>LLM 없이</strong> PDF를 마크다운으로 변환하는 Apache 2.0 오픈소스 파서입니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 RAG 문서 인제스트를 다룹니다. 모델 비의존 파서가 왜 비용·주권 관점에서 매력적인지, 그리고 어디까지 헷지해야 하는지 짚어보겠습니다.</p>

<h2 id="무엇이-다른가-모델-비의존model-free-파싱">무엇이 다른가: 모델 비의존(model-free) 파싱</h2>

<p>LiteParse의 핵심 차별점은 <strong>파싱에 LLM을 쓰지 않는다</strong>는 것입니다. 이 설계가 주는 이점은 분명합니다.</p>

<ul>
  <li><strong>비용</strong>: 문서당 LLM 호출 비용이 없습니다. 대량 문서를 인제스트할 때 비용이 선형으로 폭증하지 않습니다.</li>
  <li><strong>지연</strong>: LLM 추론 왕복이 없으므로 파싱이 빠릅니다.</li>
  <li><strong>데이터 주권</strong>: 문서를 외부 모델에 보내지 않습니다. 민감 문서를 사내에서 처리하려는 조직에 결정적 이점입니다.</li>
  <li><strong>결정론</strong>: LLM 파서는 같은 문서도 호출마다 다르게 풀 수 있지만, 규칙 기반 파서는 재현 가능합니다.</li>
</ul>

<p>LiteParse 측은 모델 비의존 파서 범주에서 여러 벤치마크 최고 점수를 주장합니다. 다만 이 주장은 <strong>자체 측정이고 model-free 범주에 한정</strong>된다는 점을 명시해야 합니다. LLM 기반 파서와의 절대 비교가 아니라, “모델을 안 쓰는 파서 중에서”라는 조건이 붙습니다. 속도·정확도 주장은 이 범주 한정으로 헷지하는 것이 정직합니다.</p>

<h2 id="rag-인제스트-관점에서의-트레이드오프">RAG 인제스트 관점에서의 트레이드오프</h2>

<p>모델 비의존 파서가 만능은 아닙니다. 트레이드오프를 분명히 해야 합니다.</p>

<ul>
  <li><strong>구조가 복잡한 문서</strong>: 표, 다단 레이아웃, 스캔된 이미지 PDF는 규칙 기반 파서가 어려워하는 영역입니다. LLM 비전 파서가 더 나을 수 있습니다.</li>
  <li><strong>하이브리드 전략</strong>: 대부분의 일반 문서는 model-free 파서로 빠르고 싸게 처리하고, 구조가 복잡한 소수만 LLM 파서로 처리하는 하이브리드가 현실적입니다. 비용과 품질을 분리하는 설계입니다.</li>
</ul>

<h2 id="thakicloud-관점-인제스트-비용을-1급-시민으로">ThakiCloud 관점: 인제스트 비용을 1급 시민으로</h2>

<p>RAG 파이프라인을 프로덕션에서 운영하면, 인제스트 비용이 의외로 큰 비중을 차지합니다. 문서가 많고 자주 갱신될수록, 파싱에 LLM을 쓰는지 여부가 운영 비용을 좌우합니다. LiteParse 같은 model-free 파서를 기본 경로로 두고, 복잡한 문서만 LLM 파서로 에스컬레이션하는 라우팅이 비용 효율적입니다.</p>

<p>저희가 다루는 영역이 이 지점입니다. K8s 위에서 문서 인제스트 파이프라인을 표준화하고, 문서 유형에 따라 파서를 라우팅하며, 민감 문서를 사내에서 처리해 데이터 주권을 보장하는 일입니다. 인제스트를 단순 전처리가 아니라 비용·주권·품질이 만나는 1급 설계 문제로 다룹니다.</p>

<h2 id="마치며">마치며</h2>

<p>LiteParse는 “RAG 인제스트에 항상 LLM이 필요한 것은 아니다”라는 메시지를 줍니다. 모델 비의존 파서는 비용·지연·데이터 주권에서 분명한 이점이 있고, 복잡한 문서는 LLM 파서로 보완하는 하이브리드가 현실적입니다. 인제스트 비용을 1급 시민으로 다루는 일에 관심 있는 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.</p>

<hr />

<p>출처: LlamaIndex LiteParse (Apache 2.0). GitHub: https://github.com/run-llama/llama_cloud_services (벤치마크 점수는 자체 측정, model-free 범주 한정 주장).</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="dev" /><category term="liteparse" /><category term="llamaindex" /><category term="pdf-parsing" /><category term="rag" /><category term="document-ingest" /><category term="open-source" /><summary type="html"><![CDATA[LlamaIndex가 발표한 LiteParse는 LLM 없이 PDF를 마크다운으로 변환하는 Apache 2.0 오픈소스 파서입니다. 모델 비의존 파서의 비용·데이터 주권 이점과 한계를 ThakiCloud RAG 문서 인제스트 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">구조화 프롬프트로 이미지 스타일을 제어하기: 5섹션 계층형 프롬프트 기법</title><link href="https://thakicloud.github.io/ko/dev/structured-image-prompt-style-transfer/" rel="alternate" type="text/html" title="구조화 프롬프트로 이미지 스타일을 제어하기: 5섹션 계층형 프롬프트 기법" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/dev/structured-image-prompt-style-transfer</id><content type="html" xml:base="https://thakicloud.github.io/ko/dev/structured-image-prompt-style-transfer/"><![CDATA[<p>“여행 사진을 지브리 스타일로 바꿔줘”라고 한 줄 던지면, 결과는 매번 다릅니다. 어떤 건 원본 구도를 잃고, 어떤 건 스타일이 약하고, 어떤 건 인물이 뭉개집니다. 최근 공유된 GPT Image 2 활용 사례는 이 문제를 <strong>구조화 프롬프트</strong>로 해결합니다. 자유 서술 대신 5개 섹션으로 계층을 나눠 변환을 제어하는 기법입니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 이미지 서빙과 프롬프트 템플릿을 다룹니다. 이 기법이 왜 결정론적 품질을 만들어내는지, 그리고 제품화 관점에서 무엇을 시사하는지 짚어보겠습니다.</p>

<h2 id="핵심-자유-서술을-계층형-구조로-강등시킨다">핵심: 자유 서술을 계층형 구조로 강등시킨다</h2>

<p>구조화 프롬프트의 원리는 단순합니다. 모델에게 “포맷을 자유롭게 풀게” 하지 말고, 검증된 골격에 내용을 채우게 하는 것입니다. 자유도를 줄이면 평균 품질이 올라갑니다. 이 사례는 프롬프트를 다섯 섹션으로 나눕니다.</p>

<ol>
  <li><strong>피사체(Subject)</strong> — 변환 대상을 명시합니다. 인물, 사물, 장면을 구체적으로 지정합니다.</li>
  <li><strong>배경(Background)</strong> — 배경 요소와 분위기를 정의합니다.</li>
  <li><strong>스타일(Style)</strong> — 목표 스타일을 명시합니다. “스튜디오 지브리 애니메이션”처럼 구체적 레퍼런스를 씁니다.</li>
  <li><strong>구도(Composition)</strong> — 카메라 앵글, 프레이밍, 원본 구도 유지 여부를 지정합니다.</li>
  <li><strong>품질(Quality)</strong> — 해상도, 디테일 수준, 렌더링 품질을 명시합니다.</li>
</ol>

<p>각 섹션을 분리하면 결과가 흔들릴 때 어느 레이어를 고쳐야 할지 즉시 보입니다. 스타일이 약하면 3번을, 인물이 뭉개지면 1번을 강화하는 식입니다.</p>

<h2 id="원본-보존-앵커링과-스타일-레이어링">원본 보존 앵커링과 스타일 레이어링</h2>

<p>스타일 변환에서 가장 흔한 실패는 “스타일은 입혔는데 원본을 잃는 것”입니다. 이 기법은 두 가지 장치로 막습니다.</p>

<ul>
  <li><strong>원본 보존 앵커링</strong>: 프롬프트에 원본의 핵심 요소(인물 정체성, 구도, 핵심 오브젝트)를 명시적으로 “유지하라”고 앵커링합니다. 모델이 자유롭게 재해석하는 여지를 줄입니다.</li>
  <li><strong>스타일 레이어링</strong>: 스타일을 한 번에 통째로 적용하지 않고, 베이스 위에 스타일을 레이어로 얹는 방식으로 기술합니다. 원본 구조를 보존하면서 표면 스타일만 교체하는 효과를 노립니다.</li>
</ul>

<p>이는 프롬프트 작법의 일반 원칙과 정확히 일치합니다. 긍정 프레이밍으로 “무엇을 유지하라”를 명시하고, 출력 형태를 구조로 고정하면 모델이 매번 다르게 푸는 것을 막을 수 있습니다.</p>

<h2 id="thakicloud-관점-프롬프트-템플릿의-제품화">ThakiCloud 관점: 프롬프트 템플릿의 제품화</h2>

<p>개인이 한 번 잘 만든 프롬프트는 일회성입니다. 이를 제품으로 만들려면 <strong>템플릿화</strong>가 필요합니다. 5섹션 구조를 고정된 템플릿으로 박고, 사용자는 각 섹션의 값만 채우게 하면, 비전문가도 일관된 품질의 결과를 얻습니다.</p>

<p>저희가 다루는 영역이 이 지점입니다. 이미지 생성 모델을 K8s 위에서 서빙하고, 검증된 프롬프트 템플릿을 API로 노출하며, 사용자 입력을 구조화된 슬롯에 매핑하는 일입니다. 모델에게 포맷을 생성시키지 말고 내용만 생성시키는 원칙을 이미지 도메인에 적용하면, 자유 프롬프트의 품질 편차를 제품 수준의 일관성으로 바꿀 수 있습니다.</p>

<h2 id="마치며">마치며</h2>

<p>구조화 프롬프트의 교훈은 텍스트와 이미지에 동일하게 적용됩니다. 자유 서술을 검증된 골격으로 강등시키고, 보존할 것을 앵커링하며, 레이어로 스타일을 제어하십시오. 자유도를 줄이는 것이 곧 품질을 올리는 길입니다.</p>

<hr />

<p>출처: GPT Image 2 구조화 프롬프트 스타일 변환 커뮤니티 사례 분석. 이미지 모델 프롬프트 작법 일반 원칙 기반 정리.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="dev" /><category term="prompt-engineering" /><category term="image-generation" /><category term="style-transfer" /><category term="structured-prompt" /><category term="image-serving" /><summary type="html"><![CDATA[여행 사진을 스튜디오 지브리 스타일 애니메이션으로 변환하는 구조화 프롬프트 기법을 분석합니다. 피사체/배경/스타일/구도/품질을 계층으로 분리하고 원본 보존을 앵커링하는 방법, 그리고 ThakiCloud 이미지 서빙·프롬프트 템플릿 제품화 관점을 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">8GB GPU에서 도는 Gemma 4 12B: QAT와 TurboQuant로 본 컨슈머 추론 경제성</title><link href="https://thakicloud.github.io/ko/llmops/gemma4-12b-qat-turboquant-consumer-gpu/" rel="alternate" type="text/html" title="8GB GPU에서 도는 Gemma 4 12B: QAT와 TurboQuant로 본 컨슈머 추론 경제성" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/llmops/gemma4-12b-qat-turboquant-consumer-gpu</id><content type="html" xml:base="https://thakicloud.github.io/ko/llmops/gemma4-12b-qat-turboquant-consumer-gpu/"><![CDATA[<p>온프레미스 LLM 서빙의 가장 큰 장벽은 VRAM이었습니다. 12B 모델을 띄우려면 보통 고가의 데이터센터 GPU가 필요했습니다. 그런데 최근 커뮤니티 벤치마크는 다른 그림을 보여줍니다. Gemma 4 12B를 QAT(Quantization-Aware Training)와 TurboQuant 양자화로 <strong>RTX 4060 8GB</strong>에서 구동하면서, prefill 처리량과 긴 컨텍스트를 동시에 달성했다는 것입니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙을 다룹니다. 이 사례가 왜 컨슈머 GPU 추론 경제성의 변곡점인지, 그리고 무엇을 검증하고 무엇을 헷지해야 하는지 짚어보겠습니다.</p>

<h2 id="사실-확인-무엇이-공식이고-무엇이-자가-보고인가">사실 확인: 무엇이 공식이고 무엇이 자가 보고인가</h2>

<p>먼저 신뢰도를 분리하는 것이 중요합니다.</p>

<ul>
  <li><strong>Gemma 4와 QAT 릴리스는 공식 확인됨</strong>: Google이 Gemma 4 모델군과 QAT 버전을 공식 배포했습니다.</li>
  <li><strong>TurboQuant는 학계 발표 기반</strong>: TurboQuant는 ICLR 2026에 발표된 양자화 기법으로 확인됩니다.</li>
  <li><strong>1000+ tok/s prefill 수치는 개인 벤치마크</strong>: 이 처리량 수치는 커뮤니티 작성자의 개인 환경 측정값으로, 공식 벤치마크가 아닙니다. [추정]으로 받아들이는 것이 정확합니다. 하드웨어·드라이버·배치 설정에 따라 크게 달라집니다.</li>
</ul>

<p>이렇게 출처별 신뢰도를 명시하는 것이 데이터 과학자의 기본 위생입니다. 인상적인 수치일수록 출처를 분리해서 봐야 합니다.</p>

<h2 id="qat가-만드는-차이">QAT가 만드는 차이</h2>

<p>QAT의 핵심은 양자화를 <strong>학습 시점에 반영</strong>한다는 것입니다. 일반적인 사후 양자화(PTQ)는 학습이 끝난 모델을 낮은 비트로 압축하는데, 이 과정에서 정확도 손실이 생깁니다. QAT는 학습 중에 양자화 노이즈를 모델이 학습하게 해서, 낮은 비트에서도 정확도를 보존합니다.</p>

<p>여기에 TurboQuant 같은 추가 양자화 기법이 얹히면, 메모리 풋프린트를 더 줄이면서 품질 저하를 억제할 수 있습니다. 결과적으로 8GB VRAM이라는 컨슈머 등급 메모리 안에 12B 모델과 긴 컨텍스트를 함께 넣는 것이 가능해집니다.</p>

<h2 id="thakicloud-관점-컨슈머-gpu-서빙의-함의">ThakiCloud 관점: 컨슈머 GPU 서빙의 함의</h2>

<p>이 사례가 의미 있는 진짜 이유는 <strong>서빙 단가</strong>입니다. 데이터센터 GPU 한 장 값으로 컨슈머 GPU 여러 장을 살 수 있습니다. 양자화 인식 학습 덕분에 중형 모델이 컨슈머 GPU에서 실용 품질로 돌아가면, 온프레미스 추론의 비용 구조가 근본적으로 바뀝니다.</p>

<p>저희가 다루는 영역이 이 지점입니다. 양자화된 모델을 K8s 위에서 표준화해 서빙하고, Kueue로 GPU 워크로드를 큐잉하며, 이기종 GPU 풀(데이터센터 + 컨슈머)을 한 스케줄러 아래 두는 일입니다. 단일 머신에서 모델 하나를 띄우는 것과, 다수의 테넌트가 양자화 모델을 안정적으로 공유하게 하는 것은 다른 문제입니다. 메모리 격리, 처리량 보장, 품질 회귀 모니터링이 운영의 핵심 과제가 됩니다.</p>

<h2 id="마치며">마치며</h2>

<p>Gemma 4 12B를 8GB GPU에서 돌린 사례는 “양자화가 추론 경제성을 바꾼다”는 신호입니다. 단, 인상적인 처리량 수치는 출처를 분리해 [추정]으로 보고, 공식 릴리스와 개인 벤치를 구분해야 합니다. 양자화 모델을 조직 규모로 서빙하는 일에 관심 있는 엔지니어라면, 이런 서빙·스케줄링 문제가 매일의 과제인 곳입니다.</p>

<hr />

<p>출처: Gemma 4 12B QAT + TurboQuant 컨슈머 GPU 커뮤니티 벤치마크. Gemma: https://ai.google.dev/gemma · TurboQuant(ICLR 2026). 처리량 수치는 작성자 개인 벤치 [추정].</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="gemma4" /><category term="quantization" /><category term="qat" /><category term="turboquant" /><category term="consumer-gpu" /><category term="on-premise" /><summary type="html"><![CDATA[Gemma 4 12B를 QAT와 TurboQuant로 RTX 4060 8GB에서 구동한 커뮤니티 벤치마크를 분석합니다. 양자화 인식 학습과 컨슈머 GPU 서빙이 온프레미스 추론 경제성에 던지는 함의를 ThakiCloud 서빙 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">753B 오픈웨이트를 소비자 GPU에서: GLM-5.2와 온프레미스 LLM 서빙 경제성</title><link href="https://thakicloud.github.io/ko/llmops/glm-5-2-rtx4090-on-premise-serving/" rel="alternate" type="text/html" title="753B 오픈웨이트를 소비자 GPU에서: GLM-5.2와 온프레미스 LLM 서빙 경제성" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/llmops/glm-5-2-rtx4090-on-premise-serving</id><content type="html" xml:base="https://thakicloud.github.io/ko/llmops/glm-5-2-rtx4090-on-premise-serving/"><![CDATA[<p>753B 파라미터 모델을 소비자 GPU 한 장에서 돌린다는 것은 몇 년 전이라면 상상하기 어려운 일이었습니다. 최근 공유된 사례는 SOTA 오픈웨이트 모델 GLM-5.2(753B, FP8)를 <strong>RTX 4090</strong> 소비자 GPU에서 처음 구동했다고 보고합니다. 약 10 tok/s 수준이지만, 핵심은 처리량이 아니라 “돌아간다”는 사실 자체입니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙을 다룹니다. 이 사례가 온프레미스 대형 LLM 서빙 경제성에 던지는 함의를 짚어보겠습니다.</p>

<h2 id="무엇이-가능하게-만들었나-희소-어텐션-커널-이식">무엇이 가능하게 만들었나: 희소 어텐션 커널 이식</h2>

<p>대형 모델을 작은 GPU에 욱여넣는 데에는 두 가지 기술이 결합됩니다.</p>

<ul>
  <li><strong>FP8 양자화</strong>: 8비트 부동소수점으로 가중치를 표현해 메모리 풋프린트를 줄입니다.</li>
  <li><strong>DSA 희소 어텐션 커널의 Ada 아키텍처(sm_89) 이식</strong>: GLM-5.2의 DSA(희소 어텐션) 커널을 RTX 4090의 Ada Lovelace 아키텍처(컴퓨트 능력 sm_89)에 맞춰 이식했습니다. 희소 어텐션은 모든 토큰 쌍을 계산하지 않고 중요한 부분만 계산해, 긴 컨텍스트에서 연산과 메모리를 절약합니다.</li>
</ul>

<p>약 10 tok/s라는 처리량은 프로덕션 서빙에는 느리지만, 이 수치는 작성자의 단일 환경 측정값이므로 [추정]으로 보는 것이 정확합니다. 중요한 것은 “전용 데이터센터 GPU 없이도 753B 모델을 구동하는 경로가 열렸다”는 점입니다.</p>

<h2 id="데이터-과학자엔지니어-관점에서의-의미">데이터 과학자/엔지니어 관점에서의 의미</h2>

<ul>
  <li><strong>커널 이식이 곧 접근성</strong>: 모델이 새 어텐션 메커니즘을 쓸 때, 그 커널을 다양한 GPU 아키텍처로 이식하는 작업이 접근성을 결정합니다. SOTA 모델이 나와도 커널이 특정 하드웨어에만 묶여 있으면 생태계가 좁아집니다.</li>
  <li><strong>희소성이 긴 컨텍스트를 푼다</strong>: DSA 같은 희소 어텐션은 긴 컨텍스트 서빙의 연산·메모리 비용을 낮추는 핵심 기법입니다. 컨텍스트가 길어질수록 밀집 어텐션의 비용은 제곱으로 늘지만, 희소 어텐션은 이를 완화합니다.</li>
  <li><strong>처리량은 트레이드오프</strong>: 10 tok/s는 큰 모델을 작은 하드웨어에 넣은 대가입니다. 실제 서빙에서는 모델 크기, 하드웨어, 처리량의 트레이드오프를 워크로드 성격에 맞춰 선택해야 합니다.</li>
</ul>

<h2 id="thakicloud-관점-온프레미스-대형-llm-서빙">ThakiCloud 관점: 온프레미스 대형 LLM 서빙</h2>

<p>이 사례가 의미 있는 진짜 이유는 <strong>데이터 주권과 서빙 옵션의 확장</strong>입니다. 민감한 도메인에서는 753B급 SOTA 모델을 외부 API에 보내지 않고 사내에서 돌리려는 수요가 분명히 존재합니다. 단일 소비자 GPU에서의 10 tok/s는 데모 수준이지만, 이를 다수의 GPU로 확장하고 배치·텐서 병렬을 적용하면 실용 처리량에 도달할 수 있습니다.</p>

<p>저희가 다루는 영역이 이 지점입니다. 대형 오픈웨이트 모델을 K8s 위에서 다중 GPU로 샤딩해 서빙하고, Kueue로 GPU 자원을 배분하며, 희소 어텐션 커널 같은 모델별 최적화를 표준화된 서빙 스택에 통합하는 일입니다. 단일 머신 데모를 멀티테넌트 프로덕션 서빙으로 키우는 것이 핵심 과제입니다.</p>

<h2 id="마치며">마치며</h2>

<p>GLM-5.2를 RTX 4090에서 돌린 사례는 “대형 SOTA 모델의 온프레미스 서빙 경로가 열렸다”는 신호입니다. 커널 이식과 희소 어텐션이 접근성을 만들고, 양자화가 메모리를 푸는 구조입니다. 이를 조직 규모의 서빙 인프라로 확장하는 일에 관심 있는 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.</p>

<hr />

<p>출처: GLM-5.2(753B, FP8) RTX 4090 구동 커뮤니티 사례. 처리량 약 10 tok/s는 작성자 단일 환경 [추정]. GLM 모델군 정보는 Zhipu AI/Z.ai 공식 자료 참조.</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="glm" /><category term="open-weight" /><category term="sparse-attention" /><category term="on-premise" /><category term="llm-serving" /><category term="consumer-gpu" /><summary type="html"><![CDATA[753B 규모 SOTA 오픈웨이트 모델 GLM-5.2를 RTX 4090 소비자 GPU에서 구동한 사례를 분석합니다. DSA 희소 어텐션 커널 이식과 온프레미스 대형 LLM 서빙 경제성을 ThakiCloud 서빙 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">RL 사후학습을 인프라로: slime 오픈소스 프레임워크와 RL 스케일링</title><link href="https://thakicloud.github.io/ko/llmops/slime-rl-post-training-infrastructure/" rel="alternate" type="text/html" title="RL 사후학습을 인프라로: slime 오픈소스 프레임워크와 RL 스케일링" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/llmops/slime-rl-post-training-infrastructure</id><content type="html" xml:base="https://thakicloud.github.io/ko/llmops/slime-rl-post-training-infrastructure/"><![CDATA[<p>강화학습 사후학습(RL post-training)은 최근 대형 LLM 품질의 핵심 단계가 되었습니다. 그런데 RL 사후학습을 대규모로 돌리는 것은 추론이나 지도학습보다 인프라가 까다롭습니다. 롤아웃 생성, 보상 계산, 정책 업데이트가 얽히면서 GPU 자원 관리가 복잡해집니다. Z.ai(THUDM)가 오픈소스화한 <strong>slime</strong>은 이 문제를 정면으로 다루는 “RL 스케일링을 위한 LLM 사후학습 프레임워크”입니다. GLM-5.2의 사후학습에 실제로 쓰였다고 보고됩니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 학습 워크로드와 GPU 오케스트레이션을 다룹니다. RL 사후학습을 인프라 문제로 바라보는 이 프레임워크가 왜 중요한지 짚어보겠습니다.</p>

<h2 id="rl-사후학습이-인프라적으로-어려운-이유">RL 사후학습이 인프라적으로 어려운 이유</h2>

<p>RL 사후학습은 지도학습과 다른 부담을 줍니다.</p>

<ul>
  <li><strong>롤아웃 생성</strong>: 정책이 환경과 상호작용하며 궤적을 생성해야 합니다. 이는 추론 워크로드와 학습 워크로드가 한 루프에서 교대로 도는 구조를 만듭니다.</li>
  <li><strong>보상 계산</strong>: 생성된 궤적에 보상을 매겨야 합니다. 보상 모델을 별도로 돌리거나 규칙 기반 채점을 해야 합니다.</li>
  <li><strong>정책 업데이트</strong>: 수집된 데이터로 정책을 업데이트합니다.</li>
</ul>

<p>이 세 단계가 한 루프에서 반복되므로, 추론(롤아웃)과 학습(업데이트)을 같은 GPU 풀 위에서 효율적으로 스케줄링하는 것이 핵심 과제가 됩니다. 추론과 학습은 자원 프로파일이 다르기 때문에, 단순히 한 작업으로 묶기 어렵습니다.</p>

<h2 id="slime이-다루는-것-rl-스케일링">slime이 다루는 것: RL 스케일링</h2>

<p>slime이 “RL 스케일링”을 표방하는 것은, 단일 GPU의 RL 루프가 아니라 <strong>대규모 분산 환경에서의 RL 사후학습</strong>을 겨냥한다는 뜻입니다. 롤아웃 생성과 정책 업데이트를 분산하고, 그 사이의 데이터 흐름을 효율적으로 관리하는 것이 프레임워크의 역할입니다. GLM-5.2 같은 대형 모델의 사후학습에 실제로 쓰였다는 점이, 이 프레임워크가 데모가 아니라 프로덕션 규모에서 검증되었음을 시사합니다.</p>

<h2 id="데이터-과학자엔지니어-관점에서의-가치">데이터 과학자/엔지니어 관점에서의 가치</h2>

<ul>
  <li><strong>RL 인프라의 오픈소스화</strong>: RL 사후학습 인프라는 그동안 대형 연구소의 비공개 자산이었습니다. 이를 오픈소스로 공개하면, 더 많은 팀이 RL 사후학습을 실험할 수 있습니다.</li>
  <li><strong>추론·학습 통합 스케줄링</strong>: RL 루프의 추론·학습 교대 패턴을 효율적으로 다루는 설계는, 일반 학습 인프라에도 이식 가능한 교훈을 줍니다.</li>
  <li><strong>재현 가능한 사후학습</strong>: 프레임워크가 표준화되면, 사후학습 절차가 재현 가능해집니다. 이는 모델 품질의 신뢰성과 직결됩니다.</li>
</ul>

<h2 id="thakicloud-관점-k8s-위의-rl-학습-인프라">ThakiCloud 관점: K8s 위의 RL 학습 인프라</h2>

<p>slime 같은 RL 사후학습 프레임워크는 저희가 다루는 학습 인프라 문제와 정확히 맞닿습니다. K8s 위에서 Kueue로 GPU 워크로드를 큐잉할 때, RL 루프의 추론·학습 교대 패턴을 어떻게 스케줄링할지가 핵심 과제입니다. 롤아웃 생성은 추론 자원 프로파일을, 정책 업데이트는 학습 자원 프로파일을 갖기 때문에, 한 루프 안에서 자원을 동적으로 재배분해야 합니다.</p>

<p>저희가 다루는 영역이 이 지점입니다. RL 사후학습 같은 복합 워크로드를 멀티테넌트 GPU 플랫폼에서 안정적으로 돌리고, 자원을 공정하게 배분하며, 학습 절차를 재현 가능하게 표준화하는 일입니다. 오픈소스 RL 프레임워크가 늘어날수록, 이를 조직 규모의 학습 인프라에 통합하는 일의 가치도 커집니다.</p>

<h2 id="마치며">마치며</h2>

<p>slime은 “RL 사후학습은 알고리즘 문제이자 인프라 문제”라는 메시지를 줍니다. 추론과 학습이 교대하는 RL 루프를 대규모로 스케줄링하는 것이 핵심이고, 이를 오픈소스로 공개한 것이 생태계에 기여합니다. RL 학습 인프라를 K8s 위에서 운영하는 일에 관심 있는 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.</p>

<hr />

<p>출처: slime — LLM post-training framework for RL Scaling (Z.ai / THUDM). GitHub: https://github.com/THUDM/slime</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="llmops" /><category term="slime" /><category term="reinforcement-learning" /><category term="post-training" /><category term="rl-scaling" /><category term="llm-training" /><category term="infrastructure" /><summary type="html"><![CDATA[Z.ai가 오픈소스화한 slime은 RL 스케일링을 위한 LLM 사후학습 프레임워크입니다. GLM-5.2 사후학습에 쓰인 이 인프라를 분석하고, RL 사후학습 스택을 ThakiCloud K8s 학습 인프라 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">URL 한 글자로 논문을 재현하기: alphaXiv autoresearch와 GPU 재현성 자동화</title><link href="https://thakicloud.github.io/ko/research/alphaxiv-autoresearch-reproducibility-agent/" rel="alternate" type="text/html" title="URL 한 글자로 논문을 재현하기: alphaXiv autoresearch와 GPU 재현성 자동화" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/research/alphaxiv-autoresearch-reproducibility-agent</id><content type="html" xml:base="https://thakicloud.github.io/ko/research/alphaxiv-autoresearch-reproducibility-agent/"><![CDATA[<p>AI 연구의 재현성 문제는 오래된 골칫거리입니다. 논문은 인상적인 결과를 보고하지만, 막상 코드를 돌려보려면 환경 설정에서 막히고, GPU가 부족하고, 의존성이 깨집니다. alphaXiv가 소개한 autoresearch 기능은 이 마찰을 에이전트로 자동화하려는 시도입니다. arXiv URL에서 <code class="language-plaintext highlighter-rouge">arxiv</code>를 <code class="language-plaintext highlighter-rouge">autoarxiv</code>로 바꾸기만 하면, 에이전트가 코드베이스 환경을 설정하고, 최소 재현을 실행하며, GPU 복제 비용까지 추정합니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 GPU 워크로드 오케스트레이션을 다룹니다. 이 접근이 왜 흥미롭고, 어디서 통합 가치가 나오는지 짚어보겠습니다.</p>

<h2 id="재현성을-에이전트-워크플로로-분해하기">재현성을 에이전트 워크플로로 분해하기</h2>

<p>autoresearch가 자동화하는 단계는 명확합니다.</p>

<ul>
  <li><strong>환경 설정</strong>: 논문에 연결된 코드 저장소를 분석해 의존성을 설치하고 실행 환경을 구성합니다.</li>
  <li><strong>최소 재현 실행</strong>: 전체 학습을 돌리는 대신, 핵심 결과를 확인할 수 있는 최소 실행을 시도합니다.</li>
  <li><strong>GPU 복제 비용 추정</strong>: 전체 재현에 필요한 GPU 자원과 그 비용을 추정합니다.</li>
</ul>

<p>이 분해가 영리한 이유는, 재현을 “전부 아니면 전무”로 다루지 않기 때문입니다. 최소 재현으로 빠르게 신뢰도를 확인하고, 전체 재현 비용을 미리 추정해서 GPU를 태우기 전에 의사 결정을 할 수 있게 합니다. 비용을 쓰기 전에 측정하라는 원칙을 재현성 도메인에 적용한 것입니다.</p>

<h2 id="데이터-과학자-관점에서의-가치">데이터 과학자 관점에서의 가치</h2>

<p>재현성 자동화가 실무에 유용한 이유는 세 가지입니다.</p>

<ul>
  <li><strong>신뢰도 게이트</strong>: 논문의 결과를 신뢰할지 결정하기 전에, 최소 재현이 통과하는지를 자동으로 확인할 수 있습니다. 인용하기 전에 돌려보는 습관을 도구화한 것입니다.</li>
  <li><strong>비용 예측 가능성</strong>: GPU 복제 비용을 미리 추정하면, 어떤 논문을 전체 재현할지 우선순위를 데이터로 정할 수 있습니다.</li>
  <li><strong>마찰 제거</strong>: 환경 설정에서 막혀 포기하는 일이 줄어듭니다. 재현 시도의 진입 장벽이 낮아지면, 더 많은 결과가 실제로 검증됩니다.</li>
</ul>

<h2 id="thakicloud-관점-kueue-기반-gpu-오케스트레이션과의-결합">ThakiCloud 관점: Kueue 기반 GPU 오케스트레이션과의 결합</h2>

<p>autoresearch가 추정하는 “GPU 복제 비용”은 저희가 매일 다루는 문제와 정확히 맞닿습니다. K8s 위에서 Kueue로 GPU 워크로드를 큐잉하고, 자원을 공정하게 배분하며, 비용을 워크로드별로 귀속시키는 일입니다.</p>

<p>재현 에이전트가 “이 논문을 전체 재현하려면 GPU N장을 M시간”이라고 추정하면, 그 추정을 Kueue 큐에 제출 가능한 작업 명세로 옮길 수 있습니다. 최소 재현은 작은 큐에서 빠르게, 전체 재현은 예약된 GPU 풀에서 배치로 돌리는 식의 워크플로가 자연스럽게 그려집니다. 재현성 자동화와 GPU 스케줄링이 만나는 지점이 바로 저희가 다루는 영역입니다.</p>

<h2 id="마치며">마치며</h2>

<p>alphaXiv autoresearch는 “재현성을 에이전트로 자동화한다”는 방향을 보여줍니다. 핵심은 전체 재현을 강제하지 않고, 최소 재현과 비용 추정으로 의사 결정을 돕는다는 설계입니다. 이를 GPU 오케스트레이션과 결합해 조직 규모로 운영하는 일에 관심 있는 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.</p>

<hr />

<p>출처: alphaXiv autoresearch 기능 소개. alphaXiv: https://www.alphaxiv.org/</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="alphaxiv" /><category term="reproducibility" /><category term="research-automation" /><category term="gpu-orchestration" /><category term="kueue" /><category term="llm-agent" /><summary type="html"><![CDATA[arXiv URL의 'arxiv'를 'autoarxiv'로 바꾸면 에이전트가 코드베이스 환경 설정, 최소 재현 실행, GPU 복제 비용 추정을 자동 수행합니다. AI 연구 재현성 문제를 에이전트로 자동화하는 접근을 Kueue 기반 GPU 오케스트레이션 관점에서 분석합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">TPU v2부터 Ironwood까지: 5세대로 본 구글 트레이닝 슈퍼컴퓨터의 진화</title><link href="https://thakicloud.github.io/ko/research/google-tpu-ironwood-five-generations/" rel="alternate" type="text/html" title="TPU v2부터 Ironwood까지: 5세대로 본 구글 트레이닝 슈퍼컴퓨터의 진화" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/research/google-tpu-ironwood-five-generations</id><content type="html" xml:base="https://thakicloud.github.io/ko/research/google-tpu-ironwood-five-generations/"><![CDATA[<p>대규모 AI 모델을 학습시키는 인프라는 어떻게 진화해왔을까요. 구글이 arXiv에 공개한 논문 “Google’s Training Supercomputers from TPU v2 to Ironwood”(arXiv:2606.15870, 2026년 6월 14일 제출)는 TPU 5세대의 진화를 아키텍처 안정성, 규모, 회복탄력성, 전력 효율, 지속가능성이라는 다섯 축으로 정리합니다. 단일 칩 성능이 아니라 <strong>시스템 전체</strong>를 어떻게 키워왔는지를 다룬다는 점에서, AI 인프라를 운영하는 팀에게 직접적인 교훈을 줍니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 GPU 워크로드와 학습 인프라를 다룹니다. 이 논문이 왜 데이터 과학자와 인프라 엔지니어 모두에게 유용한지 짚어보겠습니다.</p>

<h2 id="다섯-축으로-보는-진화">다섯 축으로 보는 진화</h2>

<p>논문이 5세대를 평가하는 다섯 축은 그 자체로 대규모 학습 인프라의 평가 프레임입니다.</p>

<ul>
  <li><strong>아키텍처 안정성(Architectural Stability)</strong>: 세대가 바뀌어도 프로그래밍 모델과 아키텍처의 핵심을 유지해, 소프트웨어 스택과 운영 노하우가 누적되게 합니다. 매 세대 처음부터 다시 배우지 않게 하는 것이 규모의 경제입니다.</li>
  <li><strong>규모(Scale)</strong>: 수천 칩 규모의 포드로 확장하며, 칩 간 인터커넥트와 토폴로지가 핵심이 됩니다.</li>
  <li><strong>회복탄력성(Resilience)</strong>: 수천 칩 규모에서는 고장이 상수입니다. 일부 칩이 죽어도 학습이 계속되게 하는 설계가 필수입니다.</li>
  <li><strong>전력 효율(Power Efficiency)</strong>: TFLOPS/Watt 개선이 세대별 핵심 지표입니다. 같은 일을 더 적은 전력으로 하는 것이 운영 비용과 직결됩니다.</li>
  <li><strong>지속가능성(Sustainability)</strong>: 전력 효율은 곧 탄소 발자국 문제이기도 합니다.</li>
</ul>

<h2 id="데이터-과학자가-가져갈-교훈">데이터 과학자가 가져갈 교훈</h2>

<p>이 논문이 하드웨어 논문을 넘어 방법론적으로 유용한 이유는 이렇습니다.</p>

<ul>
  <li><strong>시스템 성능 vs 칩 성능</strong>: 단일 칩 FLOPS만 보면 진짜 향상을 놓칩니다. 인터커넥트, 토폴로지, 소프트웨어 스택을 포함한 시스템 전체 성능을 보아야 학습 처리량의 실제 개선이 보입니다. 이는 추론 서빙에서도 똑같이 적용됩니다. GPU 한 장의 처리량이 아니라 클러스터 전체의 유효 처리량을 보아야 합니다.</li>
  <li><strong>회복탄력성이 곧 처리량</strong>: 대규모 학습에서 고장 복구 설계가 없으면, 실효 처리량이 급격히 떨어집니다. 체크포인팅과 부분 고장 허용은 옵션이 아니라 처리량 그 자체입니다.</li>
  <li><strong>전력 효율을 1급 지표로</strong>: TFLOPS/Watt를 핵심 지표로 추적하는 것은, 비용을 1급 시민으로 다루는 운영 철학입니다.</li>
</ul>

<h2 id="thakicloud-관점-대규모-인프라-설계-원칙의-이식">ThakiCloud 관점: 대규모 인프라 설계 원칙의 이식</h2>

<p>저희는 TPU 같은 전용 슈퍼컴퓨터를 만들지는 않지만, 이 논문의 설계 원칙은 K8s 기반 GPU 플랫폼에 그대로 이식됩니다. 아키텍처 안정성은 표준화된 서빙·학습 인터페이스로, 회복탄력성은 Kueue 기반 작업 재시도와 체크포인팅으로, 전력 효율은 GPU 활용률 모니터링과 워크로드 패킹으로 나타납니다.</p>

<p>수천 칩 규모의 교훈을 수십~수백 GPU 규모의 멀티테넌트 플랫폼에 적용하는 것이 저희가 다루는 영역입니다. 고장을 상수로 가정하고, 시스템 전체 처리량을 보며, 전력·비용을 1급 지표로 다루는 운영 철학은 규모와 무관하게 옳습니다.</p>

<h2 id="마치며">마치며</h2>

<p>구글의 TPU 5세대 논문은 “대규모 AI 인프라는 칩이 아니라 시스템”이라는 메시지를 데이터로 보여줍니다. 아키텍처 안정성으로 누적하고, 회복탄력성으로 처리량을 지키며, 전력 효율을 1급 지표로 다루십시오. 이 원칙은 GPU 클러스터를 운영하는 모든 팀에 적용됩니다.</p>

<hr />

<p>출처: “Google’s Training Supercomputers from TPU v2 to Ironwood: Architectural Stability, Scale, Resilience, Power Efficiency, and Sustainability Across Five Generations”, arXiv:2606.15870 (2026-06-14). https://arxiv.org/abs/2606.15870</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="tpu" /><category term="ironwood" /><category term="ai-infrastructure" /><category term="power-efficiency" /><category term="arxiv-2606.15870" /><category term="mlops" /><summary type="html"><![CDATA[구글이 TPU v2부터 Ironwood까지 5세대 트레이닝 슈퍼컴퓨터의 아키텍처 안정성, 규모, 회복탄력성, 전력 효율, 지속가능성을 정리한 논문(arXiv:2606.15870)을 분석합니다. 대규모 AI 인프라 설계의 교훈을 MLOps 관점에서 정리합니다.]]></summary></entry><entry xml:lang="ko"><title type="html">스킬 하나로는 안 풉니다: SkillWeaver가 보여준 컴포지셔널 스킬 라우팅과 분해의 병목</title><link href="https://thakicloud.github.io/ko/research/skillweaver-compositional-skill-routing/" rel="alternate" type="text/html" title="스킬 하나로는 안 풉니다: SkillWeaver가 보여준 컴포지셔널 스킬 라우팅과 분해의 병목" /><published>2026-06-21T00:00:00+09:00</published><updated>2026-06-21T00:00:00+09:00</updated><id>https://thakicloud.github.io/ko/research/skillweaver-compositional-skill-routing</id><content type="html" xml:base="https://thakicloud.github.io/ko/research/skillweaver-compositional-skill-routing/"><![CDATA[<p>LLM 에이전트가 외부 스킬(재사용 가능한 도구 명세)에 의존하는 흐름은 이제 보편적입니다. 그런데 현실의 작업은 스킬을 하나 “고르는” 문제가 아니라 여러 개를 “조합하는” 문제입니다. “딥리서치를 돌리고, 팩트체크한 뒤, 보고서를 docx로 만들고, 슬랙에 올려라” 같은 복합 요청은 단일 스킬 검색으로 풀리지 않습니다. 2026년 6월 16일 arXiv에 공개된 논문 SkillWeaver(arXiv:2606.18051, “Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and Compose”)는 이 문제를 정식으로 정의하고, 더 중요하게는 <strong>진짜 병목이 어디에 있는지</strong>를 데이터로 짚어냅니다.</p>

<p>저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼을 운영하면서 멀티에이전트 워크플로의 라우팅 품질을 직접 다뤄왔기 때문에, 이 논문의 결론이 실무와 정확히 맞닿는다고 봅니다.</p>

<h2 id="문제-정의-compositional-skill-routing">문제 정의: Compositional Skill Routing</h2>

<p>논문은 복합 스킬 라우팅을 세 단계로 정식화합니다.</p>

<ol>
  <li><strong>Decompose</strong> — 복합 사용자 쿼리를 원자적(atomic) 서브태스크로 분해합니다.</li>
  <li><strong>Retrieve</strong> — 각 서브태스크에 맞는 스킬을 검색합니다.</li>
  <li><strong>Compose</strong> — 의존성을 고려해 실행 가능한 계획(plan)으로 조립합니다.</li>
</ol>

<p>SkillWeaver 프레임워크는 이 세 단계를 각각 LLM 태스크 분해기, FAISS 인덱싱 기반 바이인코더(bi-encoder) 스킬 검색기, 의존성 인식 DAG 플래너로 구현합니다. 평가를 위해 저자들은 공개 MCP 생태계에서 수집한 실제 MCP 서버 스킬 위에서 복합 쿼리로 구성된 벤치마크를 함께 제안합니다.</p>

<h2 id="핵심-발견-병목은-검색기가-아니라-분해다">핵심 발견: 병목은 검색기가 아니라 “분해”다</h2>

<p>이 논문에서 데이터 과학자가 가져가야 할 가장 중요한 한 줄은 이것입니다. 표준 LLM 분해는 스텝 레벨에서 카테고리 재현율(category recall)이 낮게 나온다는 것입니다.</p>

<p>즉, 검색기를 아무리 좋게 만들어도 <strong>분해 단계에서 서브태스크를 절반 넘게 떨구면</strong> 뒤 단계가 전부 무너집니다. 직관적으로는 “검색을 더 잘하자”로 가기 쉽지만, 측정은 정반대를 말합니다. 고쳐야 할 곳은 분해입니다.</p>

<p>저자들은 이를 해결하기 위해 검색 결과를 피드백으로 받아 분해를 스킬 라이브러리의 어휘에 반복적으로 정렬시키는 retrieval-augmented 루프를 제안합니다. 분해가 “내가 가진 스킬로 실행 가능한 형태”로 수렴하도록 만드는 접근입니다.</p>

<h2 id="데이터-과학자-관점에서의-실무-가치">데이터 과학자 관점에서의 실무 가치</h2>

<p>이 논문이 단순 데모가 아니라 방법론으로서 유용한 이유는 세 가지입니다.</p>

<ul>
  <li><strong>평가 설계의 교훈</strong>: aggregate 정확도 한 줄로 시스템을 평가하면 병목이 가려집니다. 스텝 레벨 category recall처럼 <strong>단계별로 분해된 메트릭</strong>을 보아야 어디서 손실이 나는지 보입니다. MLOps에서 에이전트 파이프라인을 평가할 때 그대로 적용되는 원칙입니다.</li>
  <li><strong>검색기 vs 분해기 진단</strong>: 멀티에이전트 시스템 품질이 안 나올 때, 모델 등급을 올리기 전에 분해 단계의 재현율부터 측정하라는 실증적 근거를 줍니다. 비용을 쓰기 전에 측정하라는 이야기입니다.</li>
  <li><strong>재현 가능한 벤치마크</strong>: 실제 MCP 스킬 위에서 돌기 때문에, 합성 태스크가 아니라 생태계의 실제 분포를 반영합니다.</li>
</ul>

<h2 id="thakicloud는-이-발견을-이미-검증했습니다">ThakiCloud는 이 발견을 이미 검증했습니다</h2>

<p>저희는 SkillWeaver의 문제 정식화와 평가틀을 차용해, 내부 스킬 코퍼스 위에서 단일 검색 vs 분해 기반 라우팅을 직접 측정했습니다. 결과는 논문과 방향이 같았습니다. 완벽히 분해해도 천장이 존재했고, 병목이 분해 <strong>그리고</strong> 검색기/디스크립션 품질 양쪽에 있었습니다. 다시 말해 “검색은 멀쩡하니 분해만 고쳐라”는 논문의 결론이 모든 환경에 그대로 이전되지는 않습니다. 환경마다 직접 측정해야 한다는 것이 저희의 실무 교훈입니다.</p>

<p>이런 측정 인프라와 라우팅 게이트를 K8s 위에서 재현 가능하게 운영하는 일이 ThakiCloud가 다루는 영역입니다. 에이전트 라우팅 품질을 데이터로 다루고 싶은 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.</p>

<h2 id="마치며">마치며</h2>

<p>SkillWeaver의 메시지는 명확합니다. 복합 작업에서 라우팅 품질을 올리려면 모델을 키우기 전에 <strong>분해를 고치고, 단계별로 측정하라</strong>는 것입니다. 고치기 전에 측정하라는 이 논문의 진짜 교훈은, 멀티에이전트를 운영하는 모든 팀에 그대로 적용됩니다.</p>

<hr />

<p>출처: “Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and Compose”, arXiv:2606.18051 (2026-06-16). https://arxiv.org/abs/2606.18051</p>]]></content><author><name>{&quot;name&quot;=&gt;nil, &quot;avatar&quot;=&gt;nil, &quot;bio&quot;=&gt;nil, &quot;location&quot;=&gt;&quot;Seoul, Korea&quot;, &quot;email&quot;=&gt;&quot;info@thakicloud.co.kr&quot;, &quot;uri&quot;=&gt;nil, &quot;home&quot;=&gt;nil, &quot;links&quot;=&gt;[{&quot;label&quot;=&gt;&quot;Website&quot;, &quot;icon&quot;=&gt;&quot;fas fa-fw fa-link&quot;, &quot;url&quot;=&gt;&quot;https://thakicloud.co.kr&quot;}, {&quot;label&quot;=&gt;&quot;GitHub&quot;, &quot;icon&quot;=&gt;&quot;fab fa-fw fa-github&quot;, &quot;url&quot;=&gt;&quot;https://github.com/thakicloud&quot;}]}</name><email>info@thakicloud.co.kr</email></author><category term="research" /><category term="skill-routing" /><category term="llm-agent" /><category term="multi-agent" /><category term="mcp" /><category term="arxiv-2606.18051" /><category term="evaluation" /><summary type="html"><![CDATA[복합 사용자 요청은 스킬 하나를 고르는 문제가 아니라 여러 개를 조합하는 문제입니다. SkillWeaver(arXiv:2606.18051)는 이 문제를 정식화하고, 진짜 병목이 검색기가 아니라 '분해'에 있음을 데이터로 짚어냅니다.]]></summary></entry></feed>