LLM 에이전트가 외부 스킬(재사용 가능한 도구 명세)에 의존하는 흐름은 이제 보편적입니다. 그런데 현실의 작업은 스킬을 하나 “고르는” 문제가 아니라 여러 개를 “조합하는” 문제입니다. “딥리서치를 돌리고, 팩트체크한 뒤, 보고서를 docx로 만들고, 슬랙에 올려라” 같은 복합 요청은 단일 스킬 검색으로 풀리지 않습니다. 2026년 6월 16일 arXiv에 공개된 논문 SkillWeaver(arXiv:2606.18051, “Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and Compose”)는 이 문제를 정식으로 정의하고, 더 중요하게는 진짜 병목이 어디에 있는지를 데이터로 짚어냅니다.

저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼을 운영하면서 멀티에이전트 워크플로의 라우팅 품질을 직접 다뤄왔기 때문에, 이 논문의 결론이 실무와 정확히 맞닿는다고 봅니다.

문제 정의: Compositional Skill Routing

논문은 복합 스킬 라우팅을 세 단계로 정식화합니다.

  1. Decompose — 복합 사용자 쿼리를 원자적(atomic) 서브태스크로 분해합니다.
  2. Retrieve — 각 서브태스크에 맞는 스킬을 검색합니다.
  3. Compose — 의존성을 고려해 실행 가능한 계획(plan)으로 조립합니다.

SkillWeaver 프레임워크는 이 세 단계를 각각 LLM 태스크 분해기, FAISS 인덱싱 기반 바이인코더(bi-encoder) 스킬 검색기, 의존성 인식 DAG 플래너로 구현합니다. 평가를 위해 저자들은 공개 MCP 생태계에서 수집한 실제 MCP 서버 스킬 위에서 복합 쿼리로 구성된 벤치마크를 함께 제안합니다.

핵심 발견: 병목은 검색기가 아니라 “분해”다

이 논문에서 데이터 과학자가 가져가야 할 가장 중요한 한 줄은 이것입니다. 표준 LLM 분해는 스텝 레벨에서 카테고리 재현율(category recall)이 낮게 나온다는 것입니다.

즉, 검색기를 아무리 좋게 만들어도 분해 단계에서 서브태스크를 절반 넘게 떨구면 뒤 단계가 전부 무너집니다. 직관적으로는 “검색을 더 잘하자”로 가기 쉽지만, 측정은 정반대를 말합니다. 고쳐야 할 곳은 분해입니다.

저자들은 이를 해결하기 위해 검색 결과를 피드백으로 받아 분해를 스킬 라이브러리의 어휘에 반복적으로 정렬시키는 retrieval-augmented 루프를 제안합니다. 분해가 “내가 가진 스킬로 실행 가능한 형태”로 수렴하도록 만드는 접근입니다.

데이터 과학자 관점에서의 실무 가치

이 논문이 단순 데모가 아니라 방법론으로서 유용한 이유는 세 가지입니다.

  • 평가 설계의 교훈: aggregate 정확도 한 줄로 시스템을 평가하면 병목이 가려집니다. 스텝 레벨 category recall처럼 단계별로 분해된 메트릭을 보아야 어디서 손실이 나는지 보입니다. MLOps에서 에이전트 파이프라인을 평가할 때 그대로 적용되는 원칙입니다.
  • 검색기 vs 분해기 진단: 멀티에이전트 시스템 품질이 안 나올 때, 모델 등급을 올리기 전에 분해 단계의 재현율부터 측정하라는 실증적 근거를 줍니다. 비용을 쓰기 전에 측정하라는 이야기입니다.
  • 재현 가능한 벤치마크: 실제 MCP 스킬 위에서 돌기 때문에, 합성 태스크가 아니라 생태계의 실제 분포를 반영합니다.

ThakiCloud는 이 발견을 이미 검증했습니다

저희는 SkillWeaver의 문제 정식화와 평가틀을 차용해, 내부 스킬 코퍼스 위에서 단일 검색 vs 분해 기반 라우팅을 직접 측정했습니다. 결과는 논문과 방향이 같았습니다. 완벽히 분해해도 천장이 존재했고, 병목이 분해 그리고 검색기/디스크립션 품질 양쪽에 있었습니다. 다시 말해 “검색은 멀쩡하니 분해만 고쳐라”는 논문의 결론이 모든 환경에 그대로 이전되지는 않습니다. 환경마다 직접 측정해야 한다는 것이 저희의 실무 교훈입니다.

이런 측정 인프라와 라우팅 게이트를 K8s 위에서 재현 가능하게 운영하는 일이 ThakiCloud가 다루는 영역입니다. 에이전트 라우팅 품질을 데이터로 다루고 싶은 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.

마치며

SkillWeaver의 메시지는 명확합니다. 복합 작업에서 라우팅 품질을 올리려면 모델을 키우기 전에 분해를 고치고, 단계별로 측정하라는 것입니다. 고치기 전에 측정하라는 이 논문의 진짜 교훈은, 멀티에이전트를 운영하는 모든 팀에 그대로 적용됩니다.


출처: “Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and Compose”, arXiv:2606.18051 (2026-06-16). https://arxiv.org/abs/2606.18051