SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

⏱️ 예상 읽기 시간: 7분

스킬은 손으로 만드는 것이었다

에이전트 스킬, 즉 에이전트가 특정 태스크를 수행하는 방법을 기술한 문서는 대부분 사람이 작성한다. 어떤 단계를 거쳐야 하는지, 어떤 툴을 쓰는지, 실패했을 때 어떻게 복구하는지. 좋은 스킬 문서를 쓰는 데는 경험과 시간이 필요하다. 그리고 한 번 쓴다고 끝나지 않는다. 에이전트가 실패하면 스킬을 수정해야 하는데, 이것도 사람 몫이다.

arXiv:2605.23904 “SkillOpt: Executive Strategy for Self-Evolving Agent Skills”는 이 과정을 자동화한다. 스킬 문서를 훈련 가능한 외부 컴포넌트로 취급하고, 에이전트 실행 결과를 바탕으로 스킬을 체계적으로 개선하는 시스템이다.

텍스트 공간 최적화

SkillOpt의 핵심 아이디어는 “텍스트 공간 최적화(text-space optimizer)”다. 모델 가중치를 건드리지 않고, 스킬 문서 텍스트 자체를 최적화한다. 이 접근이 기존 스킬 작성 방식과 다른 점은 세 가지다.

스코어링된 롤아웃 활용: 에이전트가 스킬을 실행할 때마다 롤아웃(실행 궤적)이 기록되고 점수가 매겨진다. 점수가 높은 롤아웃은 무엇이 효과적인지를 알려준다. 점수가 낮은 롤아웃은 스킬의 어떤 부분이 문제인지를 가리킨다.

제어된 편집: 옵티마이저 모델이 롤아웃 데이터를 분석해 스킬 문서에 대한 편집을 제안한다. 편집 타입은 세 가지다. 추가(add), 삭제(delete), 교체(replace). 자유로운 재작성이 아니라 제어된 변형이다. 이 제어가 중요한 이유는 편집 범위를 좁힐수록 무엇이 변해서 성능이 바뀌었는지 추적하기 쉽기 때문이다.

검증 게이트: 편집이 제안된다고 바로 적용되지 않는다. 검증 점수가 개선될 때만 변경이 수락된다. 성능이 나빠지는 편집은 자동으로 걸러진다.

추론 시 오버헤드 없음

SkillOpt의 실용적 장점 중 하나가 추론 시 오버헤드가 없다는 점이다. 스킬 최적화는 오프라인에서 이뤄진다. 롤아웃을 수집하고, 편집을 제안하고, 검증하는 과정이 에이전트 실행과 분리된다.

배포된 에이전트는 최적화된 스킬 문서를 참조할 뿐이다. 최적화 자체가 실행 경로에 없으므로 레이턴시에 영향을 주지 않는다. “더 나은 스킬 = 더 느린 실행”이라는 트레이드오프가 없다.

실험 결과

논문이 초록에 기재한 수치는 두 가지다.

최대 +23.5 포인트 (GPT-5.5): 여러 벤치마크와 모델에서 SkillOpt로 최적화된 스킬을 사용한 에이전트가 기존 대비 성능 향상을 보였다. GPT-5.5를 사용했을 때 최대 23.5 포인트 향상이 가장 큰 수치다. 어떤 벤치마크에서 이 수치가 나왔는지는 논문 본문을 확인해야 한다.

크로스 모델 전이: 한 모델로 최적화된 스킬이 다른 모델에서도 효과적이라는 결과다. 이는 스킬 최적화 비용을 정당화하는 중요한 속성이다. GPT-5.5로 최적화한 스킬을 Qwen 계열 모델에 적용했을 때도 성능 향상이 유지된다면, 스킬을 한 번 최적화해서 여러 모델에 재사용할 수 있다.

크로스 환경 전이도 보고된다. 최적화된 스킬이 다른 실행 환경에서도 효과를 유지한다는 의미다.

손 작성 스킬 vs. SkillOpt 스킬

논문이 비교하는 베이스라인은 손으로 작성하거나 느슨하게 수정된 스킬이다. 이 비교가 의미 있는 이유는 현실적이기 때문이다. 대부분의 에이전트 시스템에서 스킬은 정확히 이 방식으로 관리된다.

SkillOpt가 손 작성 스킬보다 나은 이유는 두 가지다. 첫째, 실제 실행 데이터를 바탕으로 최적화한다. 스킬 작성자의 직관보다 실제 실패와 성공 패턴이 더 정확한 신호다. 둘째, 지속적으로 개선된다. 새 롤아웃이 쌓이면 스킬도 업데이트된다. 한 번 쓰고 끝나는 스킬이 아니라 살아있는 문서가 된다.

ThakiCloud 스킬 시스템과의 연결

ThakiCloud의 .claude/skills/ 아래에 있는 스킬들을 SkillOpt의 관점에서 보면 자연스러운 연결이 보인다.

현재 스킬 관리 프로세스는 수동이다. selfharness-evolve가 야간에 스킬 개선을 시도하지만, 구체적으로 어떤 롤아웃 데이터를 어떻게 활용하는지는 스킬마다 다르다. SkillOpt의 프레임워크를 적용하면 더 체계적인 접근이 가능하다.

구체적으로, 스킬 실행 시 롤아웃을 자동 수집하고 점수를 매기는 파이프라인이 필요하다. 점수는 스킬이 의도한 목표를 달성했는지, 오류 없이 완료했는지, 얼마나 효율적이었는지를 기준으로 정의한다. 그 데이터를 바탕으로 제어된 편집을 제안하고, 검증 후 반영하는 사이클이 SkillOpt의 핵심이다.

sonnet-format-determinism 룰이 이미 스킬 출력 품질을 코드로 검증하는 방향을 잡고 있다. 그 검증 결과를 SkillOpt 스타일의 스킬 개선 신호로 활용하면 현재 아키텍처와 자연스럽게 통합된다.

크로스 모델 전이성은 특히 중요하다. ThakiCloud 플랫폼이 sonnet, opus, haiku 등 여러 모델을 라우팅해서 사용하는 상황에서, 한 모델 기준으로 최적화된 스킬이 다른 모델에서도 효과적이라면 최적화 비용을 크게 줄일 수 있다.

주의할 점

SkillOpt의 한계도 있다. 스킬 편집이 제어되더라도 누적 변경이 예상치 못한 방향으로 흐를 수 있다. 스킬이 최적화되어 특정 벤치마크에서는 성능이 오르지만, 그 과정에서 일반성을 잃는 경우가 전형적인 위험이다.

검증 게이트가 이를 부분적으로 막지만, 완전히 막지는 못한다. 스킬 최적화 히스토리를 추적하고, 성능 하락 시 이전 버전으로 롤백하는 메커니즘이 병행되어야 한다.

마치며

SkillOpt는 에이전트 스킬을 “배포하고 끝나는 아티팩트”에서 “지속적으로 개선되는 살아있는 컴포넌트”로 전환하는 접근이다. +23.5 포인트라는 수치와 크로스 모델 전이성은 검토할 가치가 있다. 스킬 기반 에이전트 시스템을 운용하는 팀이라면 논문 전문을 읽어볼 만하다.

원문: https://arxiv.org/abs/2605.23904

SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

스킬은 손으로 만드는 것이었다

텍스트 공간 최적화

추론 시 오버헤드 없음

실험 결과

손 작성 스킬 vs. SkillOpt 스킬

ThakiCloud 스킬 시스템과의 연결

주의할 점

마치며

참고

보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)

코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)

Autogenesis: 에이전트가 스스로를 고치는 자기진화 프로토콜 (arXiv:2604.15034)

NVIDIA Nemotron-3-Ultra-550B: LatentMoE 하이브리드, 1M 컨텍스트, 한국어 지원 온프렘 분석