코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)

⏱️ 예상 읽기 시간: 8분

서베이가 정리한 질문

에이전트 시스템을 구축하다 보면 반복되는 패턴이 있다. 에이전트가 환경과 상호작용하는 방식, 계획을 세우고 수정하는 방식, 여러 에이전트가 협력하는 방식. 이 패턴들이 흩어진 논문과 시스템 곳곳에 묻혀 있다.

arXiv:2605.18747 “Code as Agent Harness”는 이 패턴들을 하나의 프레임으로 묶는다. 핵심 주장은 코드가 AI 에이전트 시스템의 기반 인프라로 작동한다는 것이다. 코드가 에이전트와 추론 엔진을 연결하고, 환경과의 인터페이스를 정의하고, 멀티에이전트 조율을 가능하게 한다. 이를 세 계층으로 체계화해서 분석한 서베이다.

3계층 프레임워크

1계층: 하네스 인터페이스

첫 번째 계층은 에이전트가 추론 엔진(LLM)과 환경 사이에 어떻게 위치하는지를 다룬다. 코드는 여기서 두 방향의 인터페이스를 동시에 정의한다.

LLM 방향으로는 모델이 받아야 할 입력 형식, 생성해야 할 출력 형식, 호출 가능한 툴의 시그니처를 정의한다. 환경 방향으로는 파일 시스템, API, 데이터베이스, GUI, 외부 서비스와 상호작용하는 실행 레이어를 담당한다.

이 인터페이스 계층이 잘 설계되면 에이전트 로직과 실행 환경이 분리된다. 에이전트 로직을 건드리지 않고 실행 환경을 교체할 수 있고, 테스트 환경과 프로덕션 환경을 동일한 에이전트 코드로 구동할 수 있다.

2계층: 하네스 메커니즘

두 번째 계층은 에이전트가 복잡한 태스크를 수행할 때 사용하는 메커니즘들을 다룬다. 계획 수립(planning)과 적응 제어(adaptive control)가 중심이다.

계획은 장기 목표를 단기 실행 가능한 단계로 분해하는 과정이다. 코드 기반 하네스에서 계획 결과물 자체가 실행 가능한 코드 형태로 나올 때 장점이 있다. 계획과 실행 사이의 번역 비용이 줄어든다.

적응 제어는 실행 중 발생하는 예외와 실패를 처리하는 방식이다. 에이전트가 계획대로 실행하다가 예상치 못한 상황을 만나면 어떻게 대응하는가. 재시도, 대안 경로 탐색, 사람에게 에스컬레이션 등의 패턴이 여기에 속한다.

3계층: 멀티에이전트 조율

세 번째 계층은 여러 에이전트가 협력하는 방식을 다룬다. 단일 에이전트로 해결하기 어려운 태스크를 여러 에이전트에 분배하고, 결과를 집약하고, 에이전트 간 의존성을 관리한다.

코드가 하네스 역할을 할 때 멀티에이전트 조율이 자연스럽게 표현된다. 각 에이전트를 함수나 서비스처럼 다루고, 조율 로직을 일반 프로그래밍 패턴으로 작성할 수 있다.

응용 영역

서베이는 코딩 어시스턴트, GUI 자동화, 과학적 발견, 기업 워크플로를 주요 응용 영역으로 분석한다.

코딩 어시스턴트: 코드 생성, 버그 수정, 테스트 작성을 에이전트가 수행하는 영역이다. 코드 실행 결과가 즉각적인 피드백 신호가 되기 때문에 에이전트 학습에 유리한 환경이다.

GUI 자동화: 브라우저, 데스크탑 앱, 모바일 앱을 에이전트가 직접 조작하는 영역이다. 화면 요소 인식과 상호작용 코드 생성이 핵심이다.

과학적 발견: 실험 설계, 데이터 분석, 결과 해석을 에이전트가 보조하는 영역이다. 반복 실험과 가설 검증에서 코드 기반 하네스가 유용하다.

기업 워크플로: 여러 SaaS 서비스와 내부 시스템을 연결하는 자동화다. API 통합과 데이터 흐름 관리가 주를 이룬다.

미해결 과제들

서베이가 식별한 열린 과제들이 현실적이다.

평가 방법: 에이전트 성능을 어떻게 측정하는가. 단일 태스크 정확도만으로는 부족하다. 새 환경 적응 속도, 실패 복구 능력, 자원 효율 등 다차원 평가가 필요하다.

검증 전략: 에이전트가 생성한 코드와 계획이 의도한 대로 작동하는지 어떻게 보장하는가. 실행 전 정적 분석, 샌드박스 실행, 형식 검증 등의 조합이 논의된다.

안전성: 에이전트가 의도하지 않은 부작용을 일으키는 것을 어떻게 막는가. 권한 관리, 실행 격리, 취소 메커니즘이 핵심이다.

ThakiCloud 플랫폼 관점

이 서베이의 3계층 프레임워크는 ThakiCloud가 에이전트 플랫폼을 설계할 때 유용한 참조점이다.

현재 ai-platform-strategy 저장소의 구조를 보면 이 계층들이 이미 암묵적으로 존재한다. .claude/skills/ 아래 스킬 정의가 하네스 인터페이스에 해당하고, scripts/ 아래 실행 코드가 하네스 메커니즘을 구현하며, 오케스트레이터 스킬들이 멀티에이전트 조율을 담당한다.

차이가 있다면, 이 구조가 명시적 아키텍처 결정보다 점진적으로 형성됐다는 점이다. 서베이의 프레임워크를 적용해 현재 구조를 평가하면 어디가 잘 설계됐고 어디가 취약한지 파악하기 쉬워진다.

하네스 인터페이스 관점에서: 스킬 YAML 프론트매터가 툴 시그니처를 정의하는 방식이 일관성이 있는지 점검할 수 있다. skill-description-quality 룰이 이 부분을 이미 다루고 있다.

하네스 메커니즘 관점에서: pge-loop와 dev-loop가 적응 제어 메커니즘을 구현하고 있다. 실패 감지, 재시도, 에스컬레이션 경로가 명확히 정의됐는지 확인할 지점이다.

멀티에이전트 조율 관점에서: 55개 전문 서브에이전트가 존재하지만, 에이전트 간 의존성 그래프가 명시적으로 관리되는지가 확장성의 관건이다.

마치며

“Code as Agent Harness”는 에이전트 시스템을 처음 설계하는 팀에게 유용한 지도다. 어떤 문제를 어느 계층에서 다뤄야 하는지, 어떤 패턴이 검증됐는지, 어떤 문제가 아직 열려 있는지를 정리한다.

서베이 논문의 한계도 있다. 각 영역을 폭넓게 다루다 보니 특정 설계 결정에 대한 깊은 분석은 원저 논문을 따로 찾아야 한다. 하지만 에이전트 인프라를 체계적으로 이해하는 출발점으로서 가치가 있다.

원문: https://arxiv.org/abs/2605.18747

코드가 에이전트 하네스다: AI 에이전트 인프라의 세 계층 구조 (arXiv:2605.18747)

서베이가 정리한 질문

3계층 프레임워크

1계층: 하네스 인터페이스

2계층: 하네스 메커니즘

3계층: 멀티에이전트 조율

응용 영역

미해결 과제들

ThakiCloud 플랫폼 관점

마치며

참고

SkillOpt: 에이전트 스킬을 훈련 가능한 텍스트 컴포넌트로 최적화하다 (arXiv:2605.23904)

보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)

Autogenesis: 에이전트가 스스로를 고치는 자기진화 프로토콜 (arXiv:2604.15034)

NVIDIA Nemotron-3-Ultra-550B: LatentMoE 하이브리드, 1M 컨텍스트, 한국어 지원 온프렘 분석