보상 없이 스스로 진화하는 LLM 에이전트: 월드 노리지 탐색 기반 학습 (arXiv:2604.18131)
⏱️ 예상 읽기 시간: 8분
강화학습의 병목
LLM 에이전트를 새로운 환경에 적응시키는 표준 방법은 강화학습이다. 에이전트가 행동을 취하면 환경이 보상 신호를 돌려주고, 에이전트는 그 신호를 바탕으로 정책을 업데이트한다. 직관적이지만 비싸다. 보상 함수를 설계하는 데 도메인 전문 지식이 필요하고, 환경마다 따로 만들어야 하며, 수천 번의 탐색 에피소드가 필요하다.
arXiv:2604.18131 “Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration”은 이 병목을 다른 방향에서 우회한다. 외부 보상 신호를 없애고, 대신 에이전트 자신이 생성한 세계 지식(world knowledge)이 다운스트림 태스크 성능을 얼마나 높이는지를 훈련 신호로 삼는다.
핵심 아이디어: 지식이 곧 보상
논문의 출발점은 “좋은 에이전트는 좋은 세계 모델을 갖는다”는 가정이다. 새 환경을 만났을 때 적절히 행동하려면 그 환경에 대한 정확한 지식이 필요하다. 그렇다면, 에이전트가 환경을 탐색해서 스스로 생성한 지식의 품질을 훈련 신호로 쓸 수 있지 않을까.
구체적으로 논문이 제안하는 결과 기반 보상(outcome-based reward) 메커니즘은 이렇게 작동한다. 에이전트가 환경을 탐색해 세계 지식을 자체 생성한다. 그 지식으로 다운스트림 태스크를 수행했을 때 성능이 얼마나 나오는지 측정한다. 이 측정치가 훈련 신호가 된다. 사람이 만든 보상 함수가 없어도 된다.
훈련이 끝난 에이전트는 내부 파라미터만으로 자발적 자기진화를 수행할 수 있다. 새 환경을 탐색해 지식을 생성하고, 그 지식을 활용해 행동하는 사이클이 외부 개입 없이 돌아간다.
실험 결과: 숫자로 보는 성능
논문이 보고하는 수치 중 주목할 만한 것이 두 가지다.
웹 태스크 20% 향상: 이 방법으로 훈련한 에이전트는 웹 기반 태스크에서 기존 대비 20% 성능 향상을 달성했다. 웹 환경은 구조가 가변적이고, 새로운 UI 패턴이 계속 등장하기 때문에 일반화가 어려운 도메인이다. 이 환경에서 보상 신호 없이 20% 향상을 달성했다는 것은 방법론의 실용성을 보여준다.
Qwen3-14B가 Gemini-2.5-Flash를 초과: 더 눈에 띄는 결과다. 140억 파라미터 규모의 Qwen3-14B가 이 방법으로 훈련됐을 때 Gemini-2.5-Flash를 지원 없이 사용하는 버전보다 나은 성능을 보였다. 모델 크기 차이를 감안하면 방법론의 효과가 상당하다는 의미다.
다만 이 수치들은 초록에 기재된 값이며, 어떤 벤치마크에서 어떤 설정으로 측정했는지는 논문 본문을 참조해야 한다.
왜 이 접근이 의미 있나
기존 에이전트 적응 방법과 비교하면 차별점이 명확하다.
파인튜닝은 특정 도메인 데이터가 많아야 한다. 새 도메인에 들어갈 때마다 데이터를 수집하고 재훈련하는 사이클이 필요하다. 강화학습은 보상 함수 설계와 수천 번의 탐색 에피소드가 필요하다. 프롬프트 엔지니어링은 빠르지만 깊이가 얕다.
이 논문의 방법은 훈련 후에는 파라미터만으로 작동한다는 점이 실용적이다. 서빙 인프라 입장에서 보면, 별도의 보상 함수 서버나 외부 평가 API 없이도 에이전트가 새 환경에 자발적으로 적응한다. 에이전트 배포 후 지속적 유지보수 비용을 줄이는 방향이다.
한계와 열린 질문들
보상 없는 훈련이 가능한 이유는 에이전트가 생성하는 세계 지식 자체가 충분히 풍부하기 때문이다. 그러나 지식 생성 품질이 낮은 환경, 즉 탐색해도 유의미한 정보가 적거나 환경 피드백이 노이즈로 가득한 경우에는 훈련 신호 자체가 나빠질 수 있다.
또한 “자발적 자기진화”가 어떤 조건에서 수렴하고 어떤 조건에서 발산하는지, 초록만으로는 파악하기 어렵다. 실제 프로덕션 배포에서 자기진화 루프를 어떻게 감시하고 제어할지는 후속 연구와 엔지니어링 경험이 쌓여야 알 수 있다.
ThakiCloud 플랫폼 관점
ThakiCloud의 AI 플랫폼은 다양한 고객 환경에서 에이전트를 운용한다. 환경마다 보상 함수를 설계하고 재훈련하는 접근은 운영 비용이 높다. 이 논문의 방법론이 성숙하면 새 고객 환경에 에이전트를 투입할 때 최소한의 설정만으로 에이전트가 스스로 환경을 파악하고 적응하는 경로가 열린다.
특히 웹 자동화 에이전트 사례가 직접적인 참조점이다. 기업 고객들의 내부 포털, SaaS 도구, 레거시 시스템은 구조가 제각각이다. 보상 신호 없이 새 웹 환경에 적응하는 에이전트는 그 자체로 배포 가능한 제품이 된다.
단기적으로는 Qwen3-14B 수준의 모델을 이 방법으로 파인튜닝해 특정 도메인 에이전트로 만드는 실험이 실용적이다. 대형 모델 대비 훨씬 낮은 서빙 비용에서 경쟁력 있는 성능을 낼 수 있다면, 비용 효율 면에서 의미 있는 포지션이다.
마치며
“보상 없이 스스로 진화하는 에이전트”라는 개념은 이상적으로 들리지만, 이 논문은 구체적인 메커니즘과 실험 결과로 현실성을 보여준다. 에이전트 훈련의 병목이 보상 함수 설계와 탐색 비용에 있다면, 그 병목을 우회하는 경로가 하나 더 생긴 셈이다.
20% 웹 태스크 향상과 소형 모델의 대형 모델 초과라는 수치는 충분히 검토할 가치가 있다. 방법론의 일반화 범위와 한계를 파악하려면 논문 전문을 읽는 것이 다음 단계다.