Chain of Agents: 긴 컨텍스트 작업을 위한 대규모 언어모델 협업 연구

⏱️ 예상 읽기 시간: 12분

서론

대규모 언어모델(LLM)의 눈부신 발전에도 불구하고, 긴 컨텍스트를 효과적으로 처리하는 것은 여전히 중요한 도전 과제로 남아있습니다. Google Cloud AI Research와 Penn State University가 공동으로 발표한 “Chain of Agents: Large Language Models Collaborating on Long-Context Tasks” 논문은 이러한 문제를 해결하기 위한 혁신적인 접근법을 제시합니다.

이 연구는 단순히 컨텍스트 윈도우를 확장하거나 입력을 축소하는 기존 방법론의 한계를 넘어서, 멀티에이전트 협업을 통한 자연스러운 정보 통합과 추론을 가능하게 하는 Chain-of-Agents(CoA) 프레임워크를 소개합니다. 본 포스트에서는 이 논문의 핵심 내용을 단락별로 상세히 분석하고, 그 의미와 기여도를 깊이 있게 살펴보겠습니다.

연구 배경 및 문제 정의

긴 컨텍스트 처리의 근본적 문제

현재 대규모 언어모델들이 직면한 긴 컨텍스트 처리 문제는 단순히 기술적 한계를 넘어서는 근본적인 인지적 도전을 포함하고 있습니다. 질문 답변, 문서 요약, 대화 요약, 코드 완성과 같은 실제 응용 시나리오에서는 전체 도서나 긴 기사를 포함하는 극도로 긴 컨텍스트가 요구되는 경우가 빈번합니다.

이러한 상황에서 LLM들은 두 가지 주요한 한계에 직면하게 됩니다. 첫째, 컨텍스트 윈도우의 물리적 제약으로 인해 전체 정보를 한 번에 처리할 수 없는 문제가 있습니다. 둘째, 설령 기술적으로 전체 컨텍스트를 처리할 수 있다 하더라도, 긴 문맥에서 필요한 정보에 집중하는 능력이 현저히 떨어지는 “lost in the middle” 현상이 발생합니다.

기존 해결책들의 한계 분석

연구진은 기존 접근법들을 크게 두 가지 범주로 분류하여 각각의 한계를 명확히 제시합니다. 입력 축소(Input Reduction) 방식은 Truncation이나 RAG(Retrieval-Augmented Generation)와 같은 방법을 통해 입력 길이를 줄여 LLM의 처리 범위 내로 맞추려고 시도합니다. 그러나 이 방식은 근본적으로 필요한 정보가 포함되지 않을 위험성을 내포하고 있으며, 특히 검색 정확도가 낮을 경우 불완전한 컨텍스트로 인해 성능이 저하됩니다.

윈도우 확장(Window Extension) 방식은 Claude-3와 같이 200K 토큰까지 처리할 수 있도록 컨텍스트 윈도우를 확장하는 접근법입니다. 하지만 윈도우가 길어질수록 LLM이 작업 해결에 필요한 핵심 정보에 집중하는 능력이 급격히 떨어지며, 비효율적인 컨텍스트 활용으로 인한 성능 저하가 발생합니다.

Chain-of-Agents 방법론 상세 분석

인간 중심적 접근법의 철학

Chain-of-Agents 프레임워크의 핵심 아이디어는 인간이 긴 문서를 처리하는 방식에서 영감을 얻었습니다. 인간은 긴 텍스트를 읽을 때 순차적으로 정보를 처리하면서 중요한 내용을 기억하고, 이를 바탕으로 전체적인 이해를 구축해 나갑니다. CoA는 이러한 자연스러운 정보 처리 과정을 멀티에이전트 시스템으로 구현하여, 각 에이전트가 인간의 인지 과정처럼 순차적으로 정보를 읽고 처리하며 다음 에이전트에게 유용한 정보를 전달하는 방식으로 작동합니다.

2단계 협업 프로세스

CoA는 명확히 구분되는 두 단계로 구성됩니다. 1단계: 워커 에이전트 협업에서는 긴 컨텍스트를 여러 청크로 분할하고, 각 청크를 담당하는 워커 에이전트들이 순차적으로 작업을 수행합니다. 각 워커는 이전 워커로부터 받은 메시지와 자신이 담당한 텍스트 청크를 함께 처리하여, 쿼리 답변에 필요한 증거를 수집하고 집계합니다. 이 과정에서 중요한 것은 각 워커가 단순히 독립적으로 작업하는 것이 아니라, 이전 워커의 처리 결과를 바탕으로 점진적으로 정보를 축적해 나간다는 점입니다.

2단계: 매니저 에이전트 통합에서는 마지막 워커 에이전트로부터 완전한 증거와 정보를 받은 매니저 에이전트가 최종 응답을 생성합니다. 매니저는 워커들이 수집한 모든 정보를 종합적으로 분석하여 일관성 있는 최종 답변을 도출하는 역할을 담당합니다.

기존 방법론과의 근본적 차이점

CoA가 기존 방법론들과 구별되는 가장 중요한 특징은 “interleaved read-process” 방식입니다. 입력 축소 방식이 “read-then-process” 패턴으로 축소된 입력을 먼저 읽은 후 처리하는 반면, CoA는 각 청크를 읽으면서 동시에 처리하는 방식을 채택합니다. 이는 일반적인 요약이나 문단 계수와 같은 작업에서 입력 축소 방식이 겪는 문제들을 효과적으로 해결할 수 있습니다.

또한 윈도우 확장 방식이 많은 토큰을 단일 LLM에 집약시키려 하는 반면, CoA는 커뮤니케이션 능력을 활용하는 더 자연스러운 해결책을 제시합니다. 이는 각 LLM이 처리할 수 있는 한계가 있으며, 복잡한 컨텍스트 작업은 항상 이러한 한계를 초과할 수 있다는 현실적 가정에 기반합니다.

실험 설계 및 성능 평가

포괄적 실험 환경

연구진은 CoA의 성능을 검증하기 위해 매우 포괄적인 실험 환경을 구축했습니다. 9개의 데이터셋을 사용하여 질문 답변, 요약, 코드 완성 등 다양한 작업 유형을 포함했으며, 6개의 서로 다른 LLM(PaLM 2, Gemini, Claude 3 포함)을 활용하여 모델 의존성을 최소화하고 일반화 성능을 검증했습니다.

실험에서 사용된 데이터셋들은 각각 서로 다른 특성을 가지고 있어 CoA의 다양한 측면을 평가할 수 있도록 설계되었습니다. HotpotQA와 같은 멀티홉 질문 답변 데이터셋은 여러 문서에서 정보를 통합하는 능력을 평가하며, NarrativeQA는 긴 스토리에서의 독해 능력을 측정합니다. QMSum과 같은 요약 데이터셋은 긴 대화나 회의록을 효과적으로 요약하는 능력을 평가하고, RepoBench-P는 대규모 코드베이스에서의 코드 완성 능력을 검증합니다.

강력한 베이스라인과의 비교

연구진은 CoA의 성능을 검증하기 위해 두 가지 강력한 베이스라인을 선택했습니다. RAG 베이스라인은 최신 검색기를 사용하여 가장 관련성 높은 정보를 LLM에 제공하는 방식을 대표하며, Full-Context (Vanilla) 베이스라인은 윈도우 한계까지 모든 입력을 LLM에 직접 제공하는 방식을 나타냅니다.

특히 주목할 점은 연구진이 멀티에이전트 방식에 대한 기존 연구가 부족함을 인식하고, 추가적으로 계층적 구조 기반 멀티에이전트 시스템과 결과 병합 방식 등 두 가지 멀티에이전트 베이스라인을 직접 구현하여 비교했다는 것입니다. 이는 CoA가 단순히 멀티에이전트 방식이기 때문이 아니라, 특별한 설계 철학과 구조로 인해 우수한 성능을 보인다는 것을 증명하기 위함입니다.

주요 실험 결과 및 성능 분석

전반적 성능 향상

실험 결과는 CoA의 우수성을 명확하게 보여줍니다. 모든 9개 데이터셋에서 CoA는 모든 베이스라인 대비 유의미한 성능 향상을 달성했으며, 최대 10%까지의 개선을 기록했습니다. 이는 단순한 수치적 개선을 넘어서, 긴 컨텍스트 처리에서 멀티에이전트 협업 방식이 가진 근본적 우위를 입증하는 결과입니다.

특히 인상적인 것은 이러한 성능 향상이 다양한 LLM과 작업 유형에 걸쳐 일관되게 나타났다는 점입니다. 이는 CoA가 특정 모델이나 작업에 국한된 솔루션이 아니라, 긴 컨텍스트 처리의 일반적 문제를 해결하는 범용적 프레임워크임을 시사합니다.

비용 효율성 분석

성능 향상과 함께 CoA는 계산 복잡도 측면에서도 상당한 이점을 제공합니다. Full-Context 방식의 시간 복잡도가 n²(n은 입력 토큰 수)인 반면, CoA는 nk(k는 LLM의 컨텍스트 한계)로 현저히 낮은 복잡도를 보입니다. 이는 실제 운영 환경에서 중요한 고려사항인 비용 효율성 측면에서 CoA가 가진 실용적 가치를 잘 보여줍니다.

구체적 사례 분석

논문에서 제시된 구체적 예시들은 CoA의 작동 방식을 생생하게 보여줍니다. HotpotQA 데이터셋 예시에서는 “Gary L. Bennett이 참여한 우주 임무의 주요 목적지는 어떤 천체인가?”라는 질문에 대해, 워커 에이전트들이 순차적으로 Bennett의 다양한 우주 임무 참여 이력을 수집하고, 특히 Ulysses 임무가 태양의 극지 탐사를 목적으로 했다는 핵심 정보를 찾아내어 최종적으로 “태양”이라는 정확한 답변을 도출하는 과정을 보여줍니다.

QMSum 데이터셋 예시에서는 산업 구성요소에 대한 토론을 요약하는 과정에서, 워커들이 점진적으로 정보를 축적하며 티타늄과 고무 소재 선택, 버튼 디자인, 음성 인식 기술 등 다양한 논의 사항들을 체계적으로 정리하는 모습을 확인할 수 있습니다.

모델 강건성 및 일반화 성능

다양한 LLM에서의 일관된 성능

CoA의 가장 인상적인 특징 중 하나는 다양한 LLM 아키텍처에서 일관된 성능 향상을 보인다는 점입니다. PaLM 2, Gemini, Claude 3 등 서로 다른 특성을 가진 모델들에서 모두 유사한 수준의 개선을 달성했다는 것은, CoA가 특정 모델의 특성에 의존하지 않는 일반적인 해결책임을 의미합니다.

컨텍스트 윈도우 크기에 대한 강건성

연구진은 Claude 3 Haiku를 사용한 추가 실험을 통해 CoA가 다양한 컨텍스트 윈도우 크기에서도 안정적인 성능을 보인다는 것을 확인했습니다. 이는 실제 운영 환경에서 다양한 하드웨어 제약이나 비용 고려사항으로 인해 서로 다른 윈도우 크기를 사용해야 하는 상황에서도 CoA가 유연하게 적용될 수 있음을 시사합니다.

해석 가능성 및 투명성

인간이 이해 가능한 협업 과정

CoA의 또 다른 중요한 장점은 높은 해석 가능성입니다. 각 워커 에이전트의 처리 과정과 매니저 에이전트의 최종 통합 과정이 모두 자연어로 표현되어, 사용자가 결과 도출 과정을 명확히 이해하고 검증할 수 있습니다. 이는 AI 시스템의 신뢰성과 투명성이 중요한 현실적 응용에서 매우 가치 있는 특성입니다.

오류 진단 및 개선 가능성

워커들의 순차적 정보 처리 과정이 모두 가시화되기 때문에, 잘못된 답변이 도출된 경우 어느 단계에서 오류가 발생했는지 추적하고 개선할 수 있습니다. 이는 시스템의 지속적인 개선과 품질 관리에 있어 실용적인 이점을 제공합니다.

한계점 및 향후 연구 방향

프롬프트 설계의 중요성

연구진이 인정하는 주요 한계점 중 하나는 CoA가 프롬프트 기반 접근법이라는 점입니다. 새로운 LLM에 적용할 때 최적의 성능을 위해서는 세심한 프롬프트 설계가 필요하며, 이는 시스템의 일반화에 제약이 될 수 있습니다. 하지만 이는 현재 대부분의 LLM 기반 시스템이 공통적으로 직면하는 문제이기도 합니다.

API 호출 증가와 지연 시간

멀티에이전트 시스템의 특성상 단일 에이전트 방식보다 더 많은 API 호출이 필요하며, 이는 네트워크 트래픽 증가와 지연 시간 증가로 이어질 수 있습니다. 특히 실시간 응답이 중요한 애플리케이션에서는 이러한 지연이 사용자 경험에 영향을 줄 수 있습니다.

확장성 고려사항

현재 연구에서는 상대적으로 제한된 수의 워커 에이전트를 사용했지만, 훨씬 더 긴 컨텍스트를 처리하기 위해 워커 수를 대폭 늘릴 경우의 성능과 효율성에 대한 추가 연구가 필요합니다.

실용적 의미 및 산업 적용 가능성

기업 환경에서의 활용 전망

CoA는 기업 환경에서 긴 문서 처리가 필요한 다양한 작업에 직접 적용될 수 있는 잠재력을 가지고 있습니다. 법률 문서 분석, 기술 문서 요약, 대규모 보고서 처리 등의 영역에서 기존 방법론보다 우수한 성능을 제공할 수 있을 것으로 예상됩니다.

연구 개발 환경에서의 가치

학술 연구나 R&D 환경에서 방대한 문헌 조사나 코드베이스 분석이 필요한 경우, CoA의 체계적인 정보 처리 방식이 연구자들의 생산성을 크게 향상시킬 수 있습니다.

결론 및 향후 전망

Chain-of-Agents는 긴 컨텍스트 처리라는 LLM의 근본적 한계를 해결하기 위한 혁신적이고 실용적인 접근법을 제시합니다. 인간의 인지 과정에서 영감을 얻은 멀티에이전트 협업 방식은 기존 방법론들의 한계를 효과적으로 극복하면서도 높은 해석 가능성과 비용 효율성을 제공합니다.

이 연구는 단순히 새로운 기술적 해결책을 제시하는 것을 넘어서, LLM 시스템 설계에 대한 패러다임 전환을 제안합니다. 단일 모델의 능력을 극한까지 확장하려는 시도보다는, 여러 모델의 협업을 통한 집단 지능의 활용이 더 효과적이고 현실적인 접근법일 수 있음을 보여줍니다.

향후 이 연구는 더 큰 규모의 에이전트 협업, 동적 에이전트 할당, 그리고 다양한 전문 영역에 특화된 에이전트 구성 등의 방향으로 발전할 수 있을 것입니다. 또한 실제 운영 환경에서의 최적화와 다양한 산업 분야로의 적용을 통해 그 가치가 더욱 입증될 것으로 기대됩니다.

논문 정보

제목: Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
저자: Yusen Zhang, Ruoxi Sun, Yanfei Chen, Tomas Pfister, Rui Zhang, Sercan Ö. Arik
소속: Penn State University, Google Cloud AI Research
출판: arXiv:2406.02818
링크: https://arxiv.org/pdf/2406.02818