STORM 방법론으로 박사급 리서치를 자동화하기: 4단계 지식 큐레이션 워크플로

리서치는 시간이 많이 드는 일입니다. 한 주제를 제대로 파려면 질문을 세우고, 여러 관점에서 자료를 모으고, 구조를 잡고, 인용을 단 결과물을 써야 합니다. 스탠퍼드 OVAL 연구실이 발표한 STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective question asking)은 이 과정을 LLM으로 자동화하는 지식 큐레이션 시스템입니다. NAACL 2024에서 발표되었고, 위키피디아 수준의 긴 글을 인용과 함께 처음부터 생성하는 것을 목표로 합니다.

저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼을 운영하면서 멀티에이전트 지식노동 워크플로를 직접 다뤄왔습니다. STORM의 설계가 실무 파이프라인에 어떻게 옮겨지는지, 그리고 왜 단순 “요약해줘” 프롬프트보다 구조적으로 나은지를 짚어보겠습니다.

STORM의 핵심: 작성 전 단계가 품질을 만든다

대부분의 LLM 글쓰기는 “주제를 주면 바로 본문을 쓴다”입니다. STORM이 다른 점은 작성 전(pre-writing) 단계에 집중한다는 것입니다. 사람 전문가가 글을 쓰기 전에 무엇을 하는지를 모사합니다.

STORM의 파이프라인은 크게 두 단계입니다.

다관점 질문 생성 + 개요 작성 — 주제를 여러 페르소나(관점)에서 바라보며 질문을 만들고, 각 질문에 대해 검색으로 근거를 모은 뒤, 그 결과를 종합해 계층적 개요를 잡습니다.
개요 기반 본문 작성 — 잡힌 개요를 따라 섹션별로 본문을 채우고, 검색된 근거를 인용으로 연결합니다.

핵심 통찰은 “다관점 질문하기”입니다. 단일 관점에서 질문하면 빠진 각도가 생기지만, 여러 페르소나가 각자의 관심사로 질문하면 커버리지가 넓어집니다. 이는 멀티에이전트 시스템에서 서로 다른 렌즈로 동일 문제를 검증하는 패턴과 정확히 같습니다.

4프롬프트 워크플로로 옮기기

전체 STORM 코드베이스(stanford-oval/storm)를 돌리지 않더라도, 그 방법론의 골격은 4단계 프롬프트 워크플로로 옮길 수 있습니다. 핵심은 “한 번에 다 시키지 않고, 단계를 분리하는 것”입니다.

1단계 — 관점 도출: 주제에 대해 서로 다른 이해관계자/전문가 페르소나를 3~5개 뽑게 합니다. 각 페르소나가 무엇을 가장 궁금해하는지를 명시합니다.
2단계 — 다관점 질문: 각 페르소나의 관점에서 구체적 질문을 생성하고, 각 질문에 대해 검색 가능한 근거를 수집합니다(웹검색/문서 인제스트 연동).
3단계 — 개요 합성: 수집된 근거를 종합해 계층적 개요를 만듭니다. 이때 중복을 제거하고 논리 순서를 잡습니다.
4단계 — 인용 본문 작성: 개요를 따라 본문을 작성하되, 모든 주장에 근거를 연결합니다.

각 단계를 분리하면 중간 산출물을 검증할 수 있습니다. 개요가 엉성하면 본문도 엉성하므로, 3단계에서 멈추고 고치는 것이 4단계 결과를 통째로 버리는 것보다 훨씬 쌉니다.

데이터 과학자 관점에서의 실무 가치

STORM이 단순 프롬프트 팁이 아니라 방법론으로 유용한 이유는 세 가지입니다.

단계 분리가 곧 검증 지점: 분해된 파이프라인은 각 단계에서 품질을 측정할 수 있습니다. 리서치 에이전트를 평가할 때, 최종 보고서 품질 한 줄이 아니라 “질문 커버리지”, “근거 인용률”, “개요 일관성”을 단계별로 보아야 병목이 보입니다.
다관점 = 커버리지 엔진: 검색을 더 많이 돌리는 것보다, 질문하는 관점을 다양화하는 것이 빠진 영역을 메우는 데 효과적입니다. 이는 검색 도구 개수가 아니라 질의 전략의 다양성이 진짜 다양성 엔진이라는 실무 경험과 일치합니다.
인용 강제가 환각을 줄인다: 모든 주장을 검색된 근거에 묶으면, 모델이 지어내는 여지가 줄어듭니다. 단, 근거 URL이 실제로 도달 가능한지는 코드로 검증해야 합니다. 모델이 인용을 날조하지 않게 하는 가드는 별도로 필요합니다.

ThakiCloud 관점: 지식 워크플로를 인프라로 다루기

저희는 이런 다단계 리서치 파이프라인을 K8s 위에서 재현 가능하게 운영하는 일을 다룹니다. 각 단계를 독립 작업으로 분리하면, 검색·합성·작성을 서로 다른 모델 등급에 라우팅할 수 있습니다. 탐색은 싼 모델로, 합성과 판단은 강한 모델로 배분하는 식입니다. 비용과 품질을 분리하는 이 설계가 멀티에이전트 지식노동의 핵심입니다.

STORM의 메시지는 분명합니다. 좋은 리서치 자동화는 “더 똑똑한 모델”이 아니라 “더 좋은 작성 전 단계 설계”에서 나옵니다. 작성하기 전에 질문하고, 조사하고, 구조를 잡으십시오. 그 다음에 쓰십시오.

출처: STORM — Synthesis of Topic Outlines through Retrieval and Multi-perspective question asking, Stanford OVAL Lab (NAACL 2024). GitHub: https://github.com/stanford-oval/storm

STORM 방법론으로 박사급 리서치를 자동화하기: 4단계 지식 큐레이션 워크플로

STORM의 핵심: 작성 전 단계가 품질을 만든다

4프롬프트 워크플로로 옮기기

데이터 과학자 관점에서의 실무 가치

ThakiCloud 관점: 지식 워크플로를 인프라로 다루기

참고

에이전트 스킬 라이브러리로 실증 연구를 자동화하기: 스탠퍼드 REAP 사례와 그 한계

스킬 하나로는 안 풉니다: SkillWeaver가 보여준 컴포지셔널 스킬 라우팅과 분해의 병목

TPU v2부터 Ironwood까지: 5세대로 본 구글 트레이닝 슈퍼컴퓨터의 진화

URL 한 글자로 논문을 재현하기: alphaXiv autoresearch와 GPU 재현성 자동화