2025년 강화학습 포스트트레이닝 Top 10 리서치 동향: GLM-4.5부터 RLUF까지
⏱️ 예상 읽기 시간: 15분
서론: 2025년 강화학습 포스트트레이닝의 새로운 지평
2025년 상반기, 강화학습 기반 포스트트레이닝(RL Post-Training) 분야는 전례 없는 혁신의 물결을 맞고 있습니다. 단순한 인간 피드백 기반 강화학습(RLHF)을 넘어서, 에이전틱(Agentic) 능력 강화, 자기 피드백 학습, 그리고 안정성과 효율성을 동시에 추구하는 다양한 기법들이 등장했습니다.
이번 글에서는 2025년 4월 이후 발표된 강화학습 포스트트레이닝 분야의 핵심 연구 10편을 인기도와 영향력을 기준으로 선별하여 깊이 있게 분석하겠습니다. 각 연구의 핵심 아이디어부터 실무 적용 가능성까지, 현업에서 바로 활용할 수 있는 인사이트를 제공하는 것이 목표입니다.
특히 최근 주목받고 있는 GLM-4.5의 대규모 MoE 아키텍처와 RL 포스트학습 조합, Qwen팀이 제안한 GSPO의 시퀀스 단위 안정화 기법, 그리고 외부 라벨링 없이도 가능한 자기 피드백 학습 등은 업계의 패러다임을 바꿀 만한 혁신적 접근법들입니다.
1-5위: 혁신적 아키텍처와 안정화 기법들
1위: GLM-4.5 - 에이전틱 AI의 새로운 표준 (2025-08-08)
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models는 2025년 하반기 가장 주목받는 연구 중 하나입니다. 355B 파라미터의 Mixture of Experts(MoE) 아키텍처를 기반으로 한 이 모델은 대규모 강화학습 포스트트레이닝을 통해 에이전틱, 추론, 코딩 능력에서 벤치마크 상위권을 달성했습니다.
핵심 혁신점
GLM-4.5의 가장 중요한 혁신은 엔드투엔드 대규모 RL 포스트학습을 통한 에이전트 성능 향상입니다. 기존의 단순한 텍스트 생성 최적화를 넘어서, 복잡한 다단계 추론과 도구 사용이 필요한 에이전틱 태스크에 특화된 강화학습 프레임워크를 구축했습니다.
특히 TAU-Bench와 같은 에이전틱 벤치마크에서의 성능 평가 방식은 실무진들에게 새로운 KPI 설계 아이디어를 제공합니다. 단순한 정확도나 BLEU 스코어를 넘어서, 실제 에이전트의 도구 활용 효율성, 다단계 추론의 논리적 일관성, 그리고 사용자 의도 파악의 정확성을 종합적으로 평가하는 체계를 구축했습니다.
실무 적용 포인트
GLM-4.5의 연구 결과는 엔터프라이즈 환경에서 에이전틱 AI 시스템을 구축할 때 다음과 같은 시사점을 제공합니다:
- 벤치마크 설계: TAU-Bench 스타일의 다차원 평가 체계를 내부 KPI로 적용
- 훈련 파이프라인: MoE 아키텍처에서의 RL 안정성 확보 방안
- 성능 모니터링: 에이전트 행동의 질적 평가 지표 개발
2위: GSPO - 시퀀스 단위 안정화의 돌파구 (2025-07-24)
Group Sequence Policy Optimization (GSPO)는 Qwen팀이 제안한 혁신적인 안정화 기법으로, 기존 GRPO(Group Relative Policy Optimization)의 근본적 한계를 해결했습니다.
기술적 혁신의 핵심
GSPO의 핵심은 토큰 단위가 아닌 시퀀스 단위의 중요도 비율(importance ratio) 클리핑입니다. 수식으로 표현하면:
\[\text{GSPO Loss} = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \min\left( r_t(\tau) \cdot A(\tau), \text{clip}(r_t(\tau), 1-\epsilon, 1+\epsilon) \cdot A(\tau) \right) \right]\]여기서 \(r_t(\tau)\)는 시퀀스 \(\tau\)에 대한 중요도 비율이고, \(A(\tau)\)는 어드밴티지 함수입니다. 기존 토큰 단위 클리핑과 달리, 전체 시퀀스의 컨텍스트를 고려한 안정화가 가능합니다.
안정성 문제의 근본적 해결
GRPO의 주요 문제점이었던 훈련 발산(training divergence)과 성능 붕괴(performance collapse)를 시퀀스 레벨 클리핑으로 효과적으로 방지했습니다. 특히 대형 MoE 모델에서 자주 발생하는 그래디언트 폭발 현상을 안정적으로 제어할 수 있게 되었습니다.
실무 도입 가이드
GSPO는 현재 Qwen3 라인에 실제 적용되어 그 효과가 검증되었습니다. 실무진들은 다음과 같은 단계로 도입을 고려할 수 있습니다:
- 기존 GRPO 파이프라인 진단: 훈련 안정성 문제 여부 확인
- 시퀀스 단위 평가 지표 구축: 토큰 레벨을 넘어선 품질 평가
- 점진적 도입: 작은 모델부터 GSPO 적용 후 대형 모델로 확장
3위: GTPO & GRPO-S - 정밀한 크레딧 할당의 과학 (2025-08-18)
GTPO (Group Token Policy Optimization)와 GRPO-S는 강화학습에서 가장 어려운 문제 중 하나인 크레딧 할당(credit assignment) 문제를 정면으로 다룬 연구입니다.
크레딧 할당 문제의 본질
기존 GRPO 계열 알고리즘의 근본적 한계는 거친 크레딧 할당이었습니다. 긴 시퀀스에서 어떤 토큰이 최종 보상에 실제로 기여했는지 정확히 파악하기 어려웠던 것입니다. GTPO는 이를 엔트로피 가중 토큰 레벨 보상으로 해결합니다:
\[\text{GTPO Reward}(t) = r(\tau) \cdot \frac{H(\pi_{\theta}(a_t|s_t))}{\sum_{i=1}^{T} H(\pi_{\theta}(a_i|s_i))}\]여기서 \(H(\pi_{\theta}(a_t | s_t))\)는 시점 \(t\)에서의 정책 엔트로피입니다. 엔트로피가 높은 시점(불확실성이 큰 결정 지점)에 더 많은 크레딧을 할당하는 아이디어입니다. |
장문 추론에서의 혁신
특히 Chain-of-Thought(CoT) 추론에서 GTPO의 효과는 탁월합니다. “어디에 보상을 줘야 추론 능력이 향상되는가”라는 근본적 질문에 대한 수학적이고 실험적인 답을 제시했습니다.
GRPO-S는 GTPO의 경량 버전으로, 시퀀스 단위 근사를 통해 계산 복잡도를 줄이면서도 크레딧 할당의 정밀도를 유지합니다.
4위: RLSF - 자기 피드백의 혁명 (2025-07-29)
Reinforcement Learning from Self-Feedback (RLSF)는 외부 라벨링이나 보상 모델 없이도 강화학습을 가능하게 하는 혁신적 접근법입니다.
자기 신뢰 기반 보상 체계
RLSF의 핵심 아이디어는 모델 스스로의 확신도(confidence)를 내재적 보상으로 활용하는 것입니다. 모델이 자신의 출력에 대해 높은 확신을 보이면 양의 보상을, 낮은 확신을 보이면 음의 보상을 부여합니다.
확신도는 다음과 같이 계산됩니다:
\[\text{Confidence}(\tau) = \frac{1}{|\tau|} \sum_{t=1}^{|\tau|} \max_{a} P(a|s_t, \theta)\]이는 각 토큰 생성 시점에서의 최대 확률값들의 평균으로, 모델이 자신의 선택에 얼마나 확신하는지를 나타냅니다.
저비용 고효율 학습의 실현
RLSF의 가장 큰 장점은 비용 효율성입니다. 인간 라벨러나 별도의 보상 모델 훈련 없이도 즉시 적용 가능한 RL 파이프라인을 제공합니다. 특히 다음과 같은 환경에서 효과적입니다:
- 초기 스타트업: 충분한 라벨링 예산이 없는 경우
- 도메인 특화 태스크: 전문가 피드백 수집이 어려운 분야
- 프로토타이핑: 빠른 실험과 검증이 필요한 상황
5위: ReLIFT - RL과 SFT의 조화로운 협업 (2025-06-09)
Learning What Reinforcement Learning Can’t: RL ↔ Online FT Interleaving은 강화학습과 지도학습의 상호 보완적 관계를 체계적으로 분석한 연구입니다.
RL과 SFT의 역할 분담
ReLIFT의 핵심 통찰은 다음과 같습니다:
- 강화학습(RL): 기존 지식 범위 내에서의 분포 정렬과 성능 최적화에 특화
- 지도학습(SFT): 새로운 지식과 패턴 습득에 강점
이를 바탕으로 RL과 온라인 SFT를 교대로 수행하는 파이프라인을 제안했습니다:
- Phase 1: SFT로 새로운 지식/패턴 주입
- Phase 2: RL로 기존 분포 내에서 성능 최적화
- Phase 3: 성능 정체 구간 감지 시 다시 SFT로 전환
실무 운영 레시피
ReLIFT는 실무에서 흔히 겪는 “RL만으로는 성능이 늘지 않는 구간”에 대한 구체적인 해결책을 제시합니다. 자동 전환 포인트 설계를 위한 지표들을 다음과 같이 제안합니다:
- Learning Plateau Detection: 연속 N번의 에포크에서 성능 향상이 임계값 미만
- Knowledge Gap Identification: 새로운 태스크 패턴에서의 성능 저하 감지
- Distribution Shift Monitoring: 훈련 분포와 평가 분포 간의 격차 확대
6-10위: 효율성과 견고성을 추구하는 최신 기법들
6위: MGRPO - 자기 수정의 2단계 루프 (2025-06-05)
Multi-Layer GRPO (MGRPO)는 단일 단계 GRPO의 한계를 극복하기 위해 2단계 자기 수정 루프를 도입한 혁신적 접근법입니다.
2단계 자기 수정 메커니즘
MGRPO의 구조는 다음과 같습니다:
- 1단계 GRPO: 기본적인 정책 최적화 수행
- 2단계 GRPO: 1단계 출력을 입력으로 받아 자기 수정 수행
이는 수학적으로 다음과 같이 표현됩니다:
\[\pi_{\theta_2} = \arg\max_{\theta_2} \mathbb{E}_{\tau_1 \sim \pi_{\theta_1}} \left[ R(\text{SelfCorrect}(\tau_1)) \right]\]여기서 \(\text{SelfCorrect}\)는 1단계 출력을 개선하는 자기 수정 함수입니다.
수학 추론에서의 돌파
MGRPO는 특히 수학 추론 태스크에서 뛰어난 성능을 보입니다. 프로세스 레벨 감독 없이도 단계적 자기 수정을 통해 논리적 오류를 스스로 발견하고 교정하는 능력을 학습합니다.
이는 다음과 같은 시나리오에서 특히 유용합니다:
- 복잡한 다단계 추론: 중간 단계에서의 오류 자동 감지
- 수학적 증명: 논리적 비약이나 계산 실수 교정
- 코드 생성: 문법 오류나 논리 오류의 자동 수정
7위: 1-shot RLVR - 극소 데이터 학습의 가능성 (2025-04-29)
1-shot RLVR: Reinforcement Learning for Reasoning with One Training Example은 데이터 부족 환경에서도 효과적인 강화학습이 가능함을 실증한 연구입니다.
검증 가능한 보상의 힘
1-shot RLVR의 핵심은 검증 가능한 보상(Verifiable Reward)입니다. 정답이 명확하게 검증 가능한 태스크(수학 문제, 코딩 문제 등)에서는 단 하나의 예시만으로도 강화학습을 통한 추론 능력 향상이 가능함을 보였습니다.
검증 가능한 보상의 정의: \(R(\tau) = \begin{cases} 1 & \text{if } \text{Verify}(\tau) = \text{True} \\ 0 & \text{otherwise} \end{cases}\)
비용 효율적 학습 전략
이 접근법은 다음과 같은 상황에서 특히 유용합니다:
- 스타트업 환경: 제한된 라벨링 예산으로 최대 효과 추출
- 도메인 특화: 전문가 피드백이 비싸거나 구하기 어려운 분야
- 프로토타이핑: 빠른 개념 검증이 필요한 초기 단계
8위: UFT - SFT와 RFT의 통합 최적화 (2025-05-22)
Unifying Supervised and Reinforcement Fine-Tuning (UFT)는 지도학습과 강화학습을 별도 단계가 아닌 단일 통합 최적화 과정으로 정식화한 연구입니다.
통합 최적화의 수학적 기반
UFT는 SFT와 RFT를 다음과 같은 단일 목적 함수로 통합합니다:
\[\mathcal{L}_{\text{UFT}} = \alpha \mathcal{L}_{\text{SFT}} + (1-\alpha) \mathcal{L}_{\text{RFT}} + \beta \mathcal{L}_{\text{reg}}\]여기서:
- \(\mathcal{L}_{\text{SFT}}\): 지도학습 손실
- \(\mathcal{L}_{\text{RFT}}\): 강화학습 손실
- \(\mathcal{L}_{\text{reg}}\): 정규화 항
- \(\alpha, \beta\): 하이퍼파라미터
장기 추론의 샘플 복잡도 문제 해결
UFT의 이론적 기여는 장기 추론 태스크에서의 지수적 샘플 복잡도 병목을 해결한 것입니다. 기존의 순차적 SFT → RFT 파이프라인에서 발생하는 비효율성을 통합 최적화로 극복했습니다.
9위: RLUF - 실제 사용자 피드백의 활용 (2025-05-20)
Reinforcement Learning from User Feedback (RLUF)는 실제 서비스 환경에서 수집되는 암묵적 사용자 신호를 활용한 강화학습 프레임워크입니다.
암묵적 피드백의 체계화
RLUF는 다음과 같은 실제 사용자 행동을 보상 신호로 변환합니다:
- 좋아요/싫어요: 직접적 선호도 신호
- 체류 시간: 콘텐츠 품질의 간접 지표
- 재사용률: 장기적 만족도 측정
- 공유 행동: 사회적 승인의 신호
프로덕션 환경에서의 검증
RLUF는 실제 온라인 A/B 테스트에서 긍정적 피드백 28% 증가라는 구체적 성과를 달성했습니다. 이는 다음과 같은 프로덕션 루프로 구현되었습니다:
- 로그 수집: 사용자 행동 데이터 실시간 수집
- 보상 모델링: 암묵적 신호를 보상 점수로 변환
- 정책 업데이트: 멀티 오브젝티브 최적화로 정책 개선
- A/B 테스팅: 성능 변화 실시간 모니터링
10위: Robust RLHF - 노이즈 환경에서의 견고성 (2025-04-03)
Robust RLHF for LLM Fine-Tuning은 실제 현업 환경에서 발생하는 노이즈와 편향이 많은 피드백에 대응하는 견고한 학습 방법을 제안합니다.
Bradley-Terry 모델의 한계 극복
기존 RLHF의 기반인 Bradley-Terry(BT) 모델은 다음과 같은 가정을 합니다:
\[P(y_i \succ y_j) = \frac{\exp(r(y_i))}{\exp(r(y_i)) + \exp(r(y_j))}\]하지만 실제 환경에서는 이 가정이 자주 위반됩니다. Robust RLHF는 모델 미스스페시피케이션을 고려한 견고한 추정기를 제안합니다:
\[\hat{r}_{\text{robust}} = \arg\min_r \sum_{i,j} \rho\left(\ell(r(y_i) - r(y_j), \text{preference}_{i,j})\right)\]여기서 \(\rho\)는 견고성 함수(예: Huber loss)입니다.
실무 환경에서의 안정성 확보
Robust RLHF는 다음과 같은 현업 상황에서 특히 유용합니다:
- 크라우드소싱 라벨: 품질이 일정하지 않은 대량 피드백
- 다문화 환경: 문화적 편향이 존재하는 선호도 데이터
- 시간 변화: 사용자 선호도가 시간에 따라 변하는 상황
실무 적용을 위한 인사이트 맵
훈련 안정성 확보 전략
현업에서 RL 포스트트레이닝을 안정적으로 운영하기 위한 핵심 기법들:
- GSPO (시퀀스 클리핑): 대형 MoE 모델에서의 훈련 발산 방지
- MGRPO (2단계 자기 수정): 중간 출력의 품질 검증 및 개선
- Robust RLHF (견고한 추정): 노이즈가 많은 피드백 환경에서의 안정성
- GTPO/GRPO-S (정밀한 크레딧 할당): 장문 생성에서의 학습 효율성 향상
비용 최적화 방안
제한된 자원으로 최대 효과를 얻기 위한 전략들:
- RLSF (자기 피드백): 외부 라벨링 비용 제거
- 1-shot RLVR (극소 데이터): 검증 가능한 태스크에서의 효율적 학습
- ReLIFT (필요 구간만 데이터 수집): 성능 병목 구간 타겟팅
- RLUF (사용자 행동 활용): 기존 서비스 로그의 보상 신호 변환
SFT-RL 통합 파이프라인 설계
단일 또는 교차 파이프라인 구축을 위한 가이드라인:
- ReLIFT: RL ↔ SFT 교대 수행으로 각 방법의 강점 활용
- UFT: 단일 최적화 과정으로 통합하여 복잡도 감소
- 자동 전환 포인트: 성능 정체 감지 알고리즘 구현
- 멀티 오브젝티브: 품질, 안전성, 효율성의 균형 조절
에이전틱 성능 평가 체계
GLM-4.5의 벤치마크 설계를 참고한 KPI 구축:
- 도구 활용 효율성: API 호출 비용 대비 태스크 완료율
- 추론 품질: 다단계 논리의 일관성과 정확성
- 사용자 만족도: 실제 서비스에서의 피드백 품질
- 안전성 지표: 유해하거나 잘못된 행동의 빈도
결론: 2025년 RL 포스트트레이닝의 미래 전망
2025년 상반기 RL 포스트트레이닝 분야의 연구 동향을 분석한 결과, 몇 가지 명확한 패턴과 미래 방향성을 확인할 수 있습니다.
주요 트렌드 요약
1. 안정성의 우선순위화 GSPO, MGRPO, Robust RLHF 등 다수의 연구가 훈련 안정성에 집중하고 있습니다. 이는 RL 포스트트레이닝이 연구 단계를 넘어 실제 프로덕션 환경으로 확산되면서 신뢰성이 핵심 요구사항이 되었음을 의미합니다.
2. 비용 효율성의 추구 RLSF, 1-shot RLVR, RLUF 등은 모두 기존 라벨링 비용을 획기적으로 줄이는 방법들입니다. 대규모 언어모델의 상용화가 가속화되면서 경제적 지속가능성이 중요한 고려사항이 되었습니다.
3. 에이전틱 능력의 강조 GLM-4.5를 비롯한 최신 연구들은 단순한 텍스트 생성을 넘어 복잡한 추론과 도구 사용이 가능한 에이전틱 AI 구현에 집중하고 있습니다.
실무진을 위한 행동 지침
단기 적용 (3-6개월)
- 기존 GRPO 파이프라인이 있다면 GSPO로 업그레이드
- 자기 피드백 기반 RLSF 파일럿 프로젝트 시작
- 사용자 행동 로그를 활용한 RLUF 프레임워크 구축
중기 계획 (6-12개월)
- ReLIFT 스타일의 RL-SFT 통합 파이프라인 설계
- 에이전틱 성능 평가를 위한 내부 벤치마크 개발
- 멀티 오브젝티브 최적화 프레임워크 구현
장기 비전 (1-2년)
- UFT 기반의 완전 통합 학습 파이프라인 구축
- 도메인 특화 강화학습 프레임워크 개발
- 실시간 사용자 피드백 기반 온라인 학습 시스템 완성
기술적 도전과 기회
앞으로 해결해야 할 주요 기술적 과제들:
- 스케일링 법칙: 더 큰 모델에서의 RL 효율성 최적화
- 멀티모달 확장: 텍스트 이외 모달리티에서의 RL 적용
- 실시간 적응: 사용자 피드백에 즉시 반응하는 온라인 학습
- 안전성 보장: 강화학습 과정에서의 유해성 방지
2025년 하반기와 2026년에는 이러한 연구 성과들이 실제 상용 서비스에 본격 적용되면서, RL 포스트트레이닝이 AI 개발의 표준 프로세스로 자리 잡을 것으로 예상됩니다. 특히 에이전틱 AI와 개인화 서비스 분야에서는 이미 필수 기술로 인식되고 있습니다.
현업 개발자와 연구자들은 이번에 소개한 10가지 핵심 기법들을 각자의 환경과 요구사항에 맞게 선택적으로 적용하면서, RL 포스트트레이닝의 새로운 가능성을 탐험해 나가시기 바랍니다. 무엇보다 안정성과 비용 효율성을 동시에 확보하는 것이 성공적인 도입의 핵심이 될 것입니다.
참고 문헌
- GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models. arXiv:2508.06471
- Group Sequence Policy Optimization. arXiv:2507.18071
- GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy. arXiv:2508.04349
- Reinforcement Learning from Self-Feedback. arXiv:2505.23927
- Learning What Reinforcement Learning Can’t: Interleaved Online Fine-Tuning. arXiv:2506.07527
- Multi-Layer GRPO: Enhancing Reasoning and Self-Correction. arXiv:2506.04746
- Reinforcement Learning for Reasoning with One Training Example. arXiv:2504.20571
- UFT: Unifying Supervised and Reinforcement Fine-Tuning. arXiv:2505.16984
- Reinforcement Learning from User Feedback. arXiv:2505.14946
- Robust Reinforcement Learning from Human Feedback. arXiv:2504.03784