
들어가며: “이제 파인튜닝 안 해도 되는 것 아닌가요”
요즘 AI 플랫폼을 만들거나 파는 사람이라면 한 번쯤 이런 질문을 받았을 것입니다. 프론티어 모델이 이렇게 좋아졌고, 스킬과 에이전트 스캐폴딩으로 도메인 지식을 주입할 수 있는데, 굳이 돈과 시간을 들여 모델을 따로 학습할 이유가 있느냐는 질문입니다. 저희도 같은 질문을 스스로에게 던졌습니다. 그래서 2026년 6월 5일부터 7월 5일까지, 딱 한 달 동안 발행된 소스만으로 이 질문을 검증해 봤습니다.
방법은 단순합니다. 파인튜닝 무용론의 근거, 생존론의 근거, 시장과 벤더의 움직임, 실무자 담론이라는 네 갈래로 나눠 조사한 뒤, 방향 결정에 하중이 실리는 핵심 주장 여섯 건을 별도의 반증 검증으로 다시 확인했습니다. 여섯 건 중 네 건이 확정, 두 건이 부분 확정이었고 반증된 것은 없었습니다. 이 글은 그 검증을 통과한 사실만으로 씁니다.
결론부터 말하면 이렇습니다. 파인튜닝이라는 상품은 죽어가는 것이 맞습니다. 그런데 죽는 것은 셀프서브 SFT API라는 특정 세그먼트이고, 같은 기술이 모델 소유권과 에이전트 워커 경제학이라는 다른 상품으로 재편되며 오히려 프리미엄화되고 있습니다.
무엇이 실제로 죽고 있는가
가장 상징적인 사건은 OpenAI의 결정입니다. OpenAI는 2026년 5월 7일 신규 조직의 파인튜닝 작업 생성을 차단한다고 공지했고, 7월 2일부터는 60일 이상 비활성 조직의 접근을 막는 단계로 넘어갔으며, 2027년 1월 6일에는 기존 활성 고객까지 포함해 신규 파인튜닝 작업 생성을 완전히 종료할 예정입니다. 이미 만들어진 파인튜닝 모델의 추론은 베이스 모델이 폐기되기 전까지 유지되지만, 새로 학습을 돌리는 길은 닫힙니다.
주목할 부분은 예외 조항입니다. 강화학습 기반 파인튜닝인 RFT는 이번 폐쇄에서 별도 트랙으로 분리되어 유지됩니다. 지도학습 파인튜닝은 접으면서 검증 가능한 보상이 있는 고가치 커스터마이징은 남긴 셈입니다. Anthropic은 애초에 공개 API에서 셀프서브 파인튜닝을 열지 않았고, 폴더 구조로 도메인 지식을 동적으로 로드하는 Agent Skills를 표준 경로로 밀고 있습니다. 두 최상위 모델 벤더가 같은 방향을 가리키고 있는 것입니다.
가격 신호도 같은 이야기를 합니다. Together AI와 Fireworks AI의 LoRA 파인튜닝 가격 경쟁은 이 구간이 이미 커머디티가 되어 마진이 얇아졌다는 뜻입니다. 셀프서브로 가볍게 돌리는 지도학습 파인튜닝은 기술적으로 어렵지 않게 되었고, 그래서 사업으로서의 매력을 잃었습니다.
그런데 스킬이 만능이라는 근거도 없습니다
체감과 달리, 스킬이 파인튜닝을 보편적으로 대체한다는 학술 근거는 아직 약합니다. 이번 윈도우 안에 제출된 SkillJuror 연구는 스킬을 구조화해 제공하는 방식이 플랫 방식 대비 검증 통과율을 4.1%포인트 올린다는 것을 보였습니다. 효과는 실재하지만 크지 않습니다. 조금 앞선 배경 연구인 SkillsBench는 더 흥미로운 결과를 담고 있습니다. 잘 큐레이션된 스킬은 평균 통과율을 16.2%포인트 올리지만 도메인별 편차가 마이너스부터 플러스 51.9%포인트까지 극단적으로 갈리고, 84개 태스크 중 16개에서는 오히려 성능이 떨어졌습니다. 결정적으로 모델이 스스로 작성한 스킬은 평균적으로 효과가 없었습니다.
즉 “스킬이면 다 된다”는 명제는 사람이 정성껏 큐레이션한 스킬을 맞는 도메인에 적용했을 때만 성립하는 조건부 명제입니다. 스킬 큐레이션 비용은 공짜가 아니며, 그 비용이 파인튜닝 대비 항상 싸다는 보장도 없습니다. 참고로 동일 태스크셋에서 파인튜닝 모델과 스킬을 얹은 프론티어 모델을 나란히 비교한 벤치마크는 이번 윈도우 안에서 찾지 못했습니다. 이 공백은 양쪽 진영 모두에게 남아 있는 숙제입니다.
6월 한 달, 정반대 방향의 신호들
같은 한 달 동안 파인튜닝과 모델 소유권 쪽으로도 강한 신호가 쏟아졌습니다. 전부 독립 소스로 교차 확인된 사건들입니다.
첫째, 프론티어 API 의존의 지정학 리스크가 실측 사건이 되었습니다. 2026년 6월 12일 미국 정부의 수출통제 지시로 Anthropic은 Fable 5와 Mythos 5 모델을 전 세계 대상으로 비활성화했습니다. 실시간 국적 필터링이 불가능해 해외 고객만이 아니라 사실상 모든 사용자가 영향을 받았고, 해제까지 19일이 걸렸습니다. 프론티어 API 하나에 핵심 업무를 올려둔 기업이라면 6월에 19일짜리 교훈을 얻은 셈입니다.
둘째, 오픈웨이트 생태계는 파인튜닝을 전제로 설계되고 있습니다. 6월 4일 발표된 NVIDIA Nemotron 3 Ultra는 총 550B에 활성 55B인 MoE 구조로, LoRA SFT와 풀 SFT, GRPO 강화학습 레시피를 기본 제공합니다. 라이선스인 OpenMDW-1.1은 파인튜닝 파생 모델의 상업화와 재배포를 명시적으로 허용합니다. 우리 데이터로 튜닝한 모델을 소유하고 판매하라는 것이 라이선스 설계의 목표입니다. 6월 29일에는 Palantir와 NVIDIA가 에어갭 환경 안에서 오픈웨이트를 파인튜닝해 운영하는 소버린 AI 결합 상품을 내놨습니다. EU에서는 공공 워크로드에 주권 보증 등급을 매기는 법안이 발의되었고, 국내에서도 소버린 AI 사업이 진행형입니다.
셋째, 파인튜닝 워커의 실전 승리 사례가 나왔습니다. 법률 AI 기업 Harvey와 Fireworks가 공개한 벤치마크에서, SFT만 적용한 Kimi K2.6 단독 모델이 100개 태스크 기준 전체 통과율 15%로 Claude Opus 4.7 단독의 14%를 넘었고 비용은 약 11.4배 저렴했습니다. 파인튜닝 워커에 프론티어 모델을 선택적으로 호출하는 하이브리드 구성은 18%로 가장 높았습니다. 벤더 자체 벤치마크라는 한계는 있지만, 좁은 도메인에서 파인튜닝 워커와 프론티어 에스컬레이션을 조합하면 품질과 비용을 동시에 잡을 수 있다는 실전 근거입니다.
넷째, 작은 모델의 도메인 우위는 여전히 재현됩니다. 6월 11일 공개된 논문에서 Mistral-7B를 QLoRA로 파인튜닝한 모델이 바이오메디컬 클레임 검증에서 GPT-4o와 GPT-5 대비 F1 기준 최대 12%포인트 우위를 보였습니다. 학습 샘플은 단 1,008개였습니다.
시장은 세 갈래로 재편되고 있습니다
이 신호들을 겹쳐 보면 시장은 죽느냐 사느냐의 이분법이 아니라 세 갈래로 갈라지고 있습니다.
flowchart TB
A["파인튜닝 시장<br/>2026년 재편"] --> B["갈래 1<br/>셀프서브 SFT API"]
A --> C["갈래 2<br/>소유형 소버린 커스텀 모델"]
A --> D["갈래 3<br/>RL 파인튜닝과 워커 경제학"]
B --> B1["축소 국면<br/>OpenAI 단계적 폐쇄<br/>LoRA 가격 커머디티화"]
C --> C1["프리미엄화<br/>에어갭 파인튜닝 상품<br/>주권 등급제 법안<br/>파인튜닝 전제 라이선스"]
D --> D1["신규 성장<br/>RFT는 별도 트랙 유지<br/>파인튜닝 워커 + 프론티어 에스컬레이션"]
C1 --> E["모델 소유권이 상품"]
D1 --> E
갈래 1인 셀프서브 SFT API는 축소 국면입니다. 프론티어 모델의 긴 컨텍스트와 네이티브 툴콜, 구조화 출력이 과거 파인튜닝의 존재 이유였던 포맷 준수와 도메인 어휘 문제를 상당 부분 흡수했습니다. 갈래 2인 소유형 커스텀 모델은 프리미엄 서비스로 재편되고 있습니다. API로 가볍게 튜닝하는 시대는 끝나지만, 기업이 모델을 소유하고 통제하는 무거운 커스터마이징은 오히려 몸값이 오르고 있습니다. 갈래 3은 에이전트 시대가 만드는 신규 수요입니다. 오케스트레이터가 좋아질수록 반복 서브태스크를 담당할 저비용 워커의 호출량이 늘고, 그 슬롯마다 프론티어를 부르면 비용이 감당되지 않습니다.
파인튜닝이 확실히 이기는 다섯 가지 조건
검증된 사례들을 패턴으로 정리하면, 다음 조건이 겹칠수록 파인튜닝의 승산과 투자 대비 효과가 함께 올라갑니다.
- 좁고 반복적인 태스크에 출력 포맷이 고정되어 있을 때. 분류, 검증, 구조화 추출이 대표적이며 1,008개 샘플로 12%포인트 우위를 만든 사례가 이 유형입니다.
- 검증 가능한 보상이 존재할 때. GRPO나 RFT를 적용할 수 있는 환경 피드백이 있다면 지도학습보다 유리하며, OpenAI가 SFT를 접으면서 RFT만 남긴 이유이기도 합니다.
- 호출 빈도가 높고 비용과 지연이 지배적인 제약일 때. 에이전트 워커 슬롯이 여기 해당하고, 11.4배 비용 차이는 규모가 커질수록 결정적입니다.
- 데이터 주권, 규제, 폐쇄망 요구가 있을 때. 공공, 금융, 방산 영역은 애초에 외부 API 선택지가 제한됩니다.
- 프론티어 API 자체가 공급 리스크일 때. 19일 셧다운 사건이 보여줬듯 수출통제와 정책 변경은 더 이상 가상의 시나리오가 아닙니다.
반대로 오픈도메인 추론, 최신 지식, 롱테일 처리에서 파인튜닝 모델이 프론티어를 이겼다는 근거는 이번 윈도우에서 찾지 못했습니다. 그 영역은 스킬과 프론티어 모델에 양보하는 것이 정직한 판단입니다.
ThakiCloud 제품 관점에서의 시사점
이 재편 구도는 저희가 만드는 두 제품의 방향과 정확히 맞물립니다.
ai-platform 관점에서 보면, 갈래 2와 3이 요구하는 것은 결국 고객 폐쇄망 안에서 도는 학습과 서빙 인프라입니다. ThakiCloud의 ai-platform은 Kubernetes와 Kueue 기반 GPU 스케줄링 위에서 SFT, CPT, DPO, GRPO, GKD 다섯 종의 학습 파이프라인을 운용합니다. 이번 리서치에서 시장이 프리미엄을 인정하기 시작한 두 축이 검증 가능한 보상 기반의 GRPO와, 프론티어 출력을 소형 모델로 옮기는 증류라는 점은 저희에게 중요한 확인이었습니다. 온프레미스와 소버린 요구가 커질수록 파인튜닝은 API 기능이 아니라 인프라 역량의 문제가 되고, 그 지점이 저희가 서 있는 자리입니다.
Paxis 관점에서는 이번 결론이 스킬과 파인튜닝의 역할 분담을 명확하게 해 줍니다. Paxis는 ThakiCloud의 Agent-Native Cloud 제어 평면으로, 960개 이상의 스킬을 BM25로 선택해 격리 샌드박스에서 실행하고 모든 행동을 정책 게이트와 감사 로그로 통과시킵니다. 스킬 벤치마크가 보여준 교훈, 즉 스킬은 잘 큐레이션될 때만 효과가 있고 자가 생성 스킬은 신뢰할 수 없다는 결론은 Paxis가 스킬 큐레이션과 검증 루프에 투자해 온 방향이 맞았다는 근거이기도 합니다. 동시에 에이전트 플릿의 반복 서브태스크에는 파인튜닝 워커가 경제적이라는 Harvey 사례의 패턴은, 스킬 기반 오케스트레이션과 파인튜닝 워커가 경쟁 관계가 아니라 한 아키텍처의 두 층이라는 것을 보여줍니다. 프론티어를 버리는 것이 아니라 아껴 쓰는 설계입니다.
한계 및 반론
이 분석이 틀릴 수 있는 시나리오도 세워 두어야 합니다. 가장 강한 반론은 텍스트 공간 최적화의 발전 속도입니다. 배경 연구로 분류했지만, Microsoft Research의 SkillOpt는 모델 가중치를 건드리지 않고 스킬 문서를 롤아웃 기반으로 최적화하는 것만으로 19에서 25%포인트의 성능 향상을 얻었습니다. 이 계열이 성숙하면 좁은 태스크의 정확도 우위라는 파인튜닝의 마지막 영토마저 잠식될 수 있습니다. 그 경우에도 살아남는 것은 학습 기능이 아니라 고객 소유 모델을 폐쇄망에서 서빙하고 운영하는 인프라 계약입니다. 실제로 이번 윈도우의 시장 신호에서도 부가가치가 학습보다 서빙 레이어로 이동하는 흐름이 관찰되었습니다.
또 하나의 한계는 데이터 자체에 있습니다. Harvey 벤치마크는 벤더 자체 발표이고, 파인튜닝 수요의 감소나 증가를 직접 보여주는 정량 시장 데이터는 이번 윈도우에서 확보하지 못했습니다. OpenAI의 폐쇄는 공급 측 결정이지 수요 감소의 직접 증거가 아니라는 점도 구분해서 읽어야 합니다.
맺으며
“파인튜닝이 필요 없어졌다”는 체감은 절반만 맞습니다. 커머디티 SFT는 실제로 저물고 있지만, 2026년 6월 한 달의 검증된 사건들은 모델 소유권과 워커 경제학이라는 두 방향으로 파인튜닝이 재편되고 있음을 보여줍니다. 질문을 바꿔야 할 때입니다. “파인튜닝을 할 것인가”가 아니라 “어떤 조건에서 모델을 소유할 것인가”가 2026년 하반기의 올바른 질문이라고 생각합니다.
참고 자료
- NVIDIA Debuts Nemotron 3 Family of Open Models (NVIDIA Newsroom, 2026-06-04)
- Nemotron 3 Ultra 기술 보고서 (arXiv:2606.15007)
- Small LLMs for Biomedical Claim Verification (arXiv:2606.12854, 2026-06-11)
- US orders Anthropic to disable AI models for all foreign nationals (Al Jazeera, 2026-06-13)
- Anthropic says Trump admin has lifted export controls (CNBC, 2026-06-30)
- SAGE-OPD: 선택적 on-policy 증류 (arXiv:2606.19659, 2026-06-17)
- SkillJuror (arXiv:2606.11543, 2026-06)
- How Harvey & Fireworks Beat Closed Source on Cost + Quality (Fireworks AI Blog)
- OpenAI is winding down the fine-tuning API (OpenAI Developer Community)
- Linux Foundation Releases OpenMDW-1.1 (Linux Foundation, 2026-05-28)
- SkillsBench (arXiv:2602.12670, 배경)
- SkillOpt: Agent skills as trainable parameters (Microsoft Research, 배경)