순간적으로 흩어지는 퍼블릭 클라우드와 암반에 뿌리내린 프라이빗 인프라가 대비되는 추상 이미지

오늘이 마감입니다. Anthropic의 최상위 모델인 Fable 5가 6월 22일까지만 구독 플랜에 무료로 포함되고, 23일부터는 포함 한도에서 빠집니다. 이후로 Fable 5를 쓰려면 종량제 크레딧을 따로 사야 합니다. 개발자 커뮤니티에서 이 소식이 빠르게 퍼졌고, 저희도 그냥 지나칠 수 없는 신호로 봤습니다.

이 글은 Anthropic의 결정을 비판하려는 글이 아닙니다. 프런티어 모델을 외부 구독에 의존할 때 어떤 구조적 위험이 따라오는지, 그리고 온프레미스 서빙 사업자인 저희가 왜 이 사건을 “소싱 전략을 다시 보라”는 메시지로 읽는지를 정리하려는 글입니다.

무슨 일이 있었나

사실관계부터 정리하겠습니다.

  • Fable 5는 6월 22일까지 Pro, Max, Team, 그리고 좌석제 Enterprise 플랜에 추가 비용 없이 포함됩니다.
  • 6월 23일부터는 포함 한도에서 제외되고, 계속 쓰려면 사용량 크레딧이 필요합니다.
  • 크레딧은 표준 API 요금으로 차감됩니다. Fable 5는 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러 수준으로, 캐시된 읽기에는 90% 할인이 적용됩니다.

Anthropic이 밝힌 이유는 용량입니다. “Fable 5 수요가 매우 높고 예측하기 어려울 것으로 본다”는 것입니다. 회사는 용량이 허락하면 포함 기간을 연장하겠다고 했고, 가능한 한 빨리 Fable 5를 다시 구독의 표준 구성으로 되돌리는 것이 목표라고 덧붙였습니다.

요약하면, 어제까지 정액 구독으로 쓰던 모델이 오늘을 기점으로 토큰당 과금 대상이 됩니다. 사용자 입장에서는 비용 구조가 하루아침에 바뀌는 셈입니다.

왜 이런 일이 생기나

이것은 Anthropic만의 문제가 아니라 프런티어 모델 전반의 구조적 특성입니다.

가장 강력한 모델은 가장 비싼 추론 비용을 동반합니다. Fable 5의 토큰 단가는 같은 회사의 Opus 4.8(입력 5달러, 출력 25달러)의 두 배입니다. 정액 구독으로 이런 모델을 무제한에 가깝게 풀면, 헤비 유저의 사용량이 폭증할 때 제공자가 떠안는 GPU 비용이 비선형으로 늘어납니다. 수요가 예측 불가능할수록 정액제는 제공자에게 위험한 베팅이 됩니다.

그래서 제공자는 두 가지 레버를 씁니다. 하나는 정액 한도를 조이는 것이고, 다른 하나는 종량제로 비용을 사용자에게 넘기는 것입니다. 이번 결정은 후자에 가깝습니다. 나쁜 의도가 아니라 용량 경제학의 자연스러운 귀결입니다. 문제는 그 변동성이 사용자의 통제 밖에 있다는 점입니다.

LLM 소싱 전략에 주는 교훈

여기서 운영자가 가져가야 할 교훈은 분명합니다. 단일 상용 구독에 핵심 워크로드를 묶어 두면, 그 워크로드의 비용과 가용성을 제공자의 정책에 위임하는 것입니다.

오늘은 무료였던 기능이 내일은 종량제가 됩니다. 한도가 조정되고, 모델이 폐기 예고되고, 지역별 가용성이 달라집니다. 이런 변화가 나쁘다는 뜻이 아니라, 우리가 통제할 수 없는 변수라는 뜻입니다. 비용을 예측해야 하는 사업이라면 이 변동성 자체가 리스크입니다.

대응은 헤지입니다. 모든 것을 한 모델, 한 제공자에 걸지 않는 것입니다. 일부 워크로드는 상용 API의 최신 성능을 쓰되, 비용에 민감하거나 데이터가 민감한 워크로드는 우리가 통제하는 오픈웨이트 모델로 받치는 구성입니다. 이렇게 하면 한쪽의 정책 변화가 전체 운영을 흔들지 못합니다.

ThakiCloud 관점: 온프레미스가 헤지가 되는 이유

저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙을 다룹니다. 이번 같은 사건이 생길 때마다 저희가 강조하는 것은 단순합니다. 가중치를 우리가 통제하는 인프라에 두면, 가격과 가용성을 우리가 정합니다.

오픈웨이트 모델을 온프레미스나 프라이빗 클라우드에서 직접 서빙하면 세 가지가 달라집니다. 첫째, 토큰당 한계비용이 GPU 운영비로 고정되어 외부 요금 정책에 흔들리지 않습니다. 둘째, 모델이 갑자기 한도에서 빠지거나 폐기될 걱정이 없습니다. 가중치를 이미 보유하고 있기 때문입니다. 셋째, 데이터가 경계 밖으로 나가지 않으므로 주권 요건을 충족합니다. 히어로 이미지에서 암반에 뿌리내린 인프라로 표현하려 한 지점이 바로 이것입니다.

물론 가장 까다로운 추론에는 여전히 프런티어 상용 모델이 우위일 수 있습니다. 저희가 말하는 것은 “상용을 버리라”가 아니라 “전부를 상용에 걸지 말라”입니다. 정책 변동에 면역을 가진 기반 위에서, 필요할 때 최신 성능을 얹는 구조가 가장 견고합니다. 그 기반을 깔아 드리는 것이 저희가 하는 일입니다.

한계 및 반론

반대 입장도 정직하게 짚겠습니다.

  • 많은 팀에게는 구독형 상용 모델이 여전히 가장 합리적입니다. 자체 GPU 인프라와 운영 인력을 갖추는 비용이, 종량제 요금보다 클 수 있기 때문입니다. 사용량이 일정 규모를 넘기 전까지 온프레미스는 과투자가 될 수 있습니다.
  • 이번 변경은 일시적일 가능성이 있습니다. Anthropic은 용량이 확보되면 Fable 5를 다시 구독에 포함하겠다고 밝혔습니다. 한 번의 정책 조정을 구조적 위험으로 일반화하는 것은 과장일 수 있습니다.
  • 오픈웨이트 모델을 직접 서빙한다고 변동성이 사라지는 것은 아닙니다. 하드웨어 고장, 모델 업데이트, 운영 인력 이탈은 또 다른 형태의 리스크입니다. 헤지는 리스크를 없애는 것이 아니라 분산하는 것입니다.

종합하면, 오늘의 사건은 작은 정책 변경이지만 시사점은 작지 않습니다. 핵심 AI 워크로드의 비용과 가용성을 누구의 손에 맡길 것인가라는 질문을 다시 던지게 만들기 때문입니다. 저희의 답은 한쪽에 전부를 걸지 않는 것이고, 그 균형을 잡는 한 축이 온프레미스 오픈웨이트 서빙입니다.

출처