최종 업데이트 2025년 6월 4일

대규모 언어 모델(LLM) API는 지난 1년 동안 폭발적으로 증가했어요. 제공사들은 컨텍스트 윈도우, 백만 토큰당 가격, 그리고 기능 깊이(멀티모달 지원, 체인 오브 쏘트 제어, 툴 사용 등)를 두고 경쟁 중이에요. 창업자와 엔지니어가 자신들의 워크로드에 맞는 모델을 선택할 수 있도록, 저는 대표적인 7개 모델을 세 가지 티어로 묶어 비교했어요.

1 · 엔터프라이즈 파워하우스 🦾

폐쇄형 가중치 모델로, 추론·비전·멀티모달 영역에서 전천후 성능과 초대형 컨텍스트 윈도우를 제공해요.

모델 컨텍스트 윈도우 (입력/출력) 가격 $/백만 토큰 (입력 / 출력) 주요 차별점
Gemini 2.5 Pro Preview (Google DeepMind) 1 M / 65 K $1.25 / $10 오디오·비디오까지 지원하는 SOTA 멀티모달, 새로운 웹·앱 코딩 실력, 초당 ~148 토큰 처리
OpenAI o3 200 K / 100 K $10 / $40 “보이는” 체인 오브 쏘트, 추론 토큰 수 조절, 최상급 툴 호출·함수 호출 기능
Claude 4 Opus (Anthropic) 200 K $15 / $75 최상의 추론 성능, 하이브리드 추론 토글, 강력한 안전·컴플라이언스
Claude 4 Sonnet (Anthropic) 200 K / 64 K $3 / $15 가격 대비 성능 균형, 50 % 배치 비용 절감, 120 K 토큰 고속 인제스트

왜 이 티어를 선택할까요?

  • 복잡하고 고부가가치 작업(금융 분석, 장문 코드 생성, 멀티모달 에이전트)에 적합해요.
  • 200 K 토큰 이상의 컨텍스트나 풀스택 툴 통합이 필요할 때 좋아요.
  • 백만 토큰당 $1–40 지출이 가능한 예산이라면 선택해도 좋아요.

2 · 오픈 가중치 챌린저 🛠️

오픈 라이선스 체크포인트와 저렴한 가격 덕분에 파인튜닝이나 온프레미스 배포에 유리해요.

모델 컨텍스트 윈도우 가격 $/백만 토큰 (입력 / 출력) 주요 차별점
DeepSeek‑R1 64 K $0.55(캐시 미스) / $0.14(캐시 히트) / $2.19 출력 MIT 라이선스 가중치 & 6종 distilled 모델, RL 기반 추론으로 OpenAI o1 급 성능
Qwen 3 Plus (Alibaba) 131 K $0.40 / $1.20 119개 언어 지원, 온더플라이 하이브리드 추론 모드, 에이전트 지향 API

왜 이 티어를 선택할까요?

  • 데이터 민감 워크로드로 자체 호스팅이 필요할 때 좋아요.
  • 파인튜닝 자유도가 높아서 맞춤형 모델이 필요할 때 유리해요.
  • 배치 작업에서 비용 민감할 때: 프리미엄 API 대비 2–10배 저렴해요.

3 · 가볍고 빠른 모델 🚀

저비용‧고속 시나리오를 위해 설계됐지만 현대적 컨텍스트 크기는 그대로 유지해요.

모델 컨텍스트 윈도우 가격 $/백만 토큰 (입력 / 출력) 주요 차별점
Grok 3 Mini (xAI) 131 K $0.30 / $0.50 엣지 친화적 속도, “fun‑mode” 브랜드 보이스, 131 K 컨텍스트를 톱티어 모델 대비 10분의 1 가격에 제공

왜 이 티어를 선택할까요?

  • 지연(latency)과 토큰 비용이 성능보다 중요한 실시간 채팅이나 모바일 에이전트에 적합해요.
  • 제한된 예산으로 LLM 기능을 탐색하는 MVP 단계에서 좋아요.

Reasoning LLM이란?

대형 언어 모델(LLM)이 “문장을 예측”하는 수준을 넘어, 사고 흐름(Chain-of-Thought, CoT) 자체를 학습하도록 설계·훈련된 모델을 통칭해 Reasoning LLM 또는 Large Reasoning Model (LRM) 이라 부릅니다.

이들은 내부적으로 토큰을 ‘생성’하기 전에 토큰 단위의 숨겨진 메모리에 논리 전개를 적재하고, 필요하면 ‘사고 예산(thinking-tokens)’을 늘려가며 스스로 문제를 풀어 나갑니다. 그래서 수학 계산·코드 작성·추론형 분석에서 기존 LLM보다 정답률·설명력·안정성이 확연히 높습니다.

핵심 요약 🔑

  1. 컨텍스트는 이제 상향평준화되고 있어요. 저가 모델도 100 K+ 윈도우를 제공해요.
  2. 가격 차이가 100배까지 벌어져요. 티어 선택을 잘못하면 추론 비용이 크게 늘어요.
  3. 오픈 가중치가 곧 저품질은 아니에요. DeepSeek‑R1과 Qwen‑Plus는 MMLU 0.80 이상을 기록하면서도 가격을 대폭 낮췄어요.
  4. 멀티모달이 다음 전장이에요. Gemini 2.5 Pro와 OpenAI o3는 이미지·오디오, Gemini는 비디오 스트림까지 지원해요.
  5. 하이브리드 추론 토글이 중요해요. “생각 시간”(토큰 수)을 조절해 지연과 깊이를 상황에 맞게 균형 잡을 수 있어요.

모델 선택 가이드

결정 요소 스스로에게 물어볼 것 추천 그룹
예산 한도 백만 토큰당 $5 이상 쓸 수 있나요? 면 파워하우스, 아니오면 챌린저/라이트웨이트
배포 방식 온프레미스나 맞춤 파인튜닝이 필요하나요? 챌린저
입력 모달리티 이미지/비디오/오디오가 필요하나요? 파워하우스 (Gemini 2.5 Pro, OpenAI o3)
지연 시간 1초 미만 응답이 필수인가요? 라이트웨이트 (Grok 3 Mini)

맺음말

LLM 판도는 매달 변하고 있어요. 엔터프라이즈 파워하우스가 여전히 절대적인 벤치마크를 장악하지만, 오픈 가중치 챌린저와 라이트웨이트 모델이 가격·성능 격차를 빠르게 줄이고 있어요. 대부분의 스타트업은 DeepSeek‑R1로 대량 처리하고, Gemini 2.5 Pro로 프리미엄 사용자 경로를 처리하는 하이브리드 스택으로 최고의 가성비를 얻을 수 있어요.

추가 질문이나 파인튜닝·호스팅 비용에 대한 깊은 논의가 필요하면 댓글로 알려주세요!