온프레미스 LLM 서빙의 가장 큰 장벽은 VRAM이었습니다. 12B 모델을 띄우려면 보통 고가의 데이터센터 GPU가 필요했습니다. 그런데 최근 커뮤니티 벤치마크는 다른 그림을 보여줍니다. Gemma 4 12B를 QAT(Quantization-Aware Training)와 TurboQuant 양자화로 RTX 4060 8GB에서 구동하면서, prefill 처리량과 긴 컨텍스트를 동시에 달성했다는 것입니다.

저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙을 다룹니다. 이 사례가 왜 컨슈머 GPU 추론 경제성의 변곡점인지, 그리고 무엇을 검증하고 무엇을 헷지해야 하는지 짚어보겠습니다.

사실 확인: 무엇이 공식이고 무엇이 자가 보고인가

먼저 신뢰도를 분리하는 것이 중요합니다.

  • Gemma 4와 QAT 릴리스는 공식 확인됨: Google이 Gemma 4 모델군과 QAT 버전을 공식 배포했습니다.
  • TurboQuant는 학계 발표 기반: TurboQuant는 ICLR 2026에 발표된 양자화 기법으로 확인됩니다.
  • 1000+ tok/s prefill 수치는 개인 벤치마크: 이 처리량 수치는 커뮤니티 작성자의 개인 환경 측정값으로, 공식 벤치마크가 아닙니다. [추정]으로 받아들이는 것이 정확합니다. 하드웨어·드라이버·배치 설정에 따라 크게 달라집니다.

이렇게 출처별 신뢰도를 명시하는 것이 데이터 과학자의 기본 위생입니다. 인상적인 수치일수록 출처를 분리해서 봐야 합니다.

QAT가 만드는 차이

QAT의 핵심은 양자화를 학습 시점에 반영한다는 것입니다. 일반적인 사후 양자화(PTQ)는 학습이 끝난 모델을 낮은 비트로 압축하는데, 이 과정에서 정확도 손실이 생깁니다. QAT는 학습 중에 양자화 노이즈를 모델이 학습하게 해서, 낮은 비트에서도 정확도를 보존합니다.

여기에 TurboQuant 같은 추가 양자화 기법이 얹히면, 메모리 풋프린트를 더 줄이면서 품질 저하를 억제할 수 있습니다. 결과적으로 8GB VRAM이라는 컨슈머 등급 메모리 안에 12B 모델과 긴 컨텍스트를 함께 넣는 것이 가능해집니다.

ThakiCloud 관점: 컨슈머 GPU 서빙의 함의

이 사례가 의미 있는 진짜 이유는 서빙 단가입니다. 데이터센터 GPU 한 장 값으로 컨슈머 GPU 여러 장을 살 수 있습니다. 양자화 인식 학습 덕분에 중형 모델이 컨슈머 GPU에서 실용 품질로 돌아가면, 온프레미스 추론의 비용 구조가 근본적으로 바뀝니다.

저희가 다루는 영역이 이 지점입니다. 양자화된 모델을 K8s 위에서 표준화해 서빙하고, Kueue로 GPU 워크로드를 큐잉하며, 이기종 GPU 풀(데이터센터 + 컨슈머)을 한 스케줄러 아래 두는 일입니다. 단일 머신에서 모델 하나를 띄우는 것과, 다수의 테넌트가 양자화 모델을 안정적으로 공유하게 하는 것은 다른 문제입니다. 메모리 격리, 처리량 보장, 품질 회귀 모니터링이 운영의 핵심 과제가 됩니다.

마치며

Gemma 4 12B를 8GB GPU에서 돌린 사례는 “양자화가 추론 경제성을 바꾼다”는 신호입니다. 단, 인상적인 처리량 수치는 출처를 분리해 [추정]으로 보고, 공식 릴리스와 개인 벤치를 구분해야 합니다. 양자화 모델을 조직 규모로 서빙하는 일에 관심 있는 엔지니어라면, 이런 서빙·스케줄링 문제가 매일의 과제인 곳입니다.


출처: Gemma 4 12B QAT + TurboQuant 컨슈머 GPU 커뮤니티 벤치마크. Gemma: https://ai.google.dev/gemma · TurboQuant(ICLR 2026). 처리량 수치는 작성자 개인 벤치 [추정].