753B 오픈웨이트를 소비자 GPU에서: GLM-5.2와 온프레미스 LLM 서빙 경제성
753B 파라미터 모델을 소비자 GPU 한 장에서 돌린다는 것은 몇 년 전이라면 상상하기 어려운 일이었습니다. 최근 공유된 사례는 SOTA 오픈웨이트 모델 GLM-5.2(753B, FP8)를 RTX 4090 소비자 GPU에서 처음 구동했다고 보고합니다. 약 10 tok/s 수준이지만, 핵심은 처리량이 아니라 “돌아간다”는 사실 자체입니다.
저희 ThakiCloud는 K8s 기반 AI/ML SaaS 플랫폼에서 모델 서빙을 다룹니다. 이 사례가 온프레미스 대형 LLM 서빙 경제성에 던지는 함의를 짚어보겠습니다.
무엇이 가능하게 만들었나: 희소 어텐션 커널 이식
대형 모델을 작은 GPU에 욱여넣는 데에는 두 가지 기술이 결합됩니다.
- FP8 양자화: 8비트 부동소수점으로 가중치를 표현해 메모리 풋프린트를 줄입니다.
- DSA 희소 어텐션 커널의 Ada 아키텍처(sm_89) 이식: GLM-5.2의 DSA(희소 어텐션) 커널을 RTX 4090의 Ada Lovelace 아키텍처(컴퓨트 능력 sm_89)에 맞춰 이식했습니다. 희소 어텐션은 모든 토큰 쌍을 계산하지 않고 중요한 부분만 계산해, 긴 컨텍스트에서 연산과 메모리를 절약합니다.
약 10 tok/s라는 처리량은 프로덕션 서빙에는 느리지만, 이 수치는 작성자의 단일 환경 측정값이므로 [추정]으로 보는 것이 정확합니다. 중요한 것은 “전용 데이터센터 GPU 없이도 753B 모델을 구동하는 경로가 열렸다”는 점입니다.
데이터 과학자/엔지니어 관점에서의 의미
- 커널 이식이 곧 접근성: 모델이 새 어텐션 메커니즘을 쓸 때, 그 커널을 다양한 GPU 아키텍처로 이식하는 작업이 접근성을 결정합니다. SOTA 모델이 나와도 커널이 특정 하드웨어에만 묶여 있으면 생태계가 좁아집니다.
- 희소성이 긴 컨텍스트를 푼다: DSA 같은 희소 어텐션은 긴 컨텍스트 서빙의 연산·메모리 비용을 낮추는 핵심 기법입니다. 컨텍스트가 길어질수록 밀집 어텐션의 비용은 제곱으로 늘지만, 희소 어텐션은 이를 완화합니다.
- 처리량은 트레이드오프: 10 tok/s는 큰 모델을 작은 하드웨어에 넣은 대가입니다. 실제 서빙에서는 모델 크기, 하드웨어, 처리량의 트레이드오프를 워크로드 성격에 맞춰 선택해야 합니다.
ThakiCloud 관점: 온프레미스 대형 LLM 서빙
이 사례가 의미 있는 진짜 이유는 데이터 주권과 서빙 옵션의 확장입니다. 민감한 도메인에서는 753B급 SOTA 모델을 외부 API에 보내지 않고 사내에서 돌리려는 수요가 분명히 존재합니다. 단일 소비자 GPU에서의 10 tok/s는 데모 수준이지만, 이를 다수의 GPU로 확장하고 배치·텐서 병렬을 적용하면 실용 처리량에 도달할 수 있습니다.
저희가 다루는 영역이 이 지점입니다. 대형 오픈웨이트 모델을 K8s 위에서 다중 GPU로 샤딩해 서빙하고, Kueue로 GPU 자원을 배분하며, 희소 어텐션 커널 같은 모델별 최적화를 표준화된 서빙 스택에 통합하는 일입니다. 단일 머신 데모를 멀티테넌트 프로덕션 서빙으로 키우는 것이 핵심 과제입니다.
마치며
GLM-5.2를 RTX 4090에서 돌린 사례는 “대형 SOTA 모델의 온프레미스 서빙 경로가 열렸다”는 신호입니다. 커널 이식과 희소 어텐션이 접근성을 만들고, 양자화가 메모리를 푸는 구조입니다. 이를 조직 규모의 서빙 인프라로 확장하는 일에 관심 있는 엔지니어라면, 이런 문제가 매일의 과제인 곳입니다.
출처: GLM-5.2(753B, FP8) RTX 4090 구동 커뮤니티 사례. 처리량 약 10 tok/s는 작성자 단일 환경 [추정]. GLM 모델군 정보는 Zhipu AI/Z.ai 공식 자료 참조.