온프렘 멀티테넌트 GPU 클러스터에서 스펙큘레이티브 디코딩이 손해로 바뀌는 순간

이 글을 누가 읽으면 좋은가

이 글은 사내외에서 LLM 추론 서빙을 직접 운영하는 엔지니어, 특히 여러 고객이나 모델을 하나의 GPU 클러스터에 함께 태우는 멀티테넌트 환경을 다루는 분들을 위해 씁니다. 스펙큘레이티브 디코딩을 이미 알고 있고, “우리 클러스터에 적용했을 때 실제로 이득이 날까”를 판단해야 하는 실무자를 염두에 두었습니다. 결론부터 말하면, 답은 하드웨어가 얼마나 비어 있는지에 달려 있고, 그 판단은 드래프트 모델이 아니라 스케줄러가 내려야 합니다.

개념 다이어그램

개념 다이어그램

문제의식: 성공 사례가 전제하는 조건이 우리 조건과 다르다

스펙큘레이티브 디코딩은 지금 LLM 서빙 지연을 줄이는 가장 기본적인 수단입니다. 작고 값싼 드래프트 모델이 다음 토큰 후보 여러 개를 미리 제안하면, 타깃 모델이 이를 한 번의 순전파로 검증합니다. 인터랙티브 워크로드의 일반적인 배치 크기에서 디코드 단계는 메모리 대역폭에 묶여 연산 유닛이 놀고 있는 경우가 많은데, 검증 작업이 바로 이 유휴 연산력을 채워 넣기 때문에 채택된 토큰은 순차 생성보다 훨씬 싸게 생성됩니다. 최근에는 선형 드래프트에서 트리 드래프트로, 그리고 병렬 트리 드래프팅까지 발전하면서 채택 토큰 수율이 계속 올라갔습니다. 이 논문이 직접 겨냥하는 선행 연구인 JetSpec은 병렬 트리 드래프팅으로 초당 1,000토큰이 넘는 처리량을 보고했습니다.

문제는 이 모든 속도 향상이 하나의 전제 위에 서 있다는 점입니다. 검증을 숨겨 줄 연산 여유가 존재한다는 전제입니다. 그런데 공유 클러스터는 바로 그 여유를 없애 버립니다. ThakiCloud는 규제 산업과 자원 제약이 있는 조직을 위해 프롬프트를 외부로 내보낼 수 없는 데이터 주권형 온프렘 클러스터를 운영합니다. 이런 클러스터는 두 가지 특징을 동시에 가집니다. 하나는 여러 모델과 고객을 함께 배치해 값비싼 가속기를 최대한 활용하는 멀티테넌시이고, 다른 하나는 시기별로 사들인 A100, H100, 소비자급 GPU가 섞여 있는 이기종 구성입니다. GPU가 이미 다른 테넌트의 요청으로 포화 상태라면 연산 유닛은 더 이상 놀고 있지 않습니다. 이 경우 스펙큘레이터가 타깃 모델에 추가로 검증시키는 토큰은 공짜가 아니라 실제 연산량이며, 같은 배치를 공유하는 모든 요청의 순전파 시간을 늘립니다. 단일 테넌트에서 관찰된 속도 향상이 멀티테넌트에서는 지연으로 뒤집힐 수 있고, 더 나쁜 것은 이 지연이 스펙큘레이션을 요청하지도 않은 이웃 테넌트에게 전가되는 외부성이라는 점입니다.

핵심 기여: 속도 향상을 스케줄러가 계산할 수 있는 값으로 바꾸기

이 논문의 첫 번째 기여는 실제로 실현되는 속도 향상 $S_{real}$을 스케줄러가 직접 관측하고 통제할 수 있는 세 가지 변수의 함수로 명시적으로 표현한 것입니다. 토큰별 수용률(acceptance rate), 여유 연산력(spare-compute headroom), 배칭 간섭(batching interference)이 그 세 변수입니다. 검증 비용을 이 변수들로 모델링하면, 여유 연산력이 0에 가까워질수록 스펙큘레이션이 이득을 내지 못하는 조건이 자연스럽게 도출됩니다. 채택 토큰 수율은 드래프트 길이를 늘려도 어느 지점에서 포화하는 반면 분모에 해당하는 검증 비용은 드래프트 길이에 비례해 계속 늘어나기 때문에, 포화된 GPU에서는 항상 스펙큘레이션이 손해로 전환되는 드래프트 길이가 존재합니다. 여기서 도출되는 최적 드래프트 예산은 여유 연산력이 줄어들수록 함께 줄어드는데, 이는 지금까지의 드래프트 중심 시스템들이 스케줄러에 노출하지 않던 값입니다.

두 번째로 이 모델은 배칭 간섭을 외부성으로 정식화합니다. 스펙큘레이션을 요청한 요청의 검증 토큰이 배치 크기를 키우면, 같은 배치를 공유하는 다른 테넌트의 토큰 간 지연도 함께 늘어납니다. 즉 하나의 요청이 얻는 이득과 여러 이웃이 부담하는 비용을 함께 봐야 하는 파레토 문제이지, 요청 하나만 놓고 풀 수 있는 문제가 아닙니다. 논문은 이 관찰을 받아 어떤 요청을 언제 스펙큘레이션으로 처리할지 판단하는 수용 조건을 두 갈래로 정리합니다. 첫째, 스펙큘레이션이 요청 자신에게 이득이 되어야 하고, 둘째, 그로 인한 외부성이 함께 배치된 다른 테넌트들의 서비스 수준 목표(SLO) 여유분을 넘지 않아야 합니다.

세 번째 기여는 이 모델을 실제 배포 가능한 정책으로 구현한 SovereignSpec입니다. Kueue와 쿠버네티스 위에 얹히는 세 가지 협업 정책으로 구성됩니다. 첫째는 수용률 인지 어드미션으로, 스케줄링 틱마다 후보 GPU들의 실시간 여유 연산력을 읽어 위의 수용 조건을 적용하고, 조건을 만족하지 못하면 요청을 거부하는 대신 스펙큘레이션 없이 일반 디코드로 처리합니다. 둘째는 이기종 배치로, 수용률이 높고 지연에 민감한 요청은 여유 연산력이 많은 GPU로 보내고, 수용률이 낮거나 처리량 중심인 요청은 이미 포화된 카드에서 일반 디코드로 처리합니다. 셋째는 주권을 보존하는 코배칭입니다. 온프렘 테넌트는 특정 노드나 관할권을 다른 테넌트와 공유할 수 없다는 데이터 거주 제약을 가지는 경우가 많은데, SovereignSpec은 이런 제약을 속도 향상 계산보다 먼저 확인하는 하드 제약으로 다루어, 아무리 속도 향상이 커도 신뢰 경계를 넘는 배치는 애초에 고려 대상에서 제외합니다.

논문이 제시하는 레짐 분석 결과도 흥미롭습니다. 유휴 상태에서는 익숙한 2배 이상의 속도 향상이 나오지만, 코배칭이 여유 연산력을 잠식할수록 속도 향상이 단조롭게 줄어들다가 포화 상태에서 드래프트가 약하거나 길이가 과도하면 1 미만, 즉 순손실로 전환됩니다. 이때 스펙큘레이션을 무조건 실행하는 기존 방식은 20퍼센트가 넘는 디코드 세금을 내면서도 스스로는 가속하고 있다고 착각합니다. 또한 드래프트 예산을 여유 연산력에 맞춰 조정하는 것만으로도 더 나은 드래프터 없이 스케줄링 결정만으로 20퍼센트대의 상대적 이득을 회수할 수 있음을 보였고, 외부성 조건이 없다면 한 요청을 가속하기 위해 여러 이웃의 SLO를 위반하는 상황이 실제로 발생한다는 점도 수치로 보여 줍니다.

회사, 사회, 과학에 각각 어떤 의미가 있는가

ThakiCloud 입장에서 이 연구는 곧바로 우리가 운영하는 Kueue와 쿠버네티스 기반 서빙 스택에 얹을 수 있는 실용적인 레버입니다. 프롬프트를 외부로 보낼 수 없는 조직이 선택할 수 있는 대안은 가속기를 과도하게 사들이거나, 아니면 데이터 거주 원칙을 깨고 외부 API로 우회하는 것뿐입니다. SovereignSpec처럼 멀티테넌트 부하에서도 스펙큘레이티브 디코딩을 순이득 상태로 유지할 수 있다면, 같은 GPU로 더 많은 테넌트를 서비스하면서 토큰당 에너지 비용을 낮출 수 있고, 이는 신뢰 경계를 건드리지 않으면서 온프렘 서빙의 경제성을 개선하는 구체적인 비용 절감 수단이 됩니다.

사회적으로 보면, 이런 스케줄링 개선은 규제 산업이나 자원이 제한된 조직이 대형 하이퍼스케일 API에 의존하지 않고도 데이터 주권을 지키면서 감당할 수 있는 비용으로 LLM을 서빙할 수 있게 해 줍니다. 데이터 주권과 서빙 효율 사이에 반드시 트레이드오프가 있다는 통념을 깨는 방향의 작업입니다.

과학적으로는 접근 지점이 다릅니다. 스펙큘레이티브 디코딩의 이론과 실제 성능 사이에 큰 간극이 있다는 사실은 이미 여러 측정 연구가 보고했습니다. 이 논문은 그 간극을 만드는 핵심 변수인 여유 연산력을 스케줄러가 다룰 수 있는 값으로 명시하고, 스펙큘레이션 여부를 드래프터가 아니라 스케줄러의 결정으로 재정의합니다. 단일 테넌트, 동종 GPU 환경만 전제하던 기존 연구들이 비워 둔 자리를 정확히 채웁니다.

한계와 다음 단계

논문은 스스로의 한계를 숨기지 않습니다. 이 연구는 개념적이고 분석적인 기여이며, 아직 물리적인 클러스터에서 측정한 결과는 없습니다. 논문에 제시된 모든 수치는 검증된 수용률과 디스어그리게이션 측정치를 참고해 설정한 파라미터로부터 유도한 모델 예측값이지, 실측값이 아닙니다. 검증 비용의 가중치나 여유 연산력 같은 핵심 파라미터는 모델과 GPU 종류별로 프로파일링해야 하고, 잘못 추정하면 순손실 스펙큘레이션을 그대로 승인할 위험도 있습니다. 또한 배칭 간섭 공식은 포화 구간을 전제로 한 1차 근사이기 때문에, 여유 연산력이 중간 정도인 전이 구간은 실측 보정이 필요합니다. 연구팀은 이 간극을 메우기 위해 A100, H100, 소비자급 GPU에서 파라미터를 프로파일링하고, Kueue 어드미션 체크 플러그인과 vLLM 또는 SGLang 스케줄러 훅으로 알고리즘을 실제 구현한 뒤, 실현된 속도 향상과 P99 지연, 공정성, 토큰당 에너지 소비를 측정하는 구체적인 평가 계획을 제시하고 있습니다.

논문 원문과 데이터는 Hugging Face에서 확인할 수 있습니다. https://huggingface.co/datasets/thaki-AI/thaki-daily-papers/tree/main/papers/2026-07-05-sovereign-speculative-serving

arXiv 제출은 자동화 파이프라인이 tar 패키지까지 준비해 두었고, 실제 업로드는 사람이 검토한 뒤 진행하는 절차이므로 현재 상태는 제출 준비 완료(승인 대기)입니다.

온프렘 멀티테넌트 GPU 클러스터에서 스펙큘레이티브 디코딩이 손해로 바뀌는 순간

이 글을 누가 읽으면 좋은가

문제의식: 성공 사례가 전제하는 조건이 우리 조건과 다르다

핵심 기여: 속도 향상을 스케줄러가 계산할 수 있는 값으로 바꾸기

회사, 사회, 과학에 각각 어떤 의미가 있는가

한계와 다음 단계

참고

감시 모델이 읽지 못하는 글자들: 토크나이저 비대칭이 여는 AI 통제의 은닉 채널

의사 추천 아침식사로 스택 짜기ㅋ

파인튜닝은 정말 죽었을까: 2026년 6월 한 달의 검증된 신호로 읽는 생존 전략

8배 큰 모델이 5배 싼 이유: LLM 추론 비용의 실제 구조