한 사람이 시네마틱 웹사이트를 만드는 시대: Gemini 3.1 + Seedance 2.0 워크플로를 뜯어봤습니다
개요
생성형 AI가 개별 작업을 잘하게 된 것을 넘어, 이제는 여러 전문 직군이 나눠 하던 작업을 한 사람의 워크플로로 합치는 단계에 들어섰습니다. 2026년 6월, 웹 디자이너 빅터 오디(Viktor Oddy)가 공개한 16분짜리 튜토리얼이 이 변화를 압축적으로 보여주면서 개발자와 디자이너 양쪽의 타임라인을 흔들었습니다. 핵심은 구글의 Gemini 3.1과 바이트댄스(ByteDance)의 Seedance 2.0을 결합해, 과거에는 1만 달러를 받던 시네마틱 마케팅 사이트를 한 사람이 만든다는 것입니다.
이 글은 그 워크플로가 정확히 무엇을 합친 것인지, 그리고 이런 멀티모달 생성 작업이 인프라 관점에서 어떤 수요를 만드는지를 다룹니다. ThakiCloud는 쿠버네티스 기반 AI/ML SaaS 플랫폼을 운영하며 GPU 워크로드 서빙을 핵심으로 삼고 있기 때문에, “한 사람이 영상 사이트를 만든다”는 화제의 표면보다 그 아래에서 돌아가는 추론 워크로드에 더 관심이 있습니다. 사용한 도구의 사실관계는 공개 보도와 제작자 본인의 공지에서 확인한 값만 인용했고, 직접 재현하지 않은 부분은 분명히 구분했습니다.
빅터 오디의 16분 튜토리얼 영상입니다. Gemini 3.1로 구조를 짜고 Seedance 2.0으로 영상을 입히는 전체 과정을 보여줍니다.
무엇을 보여주는 튜토리얼인가
빅터 오디가 공개한 튜토리얼의 제목은 “Gemini 3.1 + Seedance 2.0 = Cinematic $10k Websites”이며, 길이는 약 16분입니다. 제목의 1만 달러라는 숫자는 마케팅적 프레이밍으로 받아들이는 것이 정확합니다. 핵심 메시지는 “과거 여러 사람이 며칠에서 몇 주에 걸쳐 만들던 결과물을, 한 사람이 적절한 AI 도구로 몇 시간 안에 만든다”는 것입니다.
여기서 주목할 부분은 도구를 자랑하는 데모가 아니라 두 종류의 생성 작업을 하나의 파이프라인으로 묶었다는 점입니다. 코드 생성과 영상 생성은 그동안 완전히 다른 도구, 다른 전문가의 영역이었습니다. 이 튜토리얼은 그 둘을 한 사람의 손끝에서 연결합니다. 제작자는 추가 템플릿과 워크플로를 자신의 자료 생태계(motionsites.ai, designrocket.io, webraw.studio 등)로 안내하고 있어, 단발 데모가 아니라 반복 가능한 작업 방식으로 정리하려는 의도가 읽힙니다.
워크플로: Gemini 3.1은 건축가, Seedance 2.0은 촬영감독
워크플로는 의외로 단순합니다. 두 도구가 각자 잘하는 역할로 명확히 분리돼 있습니다.
Gemini 3.1은 건축가입니다. 레이아웃, 반응형 디자인, 인터랙션, 그리고 이 모든 것을 묶는 코드를 담당합니다. 사이트의 구조와 동작을 책임지는 부분입니다. Seedance 2.0은 촬영감독입니다. 동적인 비주얼, 즉 사이트를 시네마틱하게 만드는 영상 콘텐츠를 생성합니다. 작업 순서는 Gemini로 구조와 코드를 만든 뒤, Seedance로 생성한 영상 콘텐츠를 그 안에 흘려 넣는 방식입니다. 결과물은 물리 기반 모션과 동기화된 오디오를 갖춘, 곧바로 쓸 수 있는 마케팅 사이트입니다.
[ 기획·프롬프트 ]
|
v
[ Gemini 3.1 ] --- 레이아웃·반응형·인터랙션·코드 ---> 사이트 골격
|
v
[ Seedance 2.0 ] --- 멀티카메라 영상 + 네이티브 오디오 ---> 시네마틱 비주얼
|
v
[ 통합 ] --- 영상을 사이트에 배치 ---> 배포 가능한 마케팅 사이트
이 구조에서 중요한 것은 역할 분리가 자유도를 줄여 결과 품질을 안정시킨다는 점입니다. 한 모델에게 “멋진 영상 사이트를 만들어줘”라고 통째로 맡기는 대신, 구조는 코드 모델이, 영상은 영상 모델이 책임지도록 나눴습니다. 검증된 골격에 각 도구의 강점을 채워 넣는 방식이며, ThakiCloud가 스킬과 파이프라인 설계에서 반복적으로 강조해 온 원칙과 같은 맥락입니다.
Seedance 2.0이 새로 가져온 것
이 워크플로를 가능하게 한 결정적 변수는 Seedance 2.0의 능력입니다. 바이트댄스가 만든 이 멀티모달 영상 생성 모델은 텍스트, 이미지, 영상, 오디오를 포함해 최대 12종의 입력 유형을 지원합니다. 단순한 텍스트투비디오를 넘어, 여러 형태의 입력을 조합해 영상을 만든다는 의미입니다.
가장 두드러지는 두 가지 기능이 있습니다. 첫째는 멀티카메라 스토리텔링입니다. 마치 여러 대의 카메라가 동시에 돌아간 것처럼 서로 다른 앵글을 오가는 영상을 만들 수 있습니다. 둘째는 네이티브 오디오 동시 생성입니다. 별도의 오디오 도구 없이도 영상에 어울리는 사운드 디자인을 함께 만들어냅니다. 영상과 음향을 따로 제작해 동기화하던 과정 자체가 사라지는 것입니다.
Seedance 2.0은 현재 힉스필드(Higgsfield), 모픽(Morphic) 같은 플랫폼과 여러 API 제공자를 통해 접근할 수 있습니다. 즉 개인 운영자도 자체 GPU 없이 클라우드 추론으로 이 기능을 쓸 수 있다는 뜻이며, 이것이 단일 운영자 워크플로가 현실이 된 배경입니다.
ThakiCloud 관점: 멀티모달 생성이 만드는 GPU 서빙 수요
이 화제의 표면은 “한 사람이 웹사이트를 만든다”이지만, 인프라 관점에서 읽으면 다른 그림이 보입니다. 시네마틱 영상 생성, 멀티카메라 합성, 네이티브 오디오 동시 생성은 모두 무거운 GPU 추론 워크로드입니다. 단일 운영자 워크플로가 늘어난다는 것은 곧 멀티모달 추론 수요가 폭발적으로 늘어난다는 의미입니다. 이 워크로드가 어디서 돌아갈 것인가가 인프라 사업자에게는 핵심 질문입니다.
ThakiCloud의 AI 플랫폼은 쿠버네티스 위에서 Kueue로 GPU 워크로드를 스케줄링하고, 멀티테넌트로 여러 고객의 추론을 격리해 서빙합니다. 영상 생성은 텍스트 LLM보다 GPU 메모리와 연산을 훨씬 많이 요구하고, 작업 길이의 편차가 크며, 배치 처리의 이득이 분명한 워크로드입니다. 정확히 GPU 스케줄링과 큐잉이 차이를 만드는 영역입니다.
특히 소버린 AI 관점이 중요합니다. Gemini 3.1과 Seedance 2.0 자체는 폐쇄형 클라우드 서비스입니다. 광고 대행사, 게임사, 미디어 기업처럼 브랜드 자산과 미공개 캠페인 소재를 다루는 조직은 그 소재를 외부 공개 API로 보내는 것 자체를 꺼립니다. 여기서 두 갈래의 기회가 생깁니다. 하나는 데이터 경계 안에서 멀티모달 생성 워크로드를 돌릴 수 있는 온프렘·전용 GPU 서빙이고, 다른 하나는 폐쇄형 모델을 대체할 수 있는 오픈 멀티모달 모델의 자체 호스팅입니다. ThakiCloud가 코딩 LLM에 대해 제안하는 온프렘·자체 호스팅 가치 제안은, 영상·이미지 같은 생성형 멀티모달 워크로드에도 그대로 확장됩니다. 콘텐츠 생성의 단위가 팀에서 개인으로 내려올수록, 그 개인들을 떠받치는 GPU 서빙 수요는 오히려 집중되고 커집니다.
한계 및 반론
흥분을 가라앉히고 반대편을 봐야 합니다. 우선 제목의 “1만 달러 사이트”는 검증된 가격이 아니라 제작자의 마케팅 프레이밍입니다. AI가 생성한 시네마틱 사이트가 실제로 그 가격에 거래되는지, 그리고 클라이언트 작업에서 요구되는 브랜드 정합성, 접근성, 성능 최적화, 유지보수까지 충족하는지는 별개의 문제입니다. 데모와 납품 가능한 결과물 사이에는 여전히 큰 간극이 있습니다.
도구 의존성도 분명한 한계입니다. 이 워크플로는 Gemini 3.1과 Seedance 2.0이라는 특정 폐쇄형 서비스에 묶여 있습니다. 가격 정책 변경, 가용성, 콘텐츠 정책에 따라 워크플로 전체가 흔들릴 수 있습니다. 또한 영상 생성은 사용량에 따라 추론 비용이 빠르게 누적되므로, “한 사람이 싸게 만든다”는 인상과 달리 실제 운영 비용은 결코 작지 않을 수 있습니다.
마지막으로 이 글의 모든 도구 사양은 공개 보도와 제작자 공지에서 인용한 것이며, 직접 동일 환경에서 재현한 결과가 아닙니다. 입력 유형 수나 기능 목록 같은 사양은 제공자의 발표 기준이므로, 실제 도입 전에는 자사 요구사항으로 재검증하는 절차가 필요합니다. 그럼에도 분명한 신호는 있습니다. 생성형 멀티모달이 개인의 워크플로로 내려오고 있고, 그 수요를 안정적으로, 그리고 데이터 주권을 지키며 떠받치는 일은 인프라 사업자의 몫이라는 점입니다.