Google Magenta RealTime: 실시간 AI 음악 생성의 새로운 패러다임

실시간 AI 음악 생성의 혁신

Google DeepMind가 공개한 Magenta RealTime은 실시간 음악 생성 분야에서 획기적인 발전을 보여주는 오픈소스 모델입니다. MusicFX DJ와 Lyria RealTime에 사용된 동일한 연구 기술을 기반으로 구축된 이 모델은 텍스트 프롬프트, 오디오 예제, 또는 이들의 조합을 통해 연속적인 음악 오디오를 생성할 수 있습니다.

핵심 기술 아키텍처

Magenta RealTime은 세 가지 핵심 컴포넌트로 구성되어 있습니다.

SpectroStream: 고품질 오디오 코덱

SpectroStream은 스테레오 48kHz 오디오를 토큰으로 변환하는 discrete audio codec입니다.

입력/출력: 48kHz 스테레오 음악 오디오 파형
토큰화: 25Hz 프레임 레이트, 64 RVQ 깊이, 10비트 코드, 16kbps
기술 기반: SoundStream RVQ codec (Zeghidour+ 21)

MusicCoCa: 멀티모달 임베딩

MusicCoCa는 오디오와 텍스트를 공통 임베딩 공간에 매핑하는 대조 학습 모델입니다.

입력: 16kHz 모노 음악 오디오 또는 “heavy metal” 같은 텍스트 스타일 설명
출력: 768차원 임베딩, 12 RVQ 깊이로 양자화, 10비트 코드
기술 기반: Yu+ 22, Huang+ 22의 연구 성과

Transformer LLM: 음악 생성 엔진

인코더-디코더 Transformer LLM은 컨텍스트와 스타일 정보를 바탕으로 오디오 토큰을 생성합니다.

인코더 입력:
- 컨텍스트: 1000개 토큰 (10초 오디오 컨텍스트, 4 RVQ 깊이)
- 스타일: 6개 토큰 (양자화된 MusicCoCa 스타일 임베딩)
디코더 출력: 800개 토큰 (2초 오디오, 16 RVQ 깊이)
기술 기반: MusicLM 방법론 (Agostinelli+ 23)

활용 분야와 응용 사례

인터랙티브 음악 창작

라이브 퍼포먼스: 연주자가 스타일 임베딩이나 오디오 컨텍스트를 조작하여 실시간으로 음악을 생성
접근성 높은 음악 제작: 전통적인 악기 사용에 제약이 있는 사람들도 공동 잼 세션이나 개인 음악 창작 참여 가능
비디오 게임: 사용자의 행동과 환경에 따른 실시간 맞춤형 사운드트랙 생성

연구 및 개발

전이 학습: MusicCoCa와 Magenta RT의 표현을 활용한 음악 정보 인식 연구
개인화: 뮤지션이 자신의 카탈로그로 모델을 파인튜닝하여 개인 스타일에 맞춤화 (곧 지원 예정)

교육 분야

장르, 악기, 음악사 탐구: 자연어 프롬프팅을 통한 음악적 개념의 빠른 학습과 실험

모델의 한계와 고려사항

알려진 제한사항

음악 스타일 커버리지: 주로 서양 기악곡 위주의 학습 데이터로 인해 보컬 퍼포먼스와 전 세계 다양한 음악 전통의 포괄성이 제한적입니다.

보컬 생성: 비언어적 발성과 허밍은 가능하지만 가사 기반 조건화는 되지 않으며, 실제 단어 생성 가능성은 낮습니다.

지연 시간: LLM이 2초 단위로 작동하므로 스타일 프롬프트 입력이 음악 출력에 영향을 미치기까지 2초 이상 소요될 수 있습니다.

컨텍스트 제한: 최대 10초의 오디오 컨텍스트 윈도우로 인해 더 이른 시점의 음악을 직접 참조할 수 없어 장기적인 곡 구조 자동 생성이 어렵습니다.

기술 사양과 학습 환경

학습 데이터

규모: 약 190k 시간의 스톡 음악
구성: 다양한 소스의 주로 기악곡

하드웨어 및 소프트웨어

하드웨어: Tensor Processing Unit (TPU) - TPUv6e / Trillium
소프트웨어: JAX와 T5X, SeqIO 데이터 파이프라인 활용

시작하기

Google에서 제공하는 Colab 데모와 GitHub 저장소를 통해 Magenta RealTime을 직접 체험해보실 수 있습니다.

라이선스 및 사용 조건

코드베이스: Apache 2.0 라이선스
모델 가중치: Creative Commons Attribution 4.0 International

마무리

Magenta RealTime은 실시간 연속 음악 오디오 생성을 지원하는 최초의 오픈 웨이트 모델로서, 음악 공연, 아트 인스톨레이션, 비디오 게임 등 다양한 분야에 새로운 가능성을 제시합니다. 비록 일부 제한사항이 있지만, 인간-AI 상호작용을 중심으로 한 설계 철학과 오픈소스 접근 방식을 통해 음악 창작의 민주화에 기여할 것으로 기대됩니다.

참고 자료: