실시간 AI 음악 생성의 혁신

Google DeepMind가 공개한 Magenta RealTime은 실시간 음악 생성 분야에서 획기적인 발전을 보여주는 오픈소스 모델입니다. MusicFX DJ와 Lyria RealTime에 사용된 동일한 연구 기술을 기반으로 구축된 이 모델은 텍스트 프롬프트, 오디오 예제, 또는 이들의 조합을 통해 연속적인 음악 오디오를 생성할 수 있습니다.

핵심 기술 아키텍처

Magenta RealTime은 세 가지 핵심 컴포넌트로 구성되어 있습니다.

SpectroStream: 고품질 오디오 코덱

SpectroStream은 스테레오 48kHz 오디오를 토큰으로 변환하는 discrete audio codec입니다.

  • 입력/출력: 48kHz 스테레오 음악 오디오 파형
  • 토큰화: 25Hz 프레임 레이트, 64 RVQ 깊이, 10비트 코드, 16kbps
  • 기술 기반: SoundStream RVQ codec (Zeghidour+ 21)

MusicCoCa: 멀티모달 임베딩

MusicCoCa는 오디오와 텍스트를 공통 임베딩 공간에 매핑하는 대조 학습 모델입니다.

  • 입력: 16kHz 모노 음악 오디오 또는 “heavy metal” 같은 텍스트 스타일 설명
  • 출력: 768차원 임베딩, 12 RVQ 깊이로 양자화, 10비트 코드
  • 기술 기반: Yu+ 22, Huang+ 22의 연구 성과

Transformer LLM: 음악 생성 엔진

인코더-디코더 Transformer LLM은 컨텍스트와 스타일 정보를 바탕으로 오디오 토큰을 생성합니다.

  • 인코더 입력:
    • 컨텍스트: 1000개 토큰 (10초 오디오 컨텍스트, 4 RVQ 깊이)
    • 스타일: 6개 토큰 (양자화된 MusicCoCa 스타일 임베딩)
  • 디코더 출력: 800개 토큰 (2초 오디오, 16 RVQ 깊이)
  • 기술 기반: MusicLM 방법론 (Agostinelli+ 23)

활용 분야와 응용 사례

인터랙티브 음악 창작

  • 라이브 퍼포먼스: 연주자가 스타일 임베딩이나 오디오 컨텍스트를 조작하여 실시간으로 음악을 생성
  • 접근성 높은 음악 제작: 전통적인 악기 사용에 제약이 있는 사람들도 공동 잼 세션이나 개인 음악 창작 참여 가능
  • 비디오 게임: 사용자의 행동과 환경에 따른 실시간 맞춤형 사운드트랙 생성

연구 및 개발

  • 전이 학습: MusicCoCa와 Magenta RT의 표현을 활용한 음악 정보 인식 연구
  • 개인화: 뮤지션이 자신의 카탈로그로 모델을 파인튜닝하여 개인 스타일에 맞춤화 (곧 지원 예정)

교육 분야

  • 장르, 악기, 음악사 탐구: 자연어 프롬프팅을 통한 음악적 개념의 빠른 학습과 실험

모델의 한계와 고려사항

알려진 제한사항

음악 스타일 커버리지: 주로 서양 기악곡 위주의 학습 데이터로 인해 보컬 퍼포먼스와 전 세계 다양한 음악 전통의 포괄성이 제한적입니다.

보컬 생성: 비언어적 발성과 허밍은 가능하지만 가사 기반 조건화는 되지 않으며, 실제 단어 생성 가능성은 낮습니다.

지연 시간: LLM이 2초 단위로 작동하므로 스타일 프롬프트 입력이 음악 출력에 영향을 미치기까지 2초 이상 소요될 수 있습니다.

컨텍스트 제한: 최대 10초의 오디오 컨텍스트 윈도우로 인해 더 이른 시점의 음악을 직접 참조할 수 없어 장기적인 곡 구조 자동 생성이 어렵습니다.

기술 사양과 학습 환경

학습 데이터

  • 규모: 약 190k 시간의 스톡 음악
  • 구성: 다양한 소스의 주로 기악곡

하드웨어 및 소프트웨어

  • 하드웨어: Tensor Processing Unit (TPU) - TPUv6e / Trillium
  • 소프트웨어: JAX와 T5X, SeqIO 데이터 파이프라인 활용

시작하기

Google에서 제공하는 Colab 데모GitHub 저장소를 통해 Magenta RealTime을 직접 체험해보실 수 있습니다.

라이선스 및 사용 조건

  • 코드베이스: Apache 2.0 라이선스
  • 모델 가중치: Creative Commons Attribution 4.0 International
  • 사용 제한: 타인의 권리를 침해하거나 저작권 콘텐츠를 위반하는 출력 생성 금지

마무리

Magenta RealTime은 실시간 연속 음악 오디오 생성을 지원하는 최초의 오픈 웨이트 모델로서, 음악 공연, 아트 인스톨레이션, 비디오 게임 등 다양한 분야에 새로운 가능성을 제시합니다. 비록 일부 제한사항이 있지만, 인간-AI 상호작용을 중심으로 한 설계 철학과 오픈소스 접근 방식을 통해 음악 창작의 민주화에 기여할 것으로 기대됩니다.


참고 자료: