Google Magenta RealTime 2: 음악 모델이 연주 가능한 악기로 바뀌는 순간
각주, 그림 설명, 근거 표, 참고 문헌으로 MRT2의 실시간 음악 생성 능력, 대상 사용자, 구조적 근거, 하드웨어 요구 사항과 한계를 설명하는 논문식 제3자 연구 브리핑입니다.
참고 자료
제3자 연구 브리핑 · 모델 뉴스
Google Magenta RealTime 2: 음악 모델이 ‘생성기’에서 ‘연주 가능한 악기’로 이동하다
Magenta RealTime 2, 즉 MRT2는 프롬프트를 넣고 완성된 곡을 기다리는 오프라인 생성 모델로 보기 어렵다. 이 모델은 연속 제어, 낮은 지연, 라이브 연주 경험을 지향하는 live music model에 가깝다. 공식 자료는 MRT2를 MIDI, 텍스트 프롬프트, 오디오 예시, 제스처형 변조로 제어할 수 있는 로컬 모델로 설명한다.[1] 연구 관점에서 핵심은 AI 음악 생성이 배치 렌더링에서 인간 참여형 연주 인터페이스로 이동한다는 점이다.
1. 핵심 판단
MRT2는 범용 노래 생성 API라기보다 MIDI, 텍스트, 오디오 조건으로 실시간 조종하는 음악 엔진에 가깝다.
음악가, DAW 사용자, 라이브 퍼포머, 크리에이티브 코더, 인터랙티브 설치 팀, 게임 오디오 팀, 연구자.
실시간 경험은 Apple Silicon에 크게 의존하며, 출력은 48 kHz 스테레오 오디오이고, 오픈 웨이트가 출력 책임을 없애지는 않는다.
2. 무엇을 할 수 있나?
공식 앱 페이지는 MIDI steering, text-to-synth, audio cloning, prompt mixing, sound design, modulation/gesture control을 기능으로 제시한다.[2] 공통점은 생성 전에 한 번 입력하는 방식이 아니라 재생 중 조건을 계속 바꾸는 데 있다.
| 기능 | 해석 | 주요 사용자 |
|---|---|---|
| MIDI Steering | 음표와 코드로 생성 음악의 화성 방향을 이끈다. | 키보디스트, 편곡자, 라이브 퍼포머 |
| Text-to-Synth | “현악 앙상블” 같은 설명을 연주 가능한 사운드 레이어로 만든다. | 프로듀서, 사운드 디자이너 |
| Audio Cloning | 짧은 오디오 샘플을 음색 또는 스타일 참조로 사용한다. | 샘플링 작업, 실험 음악가 |
| Prompt Mixing | 텍스트와 오디오 프롬프트를 혼합해 스타일 전이를 탐색한다. | DJ, 설치 작업, 게임 오디오 팀 |
3. 아키텍처 근거
Hugging Face 모델 카드는 MRT2를 SpectroStream, MusicCoCa, decoder-only Transformer LLM의 세 구성 요소로 설명한다.[3] 이는 오디오를 토큰화하고 스타일 및 MIDI 조건 아래 다음 오디오 토큰 흐름을 예측하는 codec-language-model 구조를 시사한다.
| 구성 요소 | 역할 | 근거 |
|---|---|---|
| SpectroStream | 48 kHz 스테레오 오디오를 이산 토큰으로 바꾸고 재구성한다. | 모델 카드와 SpectroStream 논문[5] |
| MusicCoCa | 텍스트와 음악 오디오를 공동 스타일 임베딩 공간에 놓는다. | 모델 카드[3] |
| Decoder-only LLM | 문맥, 스타일 임베딩, MIDI 토큰을 바탕으로 오디오 토큰을 예측한다. | 모델 카드[3] |
Live Music Models 논문은 이런 시스템을 연속 음악 스트림, 실시간 생성, 동기화된 사용자 제어라는 관점에서 정의한다.[4] MRT2는 그 연구 패러다임을 더 응용 환경에 가깝게 옮긴 사례다.
4. 적용 시나리오
- 음악 제작: AU 플러그인으로 DAW에 넣어 AI 사운드를 제어 가능한 제작 레이어로 사용한다.
- 라이브 공연: 키보드, 컨트롤러, LFO로 AI 반주를 계속 조정한다.
- 크리에이티브 코딩: Max/MSP, PureData, SuperCollider, 카메라 입력과 결합해 인터랙티브 사운드 설치를 만든다.
- 게임과 몰입형 미디어: 플레이어 상태, 장면, 카메라 움직임에 따라 변화하는 분위기 음악을 만든다.
- 연구 프로토타입: 오디오 토큰, 스타일 임베딩, 실시간 제어의 관계를 관찰한다.
5. 제약과 주의점
오픈 웨이트는 모든 장치에서 실시간 실행된다는 뜻이 아니다. GitHub 저장소는 230M 파라미터 small 모델과 2.4B 파라미터 base 모델을 구분하며, 실시간 스트리밍에는 Apple Silicon이 필요하다고 설명한다. 공식 앱 페이지도 유사한 하드웨어 지침을 제공한다.[6]
각주
- 공식 MRT2 앱 페이지는 이 모델을 악기처럼 연주 가능한 로컬 live music model로 설명하고 Apple Silicon 및 48 kHz 요구 사항을 제시한다. ↩
- 기능 목록은 공식 앱 페이지의 Features 섹션을 바탕으로 정리했다. ↩
- 시스템 구성 요소, 입력과 출력, 모델 규모는 Hugging Face 모델 카드에 근거한다. ↩
- live music model의 개념은 Live Music Models 논문에 근거한다. ↩
- SpectroStream 논문은 48 kHz 스테레오 오디오를 위한 신경 오디오 코덱 능력을 설명한다. ↩
- 하드웨어 표와 230M / 2.4B 구분은 GitHub README와 공식 앱 페이지를 참조했다. ↩
- 라이선스와 출력 책임은 모델 카드 및 GitHub 저장소에 근거한다. ↩
참고 문헌 및 자료
- Google Magenta. Magenta RealTime 2 (Apps & Plugins).
- Google. google/magenta-realtime-2 model card. Hugging Face.
- Magenta. magenta/magenta-realtime. GitHub repository.
- Caillon et al. Live Music Models. arXiv:2508.04651.
- Li et al. SpectroStream: A Versatile Neural Codec for General Audio. arXiv:2508.05207.