【Magenta RealTime 2】MacBookで演奏できるリアルタイムAI音楽モデルを徹底解説!

Magenta RealTime 2 MacBook 演奏 リアルタイム AI 音楽 モデル 徹底 解説
押さえておきたいポイント
  • Google DeepMindが、リアルタイム音楽生成のオープンウェイトモデル「Magenta RealTime 2」を公開
  • 前バージョン比で約15倍のレイテンシ削減(200ms未満)を達成し、Apple Silicon搭載のMacBook上でネイティブ動作
  • テキスト・オーディオ・MIDIの3入力によるライブ制御に対応し、DAWプラグインやMax/MSP拡張も同時リリース

2026年6月5日、GoogleがAIライブ音楽生成モデル「Magenta RealTime 2(MRT2)」をオープンウェイトで公開しました!

前モデルと比較してレイテンシを約15分の1に削減し、Apple Silicon搭載のMacBook上でネイティブに動作するこのモデルは、テキスト・オーディオ・MIDIの3つの入力で音楽をリアルタイムに操作できる楽器として演奏できるAIとして、ミュージシャンや開発者の間で大きな反響を呼んでいます。

そこで本記事では、Magenta RealTime 2の概要から技術的な仕組み、ライセンス情報、具体的な使い方までを徹底的に解説していきます。ぜひ、最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

目次

Magenta RealTime 2とは?

Magenta RealTime 2とは?
参考:https://magenta.withgoogle.com/magenta-realtime-2

Magenta RealTime 2は、Google DeepMindが開発したオンデバイス向けのオープンな音楽生成モデルです。先代のMagenta RealTimeモデルおよびLyria RealTime APIの後継にあたり、より豊かなコントロール性と低レイテンシを実現しています。

他の大規模音楽生成モデルがプロンプトからトラックをオフラインで生成する方式を採るのに対し、MRT2は、MIDI・オーディオ・テキストの3種類の入力でリアルタイムに制御できるライブ・インタラクティブモデルとなっています。つまり、AIを作曲ツールではなく楽器として演奏できるという発想が根本にあるわけです。

スタンドアロンアプリとして動かすことも、DAW(デジタル・オーディオ・ワークステーション)にドロップインすることも、他の音楽ソフトウェアに統合することも可能で、実用性の高さが際立っています。

オープンウェイトモデルに加えて、MRT2で構築されたプレイアブルな楽器やエクスペリエンスのコレクションも同時にリリースされており、サウンドのクローニング、スタイルのブレンド、ライブ伴奏の生成などをすぐに試せる環境が整っています。

Magenta RealTime 2 とは?
参考:https://magenta.withgoogle.com/magenta-realtime-2

モデルにはbaseとsmallの2つの構成があり、baseは24億パラメータ、smallは2.3億パラメータとなっています。baseモデルでもMacBook上でリアルタイム推論が可能なサイズ感に収まっている点は注目に値しますね。

Magenta RealTime 2の仕組み

Magenta RealTime 2の仕組み

MRT2は、SpectroStreamMusicCoCaLLM(大規模言語モデル)の3つのコンポーネントで構成されています。基本構造は先代のMagenta RealTimeと同様ですが、最大の違いはLLM部分で、チャンク単位ではなくフレーム単位の自己回帰をサポートするDecoder-onlyモデルに刷新され、オンデバイスストリーミングとフレームレベルの制御に最適化されています。

各コンポーネントの役割は以下の通りです。

SpectroStream(離散オーディオコーデック)

ステレオ48kHzの音楽オーディオをトークンに変換するコーデックで、25Hzのフレームレート、64のRVQ深度、10ビットのコード、16kbpsのビットレートで動作します。

高忠実度の音楽オーディオを効率的なトークン列に変換することで、言語モデルによる生成を可能にしています。

MusicCoCa(テキスト・オーディオ共同埋め込みモデル)

テキストとオーディオを共通の埋め込み空間にマッピングする対照学習モデルで、768次元の埋め込みを出力し、12のRVQ深度で量子化されます。

これによって、「heavy metal」や「blissful ambient synth」といったテキストプロンプトと実際のオーディオサンプルを同じ空間で扱えるようになり、自由な比率でのスタイルブレンドが実現しています。

Decoder-only Transformer LLM(オーディオトークン生成)

コンテキストのオーディオトークン、トークン化されたMusicCoCa埋め込み、MIDIトークンを入力として、各タイムステップでオーディオトークンを生成するモデルです。

baseモデルは24億パラメータ・20レイヤー・25フレームのウィンドウアテンション、smallモデルは2.3億パラメータ・12レイヤー・41フレームのウィンドウアテンションという構成で、いずれも約20秒の実効受容野を持ちます。

MRT2では、スタイル制御に加えてノートとドラムのオン/オフ制御もサポートしており、すべてのコンディショニング信号がオーディオフレームレート(25Hz)でトークン化・連結されて単一のコンディショニングベクトルとしてモデルに注入されます。この仕組みにより、モデルは約40msの1フレーム内で任意の信号変化に反応できるようになっています。

Magenta RealTime 2の特徴

こちらでは、Magenta RealTime 2の性能面での特徴を見ていきます。

Magenta RealTime 2の特徴

まず注目すべきはレイテンシの劇的な改善です。

MRT2は前バージョンと比較して約15倍のレイテンシ削減を達成しています。リリース時点で、リアルタイムかつ連続的な音楽オーディオ生成を低レイテンシ制御(約200ms)でサポートする唯一のオープンウェイトモデルとされています。

次に、マルチシグナル制御の実現が大きなポイントです。

先代モデルではテキストとオーディオによるスタイル制御が中心でしたが、MRT2ではスタイル制御に加えてMIDIによるノート・ドラムのオン/オフ制御をサポートしています。分類器フリーガイダンス(CFG)を複数信号に拡張することで、各コンディショニング信号の寄与度を個別にバランス調整でき、無条件生成にも対応する柔軟な設計です。

DAWへの直接統合も実用面で重要な進化です。Audio Unit(AU)プラグインとして提供されるため、Logic ProやAbleton Liveといった既存のDAWワークフローにシームレスに組み込めるほか、Max/MSP・PureData・SuperColliderといったクリエイティブコーディング環境向けの拡張機能もリリースされています。

Magenta RealTime 2の特徴
参考:https://magenta.withgoogle.com/mrt2

さらに、2Dサーフェス上でプロンプトをミックス・マッシュアップし、新しいジャンルやソニックミクスチャーを生み出すインターフェースも用意されており、UIの完成度にもこだわりが感じられます。

X上での反響:「楽器としてのAI」に興奮の声

SNS上でもMRT2は大きな話題となっています。ここからは、X上で特に注目を集めている反応をご紹介します。

今回解説する事例において、弊社がX(旧Twitter)で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

Google Gemmaの公式アカウントは、MRT2を「ミュージシャンが楽器として演奏できるオープンモデル」と紹介し、MacBook上でMIDI・テキスト・オーディオを使った低レイテンシのライブ音楽合成がネイティブに動作することを強調しました。この投稿は公開直後から多くのインプレッションを集めています。

また、Hugging FaceのOmar Sanseviero氏もMRT2のポイントとして「オープンモデル」「わずか24億パラメータでオンデバイス動作に最適」「低レイテンシ制御」「オーディオ・MIDI・テキストでの制御」を挙げ、Macで直接実験できるアプリ群のリリースにも言及しています。

さらに、MRT2の開発者の一人であるChris Donahue氏は「This thing is soooo fun to play with(これ遊ぶの本当に楽しい)」とコメントしており、開発者自身が自分たちのプロダクトを心から楽しんでいる様子が伝わってきます。

HuggingFaceのDailyPapersアカウントも、「テキスト、オーディオ、MIDIで約200msのレイテンシで操作できる、オンデバイスのリアルタイム連続音楽生成をサポートする唯一のオープンウェイトモデル」として紹介しています。

Magenta RealTime 2の安全性・制約

Magenta RealTime 2は、主にインストゥルメンタルデータで学習されています。特定のプロンプトによってボーカルサウンドやエフェクトが生成されることが確認されていますが、それらは非語彙的(non-lexical)なものにとどまる傾向があるとのことです。

安全性へのアプローチとしては、人間とAIのインタラクションをMRT2の設計の根幹に位置づけていること、著作権コンテンツを含む他者の権利を侵害する出力の生成を利用規約で禁止していることが挙げられます。

ジャンルカバレッジの偏りと、非語彙的ボーカリゼーションに関する制限は、先代モデルと同様である点も認識しておく必要があります。また、2026年6月5日時点では、Apple Silicon搭載のMacBookが必須であり、Windowsやモバイルデバイスでの動作は公式にはサポートされていません。

Magenta RealTime 2の料金

MRT2はオープンウェイト・オープンソースプロジェクトとして公開されており、モデル自体は完全に無料で利用可能です。APIサービスとして課金される形態ではなく、ユーザーが自身のハードウェア上でモデルを動かす構成のため、利用料金は発生しません。

スクロールできます
項目料金
モデル利用(推論)無料
アプリ・プラグイン(macOS)無料
GitHub ソースコード無料
HuggingFace モデルウェイト無料
Google Colab(TPU利用)無料枠あり
ローカル実行(GPU / Apple Silicon)ハードウェアコストのみ
Magenta RealTime 2の料金

ただし、ローカルで高品質な推論を行うにはApple Silicon搭載のMacBookが必要です。GPU環境で動作させる場合は40GB以上のVRAMを持つGPUとLinux環境が推奨されています。Google Colabの無料TPUでも先代モデルのデモは動作していましたが、MRT2ではmacOSアプリ版がもっとも手軽な利用方法として推奨されています。

Magenta RealTime 2のライセンス

Magenta RealTime 2はコードベースがApache 2.0ライセンスモデルウェイトがCreative Commons Attribution 4.0 International(CC BY 4.0)ライセンスのデュアルライセンス構成です。この組み合わせにより、商用利用や改変が非常に自由度高く行えるようになっています。

スクロールできます
利用用途コード(Apache 2.0)モデルウェイト(CC BY 4.0)
商用利用⭕️⭕️(帰属表示必要)
改変⭕️⭕️(帰属表示必要)
再配布⭕️⭕️(帰属表示必要)
特許利用⭕️(Apache 2.0に特許付与条項あり)
私的利用⭕️⭕️
Magenta RealTime 2のライセンス

重要な点として、Googleは利用規約において「他者の著作権コンテンツを含む権利を侵害する出力を生成しないこと」を求めています。また、MRT2で生成した出力に対してGoogleは権利を主張せず、出力の利用責任はユーザーおよびそのユーザーに帰属すると明記されています。

Magenta RealTime 2の使い方

Magenta RealTime 2にはいくつかのアクセス方法があります。今回は代表的な3つの方法を紹介します。

macOSアプリ(Plugin Bundle)で試す

最も手軽にMRT2を体験できる方法です。Apple Silicon搭載のMacBookがあれば、コードを書かずにすぐ試すことができます。

STEP
アプリをダウンロード

公式サイトにアクセスし、Plugin Bundle(macOS)をダウンロードします。Apple Silicon(M1以降)が必須です。

Magenta RealTime 2の使い方
参考:https://magenta.withgoogle.com/mrt2
STEP
アプリを起動して演奏

スタンドアロンアプリを起動すると、スタイルプリセットとMIDIコントロールを使ってすぐにジャムセッションを開始できます。

Magenta RealTime 2の使い方

MIDIキーボードを接続すれば、コードやノートを押さえるだけでモデルがアンサンブル全体を生成してくれます。

STEP
DAWプラグインとして利用(任意)

Audio Unit(AU)プラグインとしてDAW(Logic Pro、Ableton Liveなど)に読み込んで使うこともできます。DAW内でMRT2を音源として扱い、既存の制作ワークフローに統合可能です。

Python(ローカルインストール)で利用する

プログラマティックに制御したい場合は、GitHubからクローンしてPythonで実行する方法があります。

STEP
Python 3.12をインストール
sudo apt update
sudo apt install software-properties-common -y
sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt install python3.12 python3.12-venv python3.12-dev -y
STEP
リポジトリをクローンしてセットアップ
git clone https://github.com/magenta/magenta-realtime.git
cd magenta-realtime
python3.12 -m venv .venv
source .venv/bin/activate
Magenta RealTime 2の使い方
参考:https://github.com/magenta/magenta-realtime
STEP
依存関係をインストール(GPU環境の場合)
# t5xのパッチ適用とインストール
git clone https://github.com/google-research/t5x.git && \
  pushd t5x && \
  git checkout 7781d16 && \
  patch setup.py < ../patch/t5x_setup.py.patch && \
  patch t5x/partitioning.py < ../patch/t5x_partitioning.py.patch && \
  pip install .[gpu] && \
  popd

# Magenta RTのインストール
pip install -e .[gpu] && pip install tf2jax==0.3.8
patch .venv/lib/python3.12/site-packages/seqio/vocabularies.py < patch/seqio_vocabularies.py.patch
STEP
音楽を生成
python -m magenta_rt.generate \
  --prompt="blissful ambient synth" \
  --output="./output.mp3"
STEP
Pythonコードからの利用
from magenta_rt import audio, system
from IPython.display import display, Audio

num_seconds = 10
mrt = system.MagentaRT()
style = system.embed_style('funk')

chunks = []
state = None
for i in range(round(num_seconds / mrt.config.chunk_length)):
    state, chunk = mrt.generate_chunk(state=state, style=style)
    chunks.append(chunk)
generated = audio.concatenate(chunks)
display(Audio(generated.samples.swapaxes(0, 1), rate=mrt.sample_rate))

Google Colabで試す

ローカル環境を用意せずブラウザ上で試したい場合は、Google Colabのデモノートブックが便利です。

STEP
Colabノートブックを開く

公式デモノートブックにアクセスします。

Magenta RealTime 2の使い方
STEP
ランタイムを設定

ランタイムのタイプを「TPU」に変更し、セルを順番に実行していきます。無料枠のTPUでリアルタイム生成が動作します。

STEP
プロンプトを入力して生成

セットアップが完了したら、テキストプロンプトやオーディオファイルを指定して音楽生成を開始できます。ライブオーディオ入力やファインチューニングに対応した追加デモも用意されています。

【業界別】Magenta RealTime 2の活用シーン

Magenta RealTime 2は、さまざまな業界で応用可能なポテンシャルを持っています。ここからは業界別の活用イメージを整理していきましょう。

音楽・エンターテインメント業界

Magenta RealTime 2は、ライブパフォーマンスやインプロビゼーションの場で、パフォーマーがスタイル埋め込みやオーディオコンテキストを操作しながらリアルタイムに音楽を生成する使い方が想定されています。DJやライブアーティストが、MIDIコントローラーを使ってAIとセッションすることで、これまでにない即興表現が可能になるでしょう。

エンタメ業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

ゲーム開発業界

開発者がプレイヤーのアクションや環境に基づいて、リアルタイムにカスタムサウンドトラックを生成するユースケースが挙げられています。従来のループ素材を貼り付けるBGM実装とは異なり、MRT2を使えばゲーム内の状況変化に即応するアダプティブミュージックを実現できます。また、MIDI制御に対応しているため、ゲームエンジンからの信号でダイナミックに音楽を変化させることも可能です。

ゲーム業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

教育・アクセシビリティ

テキストプロンプトによる自然言語操作で、ユーザーが音楽のジャンル・楽器・歴史について手軽に学び、実験できるようになります。また、伝統的な楽器の演奏に障壁がある方でも、コミュニティでのジャムセッションやソロ音楽制作に参加できるという、アクセシビリティ面でのインパクトも大きいでしょう。

教育業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

【課題別】Magenta RealTime 2が解決できること

ここからは、Magenta RealTime 2がどのような課題に対してソリューションを提供できるかを整理していきましょう。

ライブ演奏でのAI活用における高レイテンシの壁を突破

従来の音楽生成AIは、生成に数秒〜数十秒を要するためライブパフォーマンスでの使用が困難でした。MRT2は、約200msのレイテンシを実現しており、人間の演奏者がリアルタイムでAIとセッションできるレベルに到達しています。フレームレベルの自己回帰方式により、入力変化への応答が約40msという極めて高速なレスポンスを実現しています。

楽器演奏のスキルバリアを解消

音楽制作には一般的に楽器演奏のスキルや音楽理論の知識が必要ですが、MRT2はテキストプロンプトで「funk」「blissful ambient synth」のように自然言語で音楽スタイルを指定できます。

MIDIキーボードでコードを1つ押さえるだけでモデルがアンサンブル全体を生成してくれるため、音楽制作へのエントリーバリアが大幅に下がるでしょう。

ゲームや映像制作における動的BGMを実現

ゲームや映像のBGMは、あらかじめ制作された固定トラックを使うのが一般的で、シーン展開にぴったり合った動的音楽を実現するのは困難でした。そこで、MRT2のMIDI制御とスタイル制御を組み合わせることで、プレイヤーの行動やシーンの変化に連動してリアルタイムに音楽を生成・変化させることが可能になります。

Magenta RealTime 2を使ってみた

それでは実際に、Plugin Bundleに含まれる「Jam」と「Collider」の2つのアプリを試してみました。

Jamアプリでプリセット切り替え&演奏

モデルを「mrt2_small」、MIDI INPUTを「COMPUTER KEYBOARD」に設定して起動。最初のプリセット「Dreamy Ambient Pads」を再生すると、ふわっとしたアンビエントサウンドがすぐに流れ始めました。

「Jazz Piano Trio」に切り替えると背景色がゴールドに変わり、サウンドも即座にジャズトリオ風に変化。PCキーボードの「J」キーで鍵盤を鳴らすと、押したノートにアンサンブルが追従しました。

さらに、「Chaos」スライダーを上げると即興的なフレーズが加わり、MIDIキーボードがなくてもPCキーボードだけで十分楽しめます。BUFFER SIZE 43ms、FRAME 75〜77%で安定動作していました。

Colliderアプリで複数スタイルをブレンド

Colliderは、2Dサーフェス上にスタイルノードを配置し、カーソル位置でブレンド比率を操作するアプリになっています。

「Lo-fi Hip Hop Beat」「Supersaw Complextro Chords」「Heavily Digitally Distorted Harp Shimmer」の3ノードが初期配置されており、カーソルを各ノードに近づけるだけでサウンドがリアルタイムに変化します。

「+」ボタンで「Fast Swing Jazz Clarinet and Guitar」を追加して4ノード構成にしたところ、「Inference time is high」の警告が出てFRAMEが85%まで上昇しました。音声が途切れるほどではありませんでしたが、ノード数を増やす場合はバッファサイズの調整が必要そうです。

よくある質問

Magenta RealTime 2に関するよくある質問をQA形式でまとめました。

Magenta RealTime 2はWindowsでも使えますか?

macOSアプリ(Plugin Bundle)はApple Silicon搭載のMacBook専用ですが、Pythonライブラリとしてのローカルインストールは40GB以上のVRAMを持つGPUとLinux環境があれば、Docker経由で利用可能です。また、Google Colabのデモノートブックを使えばブラウザ上でOS問わず体験できます。

生成された音楽の著作権はどうなりますか?

Googleは、MRT2を使用して生成された出力に対して権利を主張しません。出力およびその後の利用に関する責任はユーザーおよびそのユーザーに帰属します。ただし、他者の著作権コンテンツを含む権利を侵害する出力の生成は利用規約で禁止されているため、既存楽曲のコピーと見なされるような出力の商用利用は避けるべきです。

ボーカル入りの楽曲を生成できますか?

MRT2は主にインストゥルメンタルデータで学習されています。特定のプロンプトでボーカルサウンドやエフェクトが生成されることはありますが、非語彙的(意味のある歌詞を伴わない)ものにとどまるとされています。ボーカル入りの楽曲生成を主目的とする場合は、他のサービスとの併用が選択肢として出てくるでしょう。

Magenta RealTime 2でAIを楽器として演奏してみよう!

本記事では、Googleが2026年6月5日に公開したMagenta RealTime 2(MRT2)について、概要から仕組み、ライセンス、使い方、活用シーンまでを徹底解説しました。

MRT2の最大のインパクトは、AIを楽器として演奏するというコンセプトを、200ms未満のレイテンシとオンデバイス動作で実用レベルに引き上げた点にあります。オープンウェイト・オープンソースでの公開、DAWプラグインやMax/MSP拡張といった実用ツールの同時リリース、そして生成出力にGoogleが権利を主張しないというライセンス設計は、ミュージシャン・開発者・研究者のいずれにとっても魅力的な構成です。

Apple Silicon搭載のMacBookをお持ちの方は、ぜひ公式アプリを試してみてください。AI音楽の新しい体験が待っています。

最後に

いかがだったでしょうか?

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次