【Lyria 3】テキスト・画像・動画入力に対応したGoogleの音楽生成AIを徹底解説!

Lyria 3 テキスト 画像 動画 入力 対応 Google 音楽生成AI 徹底 解説
押さえておきたいポイント
  • Google DeepMind発のAI音楽生成モデル
  • Geminiアプリに統合され、テキストや画像をもとに、ボーカル・歌詞・インストゥルメンタルを含む30秒の高品質な楽曲をわずか数秒で生成
  • 会話の流れの中で楽曲を作り、その場でカバーアートまで生成できる

2026年2月19日、Google DeepMindが手がけるAI音楽生成モデル「Lyria 3」が公開されました!

Geminiアプリに統合される形でリリースされたこのモデルは、テキストや画像をもとに、ボーカル・歌詞・インストゥルメンタルを含む30秒の高品質な楽曲をわずか数秒で生成できます。音楽制作の経験がまったくない方でも、チャット画面にプロンプトを入力するだけで、オリジナル楽曲が完成してしまう、まさにAI音楽生成の新たなマイルストーンとなるサービスです。

従来のAI作曲ツールとは異なり、Geminiの中に音楽生成が自然に組み込まれているため、会話の流れの中で楽曲を作り、その場でカバーアートまで生成できる点が大きな特徴です。

そこで本記事では、Lyria 3の技術的な仕組みから使い方、料金プラン、ライセンス情報まで、徹底的に解説していきます。ぜひ最後までご覧ください!

\生成AIを活用して業務プロセスを自動化/

目次

Lyria 3とは?

Lyria 3とは?
参考:https://deepmind.google/models/lyria/

Lyria 3は、Google DeepMindが開発した音楽生成AIモデルです。

Geminiアプリのチャットインターフェースから直接利用できるので、テキストプロンプトによる指示だけで、メロディ、ハーモニー、リズム、ボーカル、歌詞を含んだ楽曲を自動生成することができます。

対応する入力はテキストだけでなく、写真や動画をアップロードすると、そのビジュアルの雰囲気に合ったBGMを生成してくれるマルチモーダル対応が大きな魅力です。

生成される楽曲は最大30秒で、出力フォーマットはMP4(動画)とMP3(音声)に対応しています。

Lyria 3とは?
参考:https://deepmind.google/models/lyria/

ジャンルはポップ、ロック、エレクトロニック、ジャズ、オーケストラ、アンビエント、映画音楽など幅広くカバーしていて、80年代シンセポップやラテンポップ、90年代ヒップホップといった時代やスタイルの指定も可能です。

対応言語は英語、ドイツ語、スペイン語、フランス語、ヒンディー語、日本語、韓国語、ポルトガル語の8言語で、日本語でのプロンプト入力や歌詞生成にも対応しています。なお、利用には18歳以上であることが条件となっています。

YouTubeの「Dream Track」機能にも統合されており、YouTubeショート動画向けのBGM生成にも活用できます。Google DeepMindはLyria 3を「プロデューサーやミュージシャンの意見を取り入れて開発した、音楽性を理解するAI」と位置付けています。

Lyria 3の仕組み

Lyria 3は、音声生成に特化したLatent Diffusion(潜在拡散)アーキテクチャを採用しています。

Lyria 3の仕組み

画像生成AIのStable Diffusionと同様に、ノイズからデータを段階的に復元するプロセスを音声に応用した設計です。具体的な処理の流れとしては、まずユーザーが入力したテキストプロンプトが、Transformerベースの言語エンコーダーでセマンティックベクトル(意味表現)に変換されます。

このベクトルが、拡散ベースの音声デコーダーに渡され、メロディ・ハーモニー・リズム・ボーカルといった音楽要素を段階的に生成していきます。

画像や動画が入力された場合は、視覚的な内容の解析・シーン検出が行われ、それに応じた音楽要素が同期的に生成されます。

Lyria 3の特徴

Lyria 3の特徴

Lyria 3の1番の特徴は、Geminiの会話インターフェースとシームレスに統合されている点です。専用の音楽生成ツールを別途起動する必要がなく、チャットの中で「こういう曲を作って」と指示するだけで楽曲が生成されます。

生成後に「もう少しテンポを速くして」「ボーカルを女性に変えて」といった追加指示を対話形式で行うことができるので、音楽プロデューサーと会話するような体験が得られます。

前世代のLyria 2と比較すると、楽曲の複雑さとリアリティが大幅に向上しています。

特に、自動歌詞生成の能力が新たに加わり、ユーザーが歌詞を考える必要なくプロンプトの雰囲気に合った歌詞を自動で作詞し、メロディに乗せて歌ってくれます。ジャンルごとの完成度としては、エレクトロニック、ポップ、オーケストラといった西洋音楽のジャンルが特に高い忠実度を示しています。

もう1つの注目ポイントは、画像・動画からの楽曲生成です。

旅行先で撮った風景写真やペットの動画をアップロードすれば、その雰囲気に合ったサウンドトラックを作成してくれます。

なお、特定のアーティスト名をプロンプトに含めた場合、そのアーティストのサウンドを直接模倣するのではなく、あくまで「広義のクリエイティブなインスピレーション」として処理される設計になっています。これは著作権保護の観点から意図的に設けられた制約です。

なお、初代モデル「Lyria」について詳しく知りたい方は、以下の記事も参考にしてみてください。

Lyria 3の安全性・制約

Lyria 3では、Google DeepMindが開発した電子透かし技術「SynthID」がすべての生成楽曲に埋め込まれます

この透かしは、人間の耳には聞こえませんが、圧縮や編集を行った後でもソフトウェアによって検出可能で、AI生成コンテンツであることを事後的に確認できるようになっています。

また、コンテンツフィルタリングも実装されていて、有害な歌詞や不適切な内容の生成を抑制する仕組みが備わっています。

さらに、生成された楽曲が既存の楽曲と酷似していないかをチェックするレシテーション(引用)チェック機能や、アーティストの意図を尊重するためのアーティストインテントチェックも導入されています。

Lyria 3の料金

Lyria 3はGeminiアプリの無料ユーザーでも利用できますが、上位プランのサブスクライバーほど多くの楽曲を生成できる仕組みになっています。

具体的な生成回数の上限は公開されていませんが、無料プランでも基本的な楽曲生成は体験できるため、まずは試してみたいという方にとってもハードルは低いと思います。

プラン月額料金
無料
Google AI Plus20ドル
Google AI Pro19.99ドル
Google AI Ultra249.99ドル
Google AIプラン別料金

Lyria 3のライセンス

Lyria 3で生成された楽曲の権利関係は、Googleの生成AI利用規約に準拠しています。基本的に、生成されたコンテンツの所有権はユーザーに帰属し、Google側が著作権を主張することはありません。

利用用途可否備考
商用利用⭕️
改変🔺YouTubeショート等のBGMとして動画に組み込む利用は想定されています。ただし楽曲単体の販売は推奨されていません。
配布⭕️
特許使用🔺Google利用規約およびジェネレーティブAI禁止事項ポリシーに従う必要があります。
私的使用⭕️
Lyria 3のライセンス

ただし、2026年現在の法解釈では、AIが完全に自動生成した楽曲には著作権が成立しない(法的に排他的権利を主張することが難しい)という見解が一般的であるため、商用利用には注意が必要です。

Lyria 3の使い方

Lyria 3はGeminiアプリから直接利用することができます。特別なセットアップは不要で、Googleアカウントがあればすぐに始められます。

Geminiアプリでテキストから楽曲を生成する

STEP

Geminiにアクセスする

ブラウザで gemini.google.com にアクセスし、Googleアカウントでログインします。スマートフォンの場合はGeminiアプリからも利用できます。

STEP

音楽生成ツールを選択する

画像に alt 属性が指定されていません。ファイル名: -2026-02-20-8.16.07-1024x554.png

チャット画面のプロンプト入力欄の付近にある「ツール」メニューから「音楽を作成」を選択します。もしくは、チャットに直接「曲を作って」と入力するだけでも音楽生成モードに切り替わります。

STEP

プロンプトを入力する

生成したい楽曲のイメージをテキストで入力します。より良い結果を得るために、以下の要素を含めるのがおすすめです。

  • ジャンルと時代(例:「80年代シンセポップ」「90年代ヒップホップ」)
  • テンポとリズム(例:「アップビートで踊れる」「スローバラード」)
  • 楽器の指定(例:「アコースティックギター中心」「ピアノとストリングス」)
  • ボーカルの属性(例:「女性ボーカル」「男性のハスキーな声」)
  • 歌詞のテーマ(例:「夏の海辺の恋」「都会の夜景」)

プロンプト例

80年代風のシンセポップで、女性ボーカル、
夏の夕暮れをテーマにした爽やかな楽曲を作ってください
STEP

楽曲を確認・調整する

数秒で楽曲が生成されます。気に入らない部分があれば、同じチャット内で「テンポをもう少し速くして」「ボーカルを男性に変えて」などと指示して調整できます。

STEP

ダウンロードまたは共有する

生成された楽曲はMP4またはMP3形式でダウンロードできます。共有用の固定URLも発行されるため、SNSなどで共有することも可能です。

画像・動画から楽曲を生成する

Geminiのチャット画面で写真や動画をアップロードし、「この画像の雰囲気に合う曲を作って」と指示します。

すると、Lyria 3がビジュアルの内容やムードを分析し、それにマッチした歌詞付きトラックを自動生成します。旅行写真やペットの動画、イベントの思い出の写真など、あらゆるビジュアルを音楽に変換できます。

Vertex AI APIで利用する(開発者向け)

開発者やエンタープライズ用途では、Vertex AI経由でLyriaモデルをAPI利用することも可能です。

2026年2月20日時点でVertex AIで提供されているモデルIDは従来モデル lyria-002(Lyria 2)で、REST APIから呼び出す形式です。

POST /v1/projects/{PROJECT_ID}/locations/{LOCATION}/publishers/google/models/lyria-002:predict

リクエストパラメータとして、prompt(楽曲の説明)、negative_prompt(除外したい要素)、seed(再現性のためのシード値)、sample_count(生成するクリップ数)などが指定できます。出力は48kHz WAV形式で、1クリップあたり約32.8秒の楽曲が生成されます。

【業界別】Lirya 3の活用シーン

Lirya 3には様々な活用方法があります。ここでは、いくつかの業界別にLirya 3の活用シーンを紹介します。

映像・動画制作業界

YouTubeショートやTikTok向けのBGMを著作権フリーで即座に生成できるため、動画クリエイターにとっては非常に実用的です。

撮影した映像をそのままGeminiにアップロードし、映像の雰囲気に合った音楽を数秒で用意できるため、BGM選定にかけていた時間を大幅に削減できます。

なお、エンタメ業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

広告・マーケティング業界

広告用のジングルやプロモーション動画のBGMを、コンセプトに合わせてスピーディに生成できます。複数パターンを短時間で試作できるため、クライアントへの提案の幅が広がります。

なお、広告業界における生成AI導入事例について、詳しく知りたい方は以下の記事も参考にしてみてください。

ゲーム・アプリ開発業界

プロトタイプ段階でのBGM仮当てに活用できます。本格的な楽曲制作を作曲家に依頼する前に、Lyria 3でイメージに近い雰囲気のサンプルを生成し、方向性をチーム内で共有するといった使い方が効果的です。

なお、ゲーム業界における生成AIの活用については下記の記事を参考にしてください。

教育・研究分野

音楽理論の教材として、特定のジャンルやスタイルの楽曲を即座に生成して比較するといった使い方ができます。AI生成音楽の品質評価や、SynthID透かし技術の検証といった研究用途にも適しています。

なお、生成AIによる教育業界の業務効率かについて、詳しく知りたい方は以下の記事も参考にしてみてください。

個人クリエイター・SNSユーザー

音楽制作の知識がなくても、自分だけのオリジナル楽曲を作ってSNSで共有できます。誕生日の動画やイベントの思い出映像にパーソナライズされたBGMを添えるなど、日常的な表現の幅が広がります。

なお、クリエイティブ作成における生成AIの活用方法は下記の記事を参考にしてください。

【課題別】Lyria 3が解決できること

Lyria 3の登場でいくつかの課題も解決できるようになりました。ここでは、Lyria 3が解決できる課題の一部をいくつか紹介します。

BGM探しの時間が短縮

フリー音源サイトでイメージに合うBGMを延々と探し続ける、という作業から解放されると思います。テキストで欲しい雰囲気を伝えるだけで、コンセプトにぴったりのオリジナル楽曲がすぐに手に入ります。

著作権の心配をせずにBGMを使える

フリー素材であっても利用規約の確認が必要なケースは多いですが、Lyria 3で生成した楽曲はユーザー自身が所有権を持つため、著作権侵害のリスクを気にせずに利用することができます。

音楽制作のスキルなしでもオリジナル楽曲を用意できる

作曲や編曲の知識がなくても、自然言語で指示するだけでプロ品質に近い楽曲が生成されます。音楽制作の民主化という観点で、大きなインパクトを持つツールです。

なお、音楽生成AIツールのおすすめ11選について、詳しく知りたい方は以下の記事も参考にしてみてください。

Lyria 3を使ってみた

実際にGeminiアプリからLyria 3を試してみましょう。今回は3つのパターンで検証を行い、生成楽曲のクオリティと実用性を確認していきます。

検証1:テキストプロンプトでJ-POP風楽曲を生成

切ない冬の恋をテーマにした、女性ボーカルのJ-POPバラードを作ってください。
ピアノとストリングスを中心にして、テンポはゆっくりめでお願いします。

20秒ほどで楽曲が生成されました。ピアノのイントロからストリングスが入ってくる構成は指示通りになっています。自動生成された日本語歌詞も文法的には自然ですね。

検証2:写真からの楽曲生成

次に、Nano Banana Proで生成した夕焼けのワイキキビーチの風景写真をアップロードし、「この写真の雰囲気に合う曲を作って」と入力しました。

生成された楽曲はチルアウト系のトラックで、写真の穏やかな雰囲気とよくマッチしていると思います。テキストで音楽のイメージを言語化するのが苦手な方にとって、画像入力は非常に便利な入力方法だと感じます。

全体として、無料で手軽に使えるAI音楽生成ツールとしては十分なクオリティだと感じました。

SunoUdioといった専門特化型のサービスと比較するとまだ差はありますが、Geminiの会話フローの中で楽曲を生成し、そのまま同じチャット内でカバーアートの生成やプロンプトの微調整ができるのは非常に便利だと思います。

なお、Suno AIの活用事例について、詳しく知りたい方は以下の記事も参考にしてみてください。

よくある質問

Lyria 3は無料で使えますか?

はい、Geminiアプリの無料ユーザーでもLyria 3を利用して楽曲を生成できます。

ただし、無料プランでは生成回数に制限があります。Google AI Plus(月額約$20)やAI Pro(月額$19.99)にアップグレードすると、より多くの楽曲を生成できるようになります。また、18歳以上であることが利用条件です。

生成した楽曲をYouTubeやSNSに投稿しても問題ありませんか?

基本的に問題ありません。Googleの利用規約では、生成コンテンツの所有権はユーザーに帰属するとされています。YouTubeショートのBGMとして動画に組み込む利用も想定されています。

ただし、楽曲単体の販売や音楽配信プラットフォームでの販売については、AI生成コンテンツの著作権保護が法的に不透明な部分があるため注意が必要です。

日本語で歌詞付きの楽曲を作れますか?

はい、日本語は対応言語に含まれており、日本語プロンプトによる歌詞生成にも対応しています。

ただし、現時点では日本語のボーカル生成は実験的な段階にあり、歌詞の明瞭度や自然さにはばらつきがある場合があります。英語やスペイン語など他の対応言語と比べると、改善の余地が残されている印象です。

まとめ

Lyria 3は、Google DeepMindが開発したLatent Diffusionベースの音楽生成AIモデルで、Geminiアプリに統合される形でリリースされました。

テキスト・画像・動画からボーカル・歌詞付きの30秒楽曲を生成でき、無料ユーザーでも利用可能です。

気になった方は、ぜひ一度試してみてください。

最後に

いかがだったでしょうか?

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次