【Stable Audio 2.0】Suno超え?最長3分のトラックを生成できる作曲AIの使い方と料金プランを解説
WEELメディア事業部LLMリサーチャーの中田です。
4月3日、高品質な音楽・音声を生成できる「Stable Audio 2.0」を、Stability AIが公開しました。Stable Audio 2.0の凄いポイントは、以下の通りです。
- 44.1kHzステレオ(高品質)な音楽を生成可能
- 最大3分間の音楽を生成可能
- 自然言語プロンプトを通して、様々な音声の編集が可能
- これまで以上に、直感的に音楽や音を生成可能になった
Xでの投稿のいいね数は、すでに1400を超えており、インプレッション数も30万近くと、大注目のツールであることが分かります。
この記事ではStable Audio 2.0の使い方や、有効性の検証まで行います。本記事を熟読することで、Stable Audio 2.0の凄さを理解し、Suno AIには戻れなくなるでしょう。
ぜひ、最後までご覧ください。
Stable Audio 2.0の概要
Stable Audio 2.0は、Stability AIが開発した音楽生成AI「Stable Audio」の最新版です。テキストプロンプトから、高品質な音楽トラックを生成できるのが特徴です。
主な新機能は以下の通り。
- イントロ→展開→アウトロの構造を持つ最大3分の楽曲を生成可能(以前のバージョンは45秒までの制限)
- 既存の音楽・音声を編集可能
- 様々な効果音の生成が改善
Stable Audio 2.0は、以前の1.0バージョンよりも、格段にパワーアップしたと言えるでしょう。
そしてついに、テキストプロンプトだけでなく、「ユーザーがアップロードしたオーディオサンプルを変換して、新しい音楽を作る」ことも可能になったのです。
これにより、既存の音楽を編集したり、独自のスタイルに合わせてアレンジしたりできます。
Stable Audioの公式YouTubeチャンネルでは、AIで生成された楽曲を24時間ストリーミング配信しています。
Stable Audio 2.0は現在、同社のウェブサイトで無料で利用でき、近日中にAPIでも提供開始される予定とのこと。
Stable Audio 2.0の技術的な詳細
以下、公式ブログに記載された技術的な詳細です。
Stable Audio 2.0は、800,000以上のオーディオファイルからなる「AudioSparxのデータセット」で学習されています。また、著作権侵害を防ぐために、「Audible Magicのコンテンツ認識技術」を採用しています。
技術的には、オーディオ波形を圧縮する新しいオートエンコーダーと、長い系列データ操作に優れたDiffusion Transformer (DiT)を採用することで、一貫性のある長尺の音楽生成を実現しています。
このDiTは、あのSoraにも使われた技術と同じですね。
また、2023年9月に公開されたStable Audio 1.0を基盤としているとのこと。ちなみに、Stable Audio 1.0は、タイム誌の 2023 年の最優秀発明の1 つに選ばれたそう。
進化した音楽生成AIのSuno v3については、以下の記事を合わせてご確認ください。
→【Suno v3】2秒で2分の曲を作れるSuno AIの使い方や料金体系を解説
Stable Audio 2.0の料金
公式ページによると、無料版では3分までの楽曲を月20曲まで作成でき、有料版では500~4500曲まで可能です。
プラン | 月額料金 | 作成可能な楽曲数(月ごと) | アプロード可能な音声の最大時間(月ごと) | 商用利用 |
---|---|---|---|---|
Free | 無料 | 20 | 3分、1音声30秒 | ❌ |
Pro | 11.99ドル | 500 | 30分、1音声3分 | ⭕️ |
Studio | 29.99ドル | 1350 | 60分、1音声3分 | ⭕️ |
Max | 89.99ドル | 4500 | 90分、1音声3分 | ⭕️ |
Stable Audio 2.0の使い方
Stable Audio 2.0を無料で試すには、Stable Audio 2.0のブラウザ版にアクセスしましょう。
そして、画面右下の「Try now」をクリックして、登録なども済ませてください。
すると、以下のような画面に移ります。
左の列でいろいろと操作できるみたいです。各項目の意味は、以下の通り。
- Prompt
- Prompt Library(作りたい音楽のジャンルごとに、プロンプトテンプレートを選べる)
- Model(「Stable Audio AudioSparx 2.0」が今回のStable Audio 2.0)
- Duration(作りたい曲の長さ)
- Input audio(編集したい音声ファイルのアップロード)
Input audioでは、編集した音声をアップロードし、テキストプロンプトを入力すると、プロンプトに沿って音声を編集してくれます。Input audioの詳細は、公式ページの解説をご覧ください。
また、左下の「Add extras」をクリックすると、以下の項目も設定できるようになります。
- Steps(生成ステップ数)
- Number of Results(生成される楽曲数)
- Seed(いわゆるシード値)
- Prompt strength(プロンプトの影響度合い)
実際に1曲作ってみました。
できた楽曲は以下の通りです。
かなり高品質な音楽が生成できたと思います。
Meta開発のText-to-Musicモデルについては、以下の記事を合わせてご確認ください。
→【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで
Stable Audio 2.0はどのくらい進化したのか検証
ここでは、Stable Audio 2.0の凄さを検証するために、以下のタスクを実行してみました。
- Stable Audio 2.0 vs Stable Audio 1.0
- Stable Audio 2.0でAudio-to-Audioを試した
- やる気以前のダースベイダーのテーマをいい感じの音楽に変換
それでは順番に見ていきましょう。
Stable Audio 2.0 vs Stable Audio 1.0
Stable Audio 2.0と、以前バージョンのStable Audio 1.0に、同じプロンプトを入力してみて、出力結果を比較してみたいと思います。
果たしてStable Audio 2.0は、本当に進化を遂げたのか?
使用したプロンプトは、以下の通りです。
Ambient, nu-disco, emotional chords, 110 bpm.
Stable Audio 2.0の結果
Stable Audio 1.0の結果
続いて、以下のプロンプトを入力してみました。
Post Rock, echoing electric guitars with chorus, well recorded drum-kit, Electric Bass, occasional soaring harmonies, Moving, Epic, Climactic
Stable Audio 2.0の結果
Stable Audio 1.0の結果
確実にStable Audio 2.0はパワーアップしていますね。Stable Audio 2.0の方が安定した展開を見せており、曲としての完成度が高いかなと思います。
また、Stable Audio 2.0の方が、細かい音も丁寧に組み込めており、音質も良い感じがしました。
できればSunoと比較してみたかったですが、現在使えなかったので、またの機会に実施してみます。
Stable Audio 2.0のAudio-to-Audioを試してみた
ちなみに、Stable audio 2.0の目玉の一つであるAudio-to-Auioも、試してみました。
以下の動画の指ドラムから、指ドラムループを拝借して、それを高品質なドラムループに変換したいと思います。
上記の動画から、以下の音声部分を抜き出し、ドラムループを作成してみます。
使用したプロンプトは、以下の通りです。
Drums
生成された音声は、以下の通りです。
続いて、以下のプロンプトを使用して、Lofiビートを作ってみます。
lofi hip hop beat
生成された音声は、以下の通りです。
やる気以前のダースベイダーのテーマをいい感じの音楽に変換
続いて、以下の「やる気以前のダースベイダーのテーマ」を、いい感じの音楽に変換したいと思います。
上記の音声と同時に、以下のプロンプトを入力してみます。
Trance, Ibiza, Beach, Sun, 4 AM, Progressive, Synthesizer, 909, Dramatic Chords, Choir, Euphoric, Nostalgic, Dynamic, Flowing
生成された音楽は、以下の通りです。
Googleが開発した音楽生成AIについては、以下の記事を合わせてご確認ください。
→MusicFXとは?Googleが生み出した音楽生成AIの利用方法や注意点を徹底解説
Stable Audio 2.0で本当にアーティストが無くなるかも?
本記事では、Stability AIの超高性能な音楽生成AI「Stable Audio 2.0」についてご紹介しました。
実際に作ってみて、かなり高品質な音楽が作れることが分かりました。おそらく、素人目には「プロのアーティストが作ったのだ」と間違えるほどだと思います。
今後のAIと音楽業界との関わりについても、要注目です。
ちなみに、Xでは「AI業界の人たちが『リフや音色ジェネレーター』を作らず、『完全な音楽』を作るAIに集中していることに理解できない。ミュージシャンにとっては、1曲まるまる作るAIをそれほど望んでいるとは思えない。」という意見が挙がっています。
当スレでは、「動画クリエイターにとっては、それで十分なんだよ」「Stable Audioなら、単一楽器のトラックやサウンドエフェクトなども作成できるよ」など、活発な議論が繰り広げられています。
また、以下のRedditのスレッドでは、「ローカルで使えないのが残念」「オープンソース化してほしい」「価格設定が高めに感じる」「生成音楽の品質はまだ物足りない」などのネガティブな意見もあがっています。
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。