【Stable Audio 2.0】Suno超え？最長3分のトラックを生成できる作曲AIの使い方と料金プランを解説

2024-04-052024-04-08

Stable-Audio-2.0 Suno 最長3分トラック生成作曲AI 使い方料金プラン解説

WEELメディア事業部LLMリサーチャーの中田です。

4月3日、高品質な音楽・音声を生成できる「Stable Audio 2.0」を、Stability AIが公開しました。Stable Audio 2.0の凄いポイントは、以下の通りです。

44.1kHzステレオ（高品質）な音楽を生成可能
最大3分間の音楽を生成可能
自然言語プロンプトを通して、様々な音声の編集が可能
これまで以上に、直感的に音楽や音を生成可能になった

Introducing Stable Audio 2.0 – a new model capable of producing high-quality, full tracks with coherent musical structure up to three minutes long at 44.1 kHz stereo from a single prompt.

Explore the model and start creating for free at: https://t.co/E9ZIGagmPf

Read the… pic.twitter.com/rFGb0KpdeX
— Stability AI (@StabilityAI) April 3, 2024

Xでの投稿のいいね数は、すでに1400を超えており、インプレッション数も30万近くと、大注目のツールであることが分かります。

この記事ではStable Audio 2.0の使い方や、有効性の検証まで行います。本記事を熟読することで、Stable Audio 2.0の凄さを理解し、Suno AIには戻れなくなるでしょう。

ぜひ、最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Stable Audio 2.0の概要

Stable Audio 2.0は、Stability AIが開発した音楽生成AI「Stable Audio」の最新版です。テキストプロンプトから、高品質な音楽トラックを生成できるのが特徴です。

主な新機能は以下の通り。

イントロ→展開→アウトロの構造を持つ最大3分の楽曲を生成可能（以前のバージョンは45秒までの制限）
既存の音楽・音声を編集可能
様々な効果音の生成が改善

Stable Audio 2.0は、以前の1.0バージョンよりも、格段にパワーアップしたと言えるでしょう。

そしてついに、テキストプロンプトだけでなく、「ユーザーがアップロードしたオーディオサンプルを変換して、新しい音楽を作る」ことも可能になったのです。

これにより、既存の音楽を編集したり、独自のスタイルに合わせてアレンジしたりできます。

Stable Audioの公式YouTubeチャンネルでは、AIで生成された楽曲を24時間ストリーミング配信しています。

Stable Audio 2.0は現在、同社のウェブサイトで無料で利用でき、近日中にAPIでも提供開始される予定とのこと。

Stable Audio 2.0の技術的な詳細

以下、公式ブログに記載された技術的な詳細です。

Stable Audio 2.0は、800,000以上のオーディオファイルからなる「AudioSparxのデータセット」で学習されています。また、著作権侵害を防ぐために、「Audible Magicのコンテンツ認識技術」を採用しています。

技術的には、オーディオ波形を圧縮する新しいオートエンコーダーと、長い系列データ操作に優れたDiffusion Transformer (DiT)を採用することで、一貫性のある長尺の音楽生成を実現しています。

参考：https://stability.ai/news/stable-audio-2-0?utm_source=website&utm_medium=twitter&utm_campaign=blog

このDiTは、あのSoraにも使われた技術と同じですね。

また、2023年9月に公開されたStable Audio 1.0を基盤としているとのこと。ちなみに、Stable Audio 1.0は、タイム誌の 2023 年の最優秀発明の1 つに選ばれたそう。

進化した音楽生成AIのSuno v3については、以下の記事を合わせてご確認ください。
→【Suno v3】2秒で2分の曲を作れるSuno AIの使い方や料金体系を解説

Stable Audio 2.0の料金

公式ページによると、無料版では3分までの楽曲を月20曲まで作成でき、有料版では500～4500曲まで可能です。

プラン	月額料金	作成可能な楽曲数（月ごと）	アプロード可能な音声の最大時間（月ごと）	商用利用
Free	無料	20	3分、1音声30秒	❌
Pro	11.99ドル	500	30分、1音声3分	⭕️
Studio	29.99ドル	1350	60分、1音声3分	⭕️
Max	89.99ドル	4500	90分、1音声3分	⭕️

参考：https://stableaudio.com/pricing

Stable Audio 2.0の使い方

Stable Audio 2.0を無料で試すには、Stable Audio 2.0のブラウザ版にアクセスしましょう。

そして、画面右下の「Try now」をクリックして、登録なども済ませてください。

すると、以下のような画面に移ります。

左の列でいろいろと操作できるみたいです。各項目の意味は、以下の通り。

Prompt
Prompt Library（作りたい音楽のジャンルごとに、プロンプトテンプレートを選べる）
Model（「Stable Audio AudioSparx 2.0」が今回のStable Audio 2.0）
Duration（作りたい曲の長さ）
Input audio（編集したい音声ファイルのアップロード）

Input audioでは、編集した音声をアップロードし、テキストプロンプトを入力すると、プロンプトに沿って音声を編集してくれます。Input audioの詳細は、公式ページの解説をご覧ください。

また、左下の「Add extras」をクリックすると、以下の項目も設定できるようになります。

Steps（生成ステップ数）
Number of Results（生成される楽曲数）
Seed（いわゆるシード値）
Prompt strength（プロンプトの影響度合い）

実際に1曲作ってみました。

できた楽曲は以下の通りです。

かなり高品質な音楽が生成できたと思います。

Meta開発のText-to-Musicモデルについては、以下の記事を合わせてご確認ください。
→【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで

Stable Audio 2.0はどのくらい進化したのか検証

ここでは、Stable Audio 2.0の凄さを検証するために、以下のタスクを実行してみました。

Stable Audio 2.0 vs Stable Audio 1.0
Stable Audio 2.0でAudio-to-Audioを試した
やる気以前のダースベイダーのテーマをいい感じの音楽に変換

それでは順番に見ていきましょう。

Stable Audio 2.0 vs Stable Audio 1.0

Stable Audio 2.0と、以前バージョンのStable Audio 1.0に、同じプロンプトを入力してみて、出力結果を比較してみたいと思います。

果たしてStable Audio 2.0は、本当に進化を遂げたのか？

使用したプロンプトは、以下の通りです。

Ambient, nu-disco, emotional chords, 110 bpm.

Stable Audio 2.0の結果

Stable Audio 1.0の結果

続いて、以下のプロンプトを入力してみました。

Post Rock, echoing electric guitars with chorus, well recorded drum-kit, Electric Bass, occasional soaring harmonies, Moving, Epic, Climactic

Stable Audio 2.0の結果

Stable Audio 1.0の結果

確実にStable Audio 2.0はパワーアップしていますね。Stable Audio 2.0の方が安定した展開を見せており、曲としての完成度が高いかなと思います。

また、Stable Audio 2.0の方が、細かい音も丁寧に組み込めており、音質も良い感じがしました。

できればSunoと比較してみたかったですが、現在使えなかったので、またの機会に実施してみます。

Stable Audio 2.0のAudio-to-Audioを試してみた

ちなみに、Stable audio 2.0の目玉の一つであるAudio-to-Auioも、試してみました。

以下の動画の指ドラムから、指ドラムループを拝借して、それを高品質なドラムループに変換したいと思います。

上記の動画から、以下の音声部分を抜き出し、ドラムループを作成してみます。

使用したプロンプトは、以下の通りです。

Drums

生成された音声は、以下の通りです。

続いて、以下のプロンプトを使用して、Lofiビートを作ってみます。

lofi hip hop beat

生成された音声は、以下の通りです。

やる気以前のダースベイダーのテーマをいい感じの音楽に変換

続いて、以下の「やる気以前のダースベイダーのテーマ」を、いい感じの音楽に変換したいと思います。

上記の音声と同時に、以下のプロンプトを入力してみます。

Trance, Ibiza, Beach, Sun, 4 AM, Progressive, Synthesizer, 909, Dramatic Chords, Choir, Euphoric, Nostalgic, Dynamic, Flowing

生成された音楽は、以下の通りです。

Googleが開発した音楽生成AIについては、以下の記事を合わせてご確認ください。
→MusicFXとは？Googleが生み出した音楽生成AIの利用方法や注意点を徹底解説

Stable Audio 2.0で本当にアーティストが無くなるかも？

本記事では、Stability AIの超高性能な音楽生成AI「Stable Audio 2.0」についてご紹介しました。

実際に作ってみて、かなり高品質な音楽が作れることが分かりました。おそらく、素人目には「プロのアーティストが作ったのだ」と間違えるほどだと思います。

今後のAIと音楽業界との関わりについても、要注目です。

ちなみに、Xでは「AI業界の人たちが『リフや音色ジェネレーター』を作らず、『完全な音楽』を作るAIに集中していることに理解できない。ミュージシャンにとっては、1曲まるまる作るAIをそれほど望んでいるとは思えない。」という意見が挙がっています。

I don't understand why people in AI aren't making riff or timbre generators and are instead focused on this 'complete music' approach.

Musicians would love granular tools. Not sure anyone wants infinite stock music that much.
— Moonlit Monkey (@MoonlitMonkey69) April 3, 2024

当スレでは、「動画クリエイターにとっては、それで十分なんだよ」「Stable Audioなら、単一楽器のトラックやサウンドエフェクトなども作成できるよ」など、活発な議論が繰り広げられています。

また、以下のRedditのスレッドでは、「ローカルで使えないのが残念」「オープンソース化してほしい」「価格設定が高めに感じる」「生成音楽の品質はまだ物足りない」などのネガティブな意見もあがっています。

Introducing Stable Audio 2.0 — Stability AI
byu/Nunki08 inStableDiffusion

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ