【Stable Audio 2.0】Suno超え?最長3分のトラックを生成できる作曲AIの使い方と料金プランを解説

Stable-Audio-2.0 Suno 最長3分 トラック 生成 作曲AI 使い方 料金プラン 解説

WEELメディア事業部LLMリサーチャーの中田です。

4月3日、高品質な音楽・音声を生成できる「Stable Audio 2.0」を、Stability AIが公開しました。Stable Audio 2.0の凄いポイントは、以下の通りです。

  • 44.1kHzステレオ(高品質)な音楽を生成可能
  • 最大3分間の音楽を生成可能
  • 自然言語プロンプトを通して、様々な音声の編集が可能
  • これまで以上に、直感的に音楽や音を生成可能になった

Xでの投稿のいいね数は、すでに1400を超えており、インプレッション数も30万近くと、大注目のツールであることが分かります。

この記事ではStable Audio 2.0の使い方や、有効性の検証まで行います。本記事を熟読することで、Stable Audio 2.0の凄さを理解し、Suno AIには戻れなくなるでしょう。

ぜひ、最後までご覧ください。

目次

Stable Audio 2.0の概要

Stable Audio 2.0は、Stability AIが開発した音楽生成AI「Stable Audio」の最新版です。テキストプロンプトから、高品質な音楽トラックを生成できるのが特徴です。

主な新機能は以下の通り。

  • イントロ→展開→アウトロの構造を持つ最大3分の楽曲を生成可能(以前のバージョンは45秒までの制限)
  • 既存の音楽・音声を編集可能
  • 様々な効果音の生成が改善

Stable Audio 2.0は、以前の1.0バージョンよりも、格段にパワーアップしたと言えるでしょう。

そしてついに、テキストプロンプトだけでなく、「ユーザーがアップロードしたオーディオサンプルを変換して、新しい音楽を作る」ことも可能になったのです。

これにより、既存の音楽を編集したり、独自のスタイルに合わせてアレンジしたりできます。

Stable Audioの公式YouTubeチャンネルでは、AIで生成された楽曲を24時間ストリーミング配信しています。

Stable Audio 2.0は現在、同社のウェブサイトで無料で利用でき、近日中にAPIでも提供開始される予定とのこと。

Stable Audio 2.0の技術的な詳細

以下、公式ブログに記載された技術的な詳細です。

Stable Audio 2.0は、800,000以上のオーディオファイルからなる「AudioSparxのデータセット」で学習されています。また、著作権侵害を防ぐために、「Audible Magicのコンテンツ認識技術」を採用しています。

技術的には、オーディオ波形を圧縮する新しいオートエンコーダーと、長い系列データ操作に優れたDiffusion Transformer (DiT)を採用することで、一貫性のある長尺の音楽生成を実現しています。

参考:https://stability.ai/news/stable-audio-2-0?utm_source=website&utm_medium=twitter&utm_campaign=blog

このDiTは、あのSoraにも使われた技術と同じですね。

また、2023年9月に公開されたStable Audio 1.0を基盤としているとのこと。ちなみに、Stable Audio 1.0は、タイム誌の 2023 年の最優秀発明の1 つに選ばれたそう。

進化した音楽生成AIのSuno v3については、以下の記事を合わせてご確認ください。
【Suno v3】2秒で2分の曲を作れるSuno AIの使い方や料金体系を解説

Stable Audio 2.0の料金

公式ページによると、無料版では3分までの楽曲を月20曲まで作成でき、有料版では500~4500曲まで可能です。

プラン月額料金作成可能な楽曲数(月ごと)アプロード可能な音声の最大時間(月ごと)商用利用
Free無料203分、1音声30秒
Pro11.99ドル50030分、1音声3分⭕️
Studio29.99ドル135060分、1音声3分⭕️
Max89.99ドル450090分、1音声3分⭕️
参考:https://stableaudio.com/pricing
参考:https://stableaudio.com/pricing

Stable Audio 2.0の使い方

Stable Audio 2.0を無料で試すには、Stable Audio 2.0のブラウザ版にアクセスしましょう。

そして、画面右下の「Try now」をクリックして、登録なども済ませてください。

すると、以下のような画面に移ります。

左の列でいろいろと操作できるみたいです。各項目の意味は、以下の通り。

  • Prompt
  • Prompt Library(作りたい音楽のジャンルごとに、プロンプトテンプレートを選べる)
  • Model(「Stable Audio AudioSparx 2.0」が今回のStable Audio 2.0)
  • Duration(作りたい曲の長さ)
  • Input audio(編集したい音声ファイルのアップロード)

Input audioでは、編集した音声をアップロードし、テキストプロンプトを入力すると、プロンプトに沿って音声を編集してくれます。Input audioの詳細は、公式ページの解説をご覧ください。

また、左下の「Add extras」をクリックすると、以下の項目も設定できるようになります。

  • Steps(生成ステップ数)
  • Number of Results(生成される楽曲数)
  • Seed(いわゆるシード値)
  • Prompt strength(プロンプトの影響度合い)

実際に1曲作ってみました。

できた楽曲は以下の通りです。

かなり高品質な音楽が生成できたと思います。

Meta開発のText-to-Musicモデルについては、以下の記事を合わせてご確認ください。
【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで

Stable Audio 2.0はどのくらい進化したのか検証

ここでは、Stable Audio 2.0の凄さを検証するために、以下のタスクを実行してみました。

  • Stable Audio 2.0 vs Stable Audio 1.0
  • Stable Audio 2.0でAudio-to-Audioを試した
  • やる気以前のダースベイダーのテーマをいい感じの音楽に変換

それでは順番に見ていきましょう。

Stable Audio 2.0 vs Stable Audio 1.0

Stable Audio 2.0と、以前バージョンのStable Audio 1.0に、同じプロンプトを入力してみて、出力結果を比較してみたいと思います。

果たしてStable Audio 2.0は、本当に進化を遂げたのか?

使用したプロンプトは、以下の通りです。

Ambient, nu-disco, emotional chords, 110 bpm.

Stable Audio 2.0の結果

Stable Audio 1.0の結果

続いて、以下のプロンプトを入力してみました。

Post Rock, echoing electric guitars with chorus, well recorded drum-kit, Electric Bass, occasional soaring harmonies, Moving, Epic, Climactic

Stable Audio 2.0の結果

Stable Audio 1.0の結果

確実にStable Audio 2.0はパワーアップしていますね。Stable Audio 2.0の方が安定した展開を見せており、曲としての完成度が高いかなと思います。

また、Stable Audio 2.0の方が、細かい音も丁寧に組み込めており、音質も良い感じがしました。

できればSunoと比較してみたかったですが、現在使えなかったので、またの機会に実施してみます。

Stable Audio 2.0のAudio-to-Audioを試してみた

ちなみに、Stable audio 2.0の目玉の一つであるAudio-to-Auioも、試してみました。

以下の動画の指ドラムから、指ドラムループを拝借して、それを高品質なドラムループに変換したいと思います。

上記の動画から、以下の音声部分を抜き出し、ドラムループを作成してみます。

使用したプロンプトは、以下の通りです。

Drums

生成された音声は、以下の通りです。

続いて、以下のプロンプトを使用して、Lofiビートを作ってみます。

lofi hip hop beat

生成された音声は、以下の通りです。

やる気以前のダースベイダーのテーマをいい感じの音楽に変換

続いて、以下の「やる気以前のダースベイダーのテーマ」を、いい感じの音楽に変換したいと思います。

上記の音声と同時に、以下のプロンプトを入力してみます。

Trance, Ibiza, Beach, Sun, 4 AM, Progressive, Synthesizer, 909, Dramatic Chords, Choir, Euphoric, Nostalgic, Dynamic, Flowing

生成された音楽は、以下の通りです。

Googleが開発した音楽生成AIについては、以下の記事を合わせてご確認ください。
MusicFXとは?Googleが生み出した音楽生成AIの利用方法や注意点を徹底解説

Stable Audio 2.0で本当にアーティストが無くなるかも?

本記事では、Stability AIの超高性能な音楽生成AI「Stable Audio 2.0」についてご紹介しました。

実際に作ってみて、かなり高品質な音楽が作れることが分かりました。おそらく、素人目には「プロのアーティストが作ったのだ」と間違えるほどだと思います。

今後のAIと音楽業界との関わりについても、要注目です。

ちなみに、Xでは「AI業界の人たちが『リフや音色ジェネレーター』を作らず、『完全な音楽』を作るAIに集中していることに理解できない。ミュージシャンにとっては、1曲まるまる作るAIをそれほど望んでいるとは思えない。」という意見が挙がっています。

当スレでは、「動画クリエイターにとっては、それで十分なんだよ」「Stable Audioなら、単一楽器のトラックやサウンドエフェクトなども作成できるよ」など、活発な議論が繰り広げられています。

また、以下のRedditのスレッドでは、「ローカルで使えないのが残念」「オープンソース化してほしい」「価格設定が高めに感じる」「生成音楽の品質はまだ物足りない」などのネガティブな意見もあがっています。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 中田

    データサイエンス専攻の大学院生。大学では、生成系AIの拡散モデルを用いた音楽生成について研究。 趣味は作曲、サッカー、コーヒー。

  • URLをコピーしました!
  • URLをコピーしました!
目次