ACE-Step v1.5とは？ローカルで高速フルソング生成を実現する最新オープンソース音楽AIを解説

2026-02-06

ACE-Step v1.5 ローカル高速フルソング生成実現最新オープンソース音楽 AI 解説

押さえておきたいポイント

ローカル環境で高速にフル尺音楽を生成できるオープンソースモデル
生成だけでなく編集や変換までを含めた制作フロー全体を支援する設計
商用利用や権利関係は公式情報が限定的なため事前確認が重要

2026年2月、音楽生成AIの分野で注目を集める新たなオープンソースモデルが登場しました！

今回公開された「ACE-Step v1.5」は、ローカル環境での高速なフルソング生成を可能にし、商用モデルに匹敵する品質を目指したモデルです。テキストや歌詞から直接音楽を生成できるだけでなく、編集やスタイルの変更も可能。

【お知らせ】
弊社のリサーチチームより、
オープンソース音楽生成モデル「ACE-Step v1.5」をリリースしました。
ACE-Step v1.5 は、
主要な商用モデル／既存のオープンソースモデルと比較して一般的なベンチマークで上回る性能を達成しています。

さらに、
・PC / Mac でローカル実行可能
・LoRA… https://t.co/3P9DxEhk0D
— ACE Studio 公式 (@ACEStudio_jp) February 4, 2026

一方で、新しい音楽生成モデルが登場するたびに、「従来の音楽生成AIと何が違うのか」「どこまで実制作で使えるのか」「実際にどう活用すればよいのか」といった疑問を感じる方も多いのではないでしょうか。

そこで本記事では、ACE-Step v1.5の概要や仕組み、特徴を整理しながら、どのような活用事例があるのかを解説します。最後までお読みいただければ、ACE-Step v1.5がどのような思想で設計された音楽生成モデルなのかが理解できるはずです。

ぜひ最後までお読みください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

ACE-Step v1.5の概要

ACE-Step v1.5は、コンシューマー向けGPUでもローカル実行できる「オープンソースの音楽生成モデル」です。

これまでクローズドな商用モデルが先行してきた音楽生成領域で、推論速度と生成品質の両立を狙って開発されています。フル尺の楽曲生成を高速に回しつつ、編集やスタイル制御まで一貫して操作可能。

実行環境と生成速度

同モデルは、一般的なPC環境での使用を想定しています。VRAMは4GB未満で動作し、生成速度はA100でフルソングが2秒未満、RTX 3090で10秒未満。

生成できる尺も10秒から10分（600秒）までで、短いループから長尺の楽曲までを生成できます。さらに、50以上の言語で歌詞プロンプトに対応しています。

生成以外の機能統合

もう1つ押さえておきたいのが「生成以外」の守備範囲です。カバー生成、リペイント（部分編集）、ボーカルからBGM生成（Vocal2BGM）など、制作フローで必要になる操作を一貫して行えます。

加えて、少数の楽曲からLoRAでスタイルを寄せられる軽量パーソナライズも。「速く作る」だけで終わらせず、「直す」「寄せる」まで一気通貫で行えるのが魅力的です。

ACE-Step v1.5の仕組み

ここでは、ACE-Step v1.5がどのような流れで音楽を生成しているのか、その仕組みを解説します。

音楽生成の基本構造

ACE-Step v1.5は、音楽生成に特化した基盤モデルとして開発されています。入力としてテキストプロンプトや歌詞、既存音源などを受け取り、波形レベルの音声を直接生成します。

特にフルソング生成を前提としたモデルサイズと推論パスが採用されている点がポイントです。

三段階の処理フロー

処理の流れは大きく三段階です。

まず、ユーザーが指定した歌詞やスタイル情報を条件としてエンコードします。次に、その条件に基づいて一貫性を保った音楽表現を内部で生成していきます。

最後に、生成結果をそのまま再生可能な音声としてデコードし、出力する構成となっています。

このアプローチにより、10秒程度の短い音源から10分規模の長尺音楽までを同一モデルで扱えるようになっています。

また、このような仕組みにより一般的な音楽生成モデルで課題になりやすい「途中で破綻する」「構成が単調になる」といった問題を抑えることができるでしょう。

なお、無料楽曲が作れる音楽生成AIUdioについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Udio】無料楽曲が作れる音楽生成AIUdioとは？使い方や商用利用について徹底解説！ | WEEL WEELメディア事業部LLMリサーチャーの中田です。 4月10日、音楽生成AIの「Udio」がパブリックベータ版として一般公開されました。以前から「Suno AIの対抗馬」として注目を…

ACE-Step v1.5の特徴

ACE-Step v1.5には、音楽生成を実制作で使うことを前提にしたいくつかの特徴があります。

ローカル環境での高速生成と長尺対応

ACE-Step v1.5の大きな特徴は、ローカルGPU環境でフル尺の楽曲生成を高速に行える点です。

生成速度はA100でフルソングが2秒未満、RTX 3090で10秒未満で生成でき、必要VRAMは4GB未満とされており、ハイエンド環境に限定されません。

生成可能な楽曲長は、最短10秒から最長600秒まで。

短いループ生成だけでなく、曲構成を含んだ長時間の音楽を1モデルで扱えます。デモ用途にとどまらず、実際の楽曲制作に近い使い方が可能になります。

多言語対応と編集機能の統合

ACE-Step v1.5は、50以上の言語で歌詞入力に対応。

歌詞プロンプトに対する追従も誠実で、単に音楽的な雰囲気を指定するだけでなく、言語情報を明示的に条件として扱います。

さらに、生成後の編集機能を標準的な機能として組み込まれています。

既存音源の一部だけを再生成するリペイント機能や、ボーカル音声から伴奏を生成するVocal2BGMも提供されており、素材を起点に音楽を拡張できるため、歌やメロディの再利用といった制作フローができます。

スタイル適応と品質重視の設計

ACE-Step v1.5では、LoRAによる軽量なスタイル学習が可能。

数曲程度の音源から特定の音楽スタイルを反映でき、大規模データを用意しなくても個性的な楽曲を作れます。

商用モデルとの比較では、Suno-v5やMinMax-2.0といった先行モデルと同等以上のスコアを複数の項目で記録しています。

特に、SongEvalの各指標（Coherence、Musicality、Memorability、Clarity、Naturalness）において、ACE-Step v1.5は4.59〜4.72という高い水準を示しています。

ACE-Step v1.5の安全性・制約

ここでは、ACE-Step v1.5を利用する上で把握しておきたい安全性の考え方と、現時点で示されている制約について解説します。

ローカル実行によるデータ管理

ACE-Step v1.5はローカル実行を前提としたモデルであり、生成処理自体はユーザーの環境内で完結します。

そのため、入力した音源や歌詞データが外部サーバーに送信されることはありません。ネットワーク経由でデータを預けない点は、情報管理の観点で安心材料になります。

一方で、データの保存方法やログ管理に関する詳細なポリシーは公式には明示されていません。モデルが生成した音声や中間データの扱いについては、利用者側の環境設定に依存します。

生成品質と適用範囲の制約

ACE-Step v1.5は高品質な音楽生成を目指していますが、全てのジャンルや構成で常に意図通りの結果が得られるとは限りません。特に、極端に複雑な構成や特殊な音楽理論を前提としたプロンプトでは、調整が必要になる可能性があります。

また、学習データの内訳や具体的な収集元については公開されていません。

そのため、生成物がどのようなデータ分布に基づいているかを厳密に評価することは難しい状況です

ACE-Step v1.5の料金

ACE-Step v1.5は、オープンソースとして公開されている音楽生成モデルです。モデル自体の利用にあたり、公式に定められた利用料金や従量課金は設定されていません。

一方で、実際の運用コストがゼロになるわけではありません。

ローカル実行を前提としているため、GPUを含む計算環境の準備はユーザー側で行う必要があります。特に、生成速度を重視する場合は、高性能GPUの導入や維持費がコスト要因となります。

ACE-Step v1.5のライセンス

ACE-Step v1.5は、オープンソースのMITライセンスで公開されています。MITライセンスは非常に寛容なオープンライセンスで、商用利用や改変・再配布などを自由に行うことができます。

利用用途	可否	備考
商用利用	⭕️
改変	⭕️
配布	⭕️
特許使用	不明
私的使用	⭕️

参考：https://github.com/ace-step/ACE-Step-1.5/blob/main/LICENSE

MITライセンスには特許に関する明示的な許諾条項はありません。しかし公開されたモデルやコードの利用自体に制限はなく、通常は提供元が特許権を主張しないことが期待されています。ただ、必要に応じて公式へ問い合わせるようにしましょう。

なお、Google発リアルタイム音楽AIであるGoogle Magenta realtimeについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Google Magenta realtime】演奏と生成が融合！Google発リアルタイム音楽AIを徹底解説 | WEEL 押さえておきたいポイント演奏と同時に音楽を生成できるGoogle発の生成AIで、ライブ演奏など即興性が求められる場面に最適約19万時間の楽曲データをもとに高音質なステレ…

ACE-Step v1.5の実装方法

では実際にACE-Step v1.5を実装していきます。ACE-Step v1.5はローカル前提なので、今回はgoogle colaboratoryではなく自身のローカル環境でやっていきたいと思います。

筆者はM4 Mac Proを使用しています。また、MacOSでの使用手順もGitHubに掲載されているので、こちらを元に実装していきます。

まずはuvをインストールします。

curl -LsSf https://astral.sh/uv/install.sh | sh

続いてリポジトリの取得です。

mkdir -p ~/ace
cd ~/ace
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5

依存関係を同期します。

uv sync

Macで不要なflash-attnを確実に排除します。

uv pip uninstall -y flash-attn flash_attn flash_attn_2_cuda

次にcheckpointsを用意。すでにモデルを持っている場合には下記でOKです。

cd ~/ace/ACE-Step-1.5
rm -rf checkpoints
ln -s ~/models/Ace-Step1.5 checkpoints

モデルがない場合にはcheckpointsを空で作っておきましょう。自動ダウンロードされます。

mkdir -p checkpoints

最後にWeb UIを起動。

cd ~/ace/ACE-Step-1.5

uv run python -m acestep.acestep_v15_pipeline \
  --server-name 127.0.0.1 \
  --port 7860 \
  --language ja \
  --checkpoint checkpoints \
  --config_path acestep-v15-turbo \
  --backend pt

これでURLが出てくるので、指定されたURLにアクセスすればOKです。

実際に楽曲を作っている様子がこちら。

生成された楽曲がこちらです。

ACE-Step v1.5の活用シーン

ここでは、ACE-Step v1.5の特性を踏まえて想定される活用シーンを考えていきます。

インディー音楽制作での楽曲生成

ACE-Step v1.5は、フル尺の楽曲を高速に生成できる点が大きな強み。

そのため、インディーアーティストや個人制作者がデモ曲や下書きを短時間で作成する用途が考えられます。アイデア出しから構成確認までを一気に進められるでしょう。

さらに、LoRAによるスタイル適応を組み合わせることで、特定の作風に寄せた楽曲生成も可能になります。少数曲から方向性を学習できるため、独自性を保った制作ができます。

映像・ゲーム向けBGM制作

10秒から600秒まで同一モデルで扱える特性は、映像やゲーム用途とも相性が良いでしょう。シーンごとに異なる尺のBGMをまとめて生成したり、ループ用の短尺やイベント用の長尺など幅広く作れます。

また、リペイント機能を使えば、一部だけ雰囲気を変える調整も可能です。全体を作り直さずに修正できるため、ディレクション変更への対応が容易になります。

ACE-Step v1.5を実際に使ってみた

先ほどは歌詞なしを生成したので、次は歌詞をつけて生成してみようと思います。音楽キャプションと歌詞をChatGPTに考えさせました。

音楽キャプションはこちら

Genre: J-Pop / Electro Pop / Comedy
Mood: Bright, ironic, slightly emotional
Tempo: Medium fast

A playful Japanese pop song about trying to be productive,
but slowly realizing you are just staring at the screen.
Cute and funny, but somehow relatable.

Style:
- Light male or female vocal
- Catchy chorus
- Simple synths and pop beat
- Clear Japanese lyrics

歌詞はこちら

Verse 1

目覚ましより早く　鳴る通知
夢よりリアルな　既読の海
コーヒー冷めてく　もう三杯目
今日もやる気は　ローディング中

Pre-Chorus

タブは増えてく　希望は減ってく
「あと5分」が　あと一生

Chorus

がんばってるフリが　一番うまい
キーボード叩いて　何もしてない
進捗どうですか？って聞かれて
笑顔でごまかす　プロフェッショナル

Verse 2

ToDoリストは　観賞用
消すより眺める　アート作品
再起動すれば　変われるかな
でも先にするのは　SNS

Pre-Chorus 2

本気出すのは　明日でいい
今日は準備の　準備の日

Chorus

がんばってるフリが　一番うまい
集中してる顔　だけ一流
夢はあるけど　眠気もある
その狭間で　今日も生きてる

Bridge

世界はこんなに　早いのに
ぼくの心は　バッファ中
エラーもバグも　抱えたまま
それでもなぜか　生きていける

Final Chorus

がんばってるフリでも　いいじゃない
ゼロじゃないなら　進んでる
完璧じゃない　この日々も
いつか笑える　データになる

Outro

保存せず閉じた　今日の自分
でもまた明日　開けばいい

ChatGPTに音楽キャプションと歌詞を考えて。と伝えただけなのですが、上記の歌詞が作られました…

生成された楽曲がこちら。大体5分くらいで作成できました。

おおむね歌詞通りに歌われていますが、何ヶ所か順番がぐちゃぐちゃになってしまっているところもありました。

もしかしたらGPUがないからかもしれません。

また、おそらくですが、漢字を適切に読めなさそうなので、歌詞はひらがな・カタカナで作成するのが良いと思います。

なお、Meta開発のテキストから音楽や音声を生成できるMAGNeTについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで | WEEL WEELメディア事業部LLMリサーチャーの中田です。 1月9日、FacebookのMeta社が、テキストから音楽や音声を生成できるAI「MAGNeT」を公開されました。このAIを用いることで…

まとめ

本記事ではACE-Step v1.5の概要から仕組み、実際の使い方、活用事例について解説をしました。ローカル環境でサクッと楽曲を作れるのはゲームチェンジャーになり得るのではないでしょうか。

ぜひ皆さんも本記事を参考にACE-Step v1.5を使ってみてください！

最後に

いかがだったでしょうか？

ACE-Step v1.5は、ローカル環境での高速生成や編集機能の統合など、実制作を見据えた音楽生成AIとして非常に興味深い選択肢です。一方で、実際に業務へ組み込む際には、目的に応じた設計や運用面での工夫も欠かせません。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ