Metaの技術がすごすぎる!自由自在な音声生成AI「AudioBox」を使ってみた

- AudioBoxはMeta社が開発した音声生成AI
- テキストや音声入力から、声・効果音・環境音などを自在に作ることができ、自分の声を使ってAIを学習させることも可能
- インストール不要で利用でき、誰でも無料で音声生成の仕組みを試せる
2023年11月末にMeta社から音声生成AI「AudioBox」がリリースされました!
AudioBoxは、音声入力と自然言語のテキスト入力を組み合わせて、さまざまな声や音を生成できる音声生成AIです。このAudioBoxを使えば、録音した自分の音声を使って別の言葉を喋らせたり、プロンプトの文章からそれにあった効果音を生成できます。
例えば自作の動画やアニメーションを作る際に、自分だけのオリジナル音声・効果音として使うことができちゃいます。参考までにMetaが出した、公式の動画を添付しておきます!
というわけで今回は、Meta社が開発した音声生成AIのAudioBoxについてまとめていきます。ぜひ、最後までご覧ください。
\生成AIを活用して業務プロセスを自動化/
AudioBoxの概要
AudioBoxは、Meta社が開発した音声生成のための新しいAIモデルです。AudioBoxは、音声入力と自然言語のテキスト入力を組み合わせて、さまざまな声や音を生成できます。※1
例えば、「高い声で速く話す若い女性」というテキスト入力と、音声入力として自分の声を使えば、その声に合わせた音声を生成できます。また、「川の流れと鳥のさえずり」というテキスト入力だけで、そのような音声を生成できます。
自分の声を使った音声生成と、テキスト入力で生成した音声による音声の生成ができる
AudioBoxでは、自分の音声を使った音声生成ができます。自分の音声を録音した上で、喋らせたいテキストを入力すると、自分の音声でそのテキストを読み上げてくれます!
また、テキスト入力から音声の特徴や音の種類を指定できます。例えば、「低い声でゆっくり話すおじいさん」というテキストを入力すると、低い声で話すおじいさんの声を生成できます。
その生成した声を使って、好きなテキストを喋らせることができます。
音声だけでなく、効果音の生成と編集ができる
AudioBoxは、音声だけでなく、効果音やジングルなども生成できます。
川の音や都会の喧騒など環境音から、YouTubeで使われるような太鼓の効果音までさまざまな音をテキストから生成できます。
それだけでなく、生成した効果音を編集することもできます!例えば、音量やピッチ、エコーなど調整したり、複数の音を重ね合わせたり、切り取ることもできます。
複数の音声と効果音を使ったオーディオボックスを作成できる
そしてAudioBoxでは、複数の音声と効果音を使ってオーディオボックスを作成できます。例えば、複数の文章を繋げてオーディオブックを作成できます。また複数の音声と効果音を使って、まるでラジオドラマのようなストーリーを作ることもできます。
以上がAudioBoxの概要になります。
まとめると、AudioBoxでは自分の音声やテキストから生成した音声を使って、入力したテキストを喋らせることができます!テキストから多彩な効果音も生成できます。生成した効果音に対して、テキストによる指示で音の加工もできるんです!
そして、複数の音声と効果音を自由に組み合わせて、オーディオブックを作成することができます。
なお、音声生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

AudioBoxの機能7つ
ここでご紹介するのは、Metaのデモサイト「AudioBox Maker」内で体験できる主な機能です。一つずつご解説していきます。
Your Voice
自分の声を使ってAIをトレーニングできる機能です。
短い音声を録音するだけで、その声の特徴(音色・話し方・抑揚など)をモデルが学習し、あなたの声そっくりの音声を、テキスト入力だけで再現できるようになります。
ナレーション、ボイスコンテンツ、ポッドキャストなどへの応用が期待されています。
Described Voices
テキストだけで人物の声を生成する機能です。
例えば、「落ち着いた中年男性の声」「明るく元気な女性の声」といった自然言語の説明から、AIが声のトーン・年齢・感情などを推定し、リアルな音声を生成します。
声優データが必要なナレーションや広告ボイス制作を支援できるようになるでしょう。
Restyled Voices
既存の声に別のスタイルを与えるリスタイル機能です。
自分の声や既存の音声をアップロードし、「もっと低く」「ラジオっぽく」「舞台風に」など、スタイルを自然言語で指示すると、同じ話者のままトーンや雰囲気を変換できます。
同一人物で複数の表現パターンを作りたいときに便利です。
Sound Effects
テキストから効果音や環境音を作り出す機能です。
「森の中で鳥が鳴いている」「波が岩に打ちつける」など、言葉でシーンを説明することで、リアルなサウンドスケープを生成してくれます。
BGM・映像・ゲーム・メタバースなど幅広い制作で活用可能です。
Magic Eraser
不要な音を取り除く編集ツールです。
録音された音声から「咳」「雑音」「背景の人声」など特定の要素を消すことができます。また、文脈と音の構造を理解し、自然に補完して違和感のない仕上がりに整えることも可能です。
ポッドキャスト編集やナレーション修正に最適と言えます。
Sound Infilling
途中で欠けてしまっている音声を自然に補完する機能です。
録音の一部が途切れていたり、ノイズで消えてしまった場合でも、AIが前後の文脈から内容と音響を推定し、欠落部分を自動生成します。
「音の修復」と「創造的な編集」を両立する新しいツールといえるでしょう。
「AudioBox Maker
上記全ての機能を統合した、ブラウザ上のオーディオ制作環境です。
声の収録・変換・効果音生成・修正などを一括して行えるインタラクティブなデモ版となっています。
機能が別れていることで「音声」について、使用したい機能を使うことも可能ですし、「声」と「音」を生成する、総合的なサウンド制作ツールとしても利用可能です。
AudioBoxの使い方
この記事執筆時点(2025年10月)では、こちらのブラウザから利用可能です。Meta社の生成AIですが、Facebookのアカウントは不要で、とても簡単に使うことができます。
AudioBoxを動かすのに必要なPCのスペック
AudioBoxは2025年10月時点ではブラウザから利用できます。インストールや会員登録なども不要です。
ブラウザのアプリケーションなので、PCのスペックもブラウザ閲覧ができるものであれば問題ないと思われます。(AudioBoxサイトでも、PCのスペックの指定はありませんでした)
AudioBoxを実際に使ってみた
それでは実際にAudioBoxを使ってみたいと思います!
まずはAudioBoxのURLにアクセスします。

ページを下にスクロールすると、「Capabilities」と「AudioBox Maker」のメニューがあります。「Capabilities」を選択すると音声と効果音の生成が行え、「AudioBox Maker」を選択すると複数の音声・効果音を組み合わせたオーディオボックスを作成できます。

それでは早速、機能を試していきましょう!
今回は、主要機能である「Your Voice」、「Described Voices」、「Sound Effects」、「AudioBox Maker」の4つを紹介します。
Your Voice

「Record Your Voice」をクリックすると、音声登録のダイアログが現れます。

「Record your reading」をクリックしたら、赤枠部分の英語の文章を読み上げます。

何度か試したのですが、ゆっくり読んであげると認識されやすいです。自分の声が登録されたら、「Text to Speech」にAudioBoxに喋らせたい文章を入力します。

テキストを入力したら、Generateボタンをクリックして音声を生成します。生成した音声はこちらです。
個人的に英語の発音はイマイチなのですが、ちょっと下手な感じもきちんと再現されています(笑)
Described Voices(音声の生成)
次にDescribed Voicesを試してみます。

「Describe The Speaking Voice」に生成したい音声の特徴を入力します。ここでは「低い声でゆっくり話すおじいさん」と入力しています。

実際に生成した音声はこちらです。
Sound Effects(効果音生成)

「Describe A Sound Effect」に生成したい効果音の特徴を入力します。ここでは「猫の鳴き声」と入力しています。

生成された効果音がこちらです。少し不自然なところはありますが、猫の鳴き声に聞こえます!
AudioBox Maker
最後はAudioBoxMakerです。AudioBoxは「Audiobox Maker」のメニューから作成を開始できます。

“Click anywhere to start”をクリックすると作成するテンプレートを選択できます。例えば右の”A science fiction”を選択すると、SF小説のテンプレートを使用できます。

テンプレートを選択すると、AudioBoxの作成画面に遷移します。この画面ではAudioBoxで使用したい音声や効果音の取り込みが行えます。
そして、取り込んだ音声や効果音の位置を調整することができます。これにより、音声を使って一連のストーリーを作ることができます。
AudioBoxを使って物語を読ませてみた
最後にAudioBoxの機能を使って、AudioBoxに物語を読ませて見ようと思います。
今回読ませるのはイソップ童話の「よくばりなイヌ」です。肉をくわえたイヌが欲張って、自分のお肉を失ってしまうお話ですね。
今回はお肉を池に落としてしまうシーンまで、以下の通り台本を作成しました。
One day, there was a dog holding a piece of meat in his mouth and he was crossing a bridge.
(歩く音)
When he looked down the river, he found there was also a dog holding a piece of meat in his mouth.
He looked at the dog and thought.
“His piece of meat seems bigger than mine.”(子供の声)
He got so jealous of the dog.
“Oh, yes. I will make the dog surprised and when he drops the meat, I will get it.”(子供の声)
Then the greedy dog growled to the dog in the river.
“Woof! Woof!”(犬の鳴き声)
As soon as he opened his mouth, the meat in his mouth fell into the river with a splash.
(物が水の下に落ちる音)
“Oh, no no!”(子供の声)ナレーションは女性の声に読ませて、犬のセリフは子供の声にします。セリフの間に挟む効果音をカッコ書きで記載をしています。
実際に作成したAudioBoxはこちらです!
約1分間のストーリーを作成することができました!
音声のズレもなく、まるでラジオドラマのようになっていますね!効果音については少しノイズが混ざっていますが、人の声についてはとてもクリアに聞くことができます。
なお、合成音声アプリ・サイトついて詳しく知りたい方は、下記の記事を合わせてご確認ください。

AudioBoxの今後の展望
今後、AudioBoxはどのように変化していくのでしょうか。Meta社より発表されているブログ(※1)や論文(※2)から今後の展望について解説します。
音声と音響を統一的に扱うAIの発展
論文では、AudioBoxを「speech(声)」と「sound(音響)」の橋渡しをする初の統合モデルとして位置づけており、今後はこの方向でさらに「universal audio generation(汎用音響生成)」の精度と応用範囲を広げていく意図が示されています。
つまり、テキストや音声サンプルなど複数の入力を統合して「声・音・環境」を同時にコントロールする研究が今後も続くでしょう。
自然言語による「音のスタイル制御」の拡張
ブログでは「話し方・雰囲気・感情・環境」などを言葉で指定して音を作る体験を重視しており、Meta社はこれを「より直感的なクリエイティブツール」の方向に発展させたいとしています。
今後は、テキスト指示だけで音の質感・距離感・空間的な位置などまでコントロールできるようになるかもしれません。
より多様で公平な音声データへの拡張
論文では「公平性(fairness)」という言葉を明確に使い、世界中の150カ国・200言語以上のデータを学習に含めて、性別・年齢・地域の偏りを減らす方向性が示されています。
多言語・多文化対応モデルとして進化し、より「グローバルな音声表現」が可能になることを期待できるでしょう。
研究者・開発者向けへの段階的開放
現時点では「研究者限定提供」にとどまりますが、Meta社はブログで「研究用途でのテストを通じて、安全で創造的な利用方法を模索する」と述べています。
AudioBoxよくある質問
まとめ
今回はAudioBoxの概要とそれぞれの機能の使い方、実際に音声を生成する方法についてご紹介しました。AudioBoxは、音声生成のための新しいAIモデルで、自分の音声やテキスト入力を組み合わせて、さまざまな音声や効果音を生成できます。
またAudioBoxでは、音声、効果音を組み合わせることで、オーディオブックを作成できます。さらに効果音を付け足すと、まるでラジオドラマのような物語を作ることもできます!
AudioBoxは、音声生成の可能性を広げる画期的な音声生成AIだと思います。現時点ではデモのため商用利用ができませんが、商用利用ができるようになったら、オーディオブックの作成やポッドキャスト、動画やゲームなどのコンテンツ制作にかなり活用できそうです!
AudioBoxはMeta社のサービスなので、今後もさらなるアップデートが期待できますので、引き続き注目していきたいと思います!
最後に
いかがだったでしょうか?
AudioBoxのような生成AIを事業に活かすための導入設計や活用戦略について、貴社の状況に合わせた最適な方法をご提案できる体制を整えています。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。
