【AudioBox】オーダーメイドで好きな音を作れる、Metaの音声生成AIを使ってみた

AudioBox オーダーメイド Meta 音声生成AI

WEELメディア事業部ライターのMasaです。

12月11日にMeta社から音声生成AI「Audiobox」がリリースされました…!

AudioBoxは、音声入力と自然言語のテキスト入力を組み合わせて、さまざまな声や音を生成できる音声生成AIです。

このAudioBoxを使えば、録音した自分の音声を使って別の言葉を喋らせたり、プロンプトの文章からそれにあった効果音を生成できます。

例えば自作の動画やアニメーションを作る際に、自分だけのオリジナル音声・効果音として使うことができちゃいます。

この記事では、AudioBoxの特徴や使い方、実際の生成例などをご紹介します。AudioBoxを実際に使ってみて分かった感想や、得意・不得意なことについてもまとめています。

参考までにMetaが出した、公式の動画を添付しておきます!

というわけで今回は、Meta社が開発した音声生成AIのAudioBoxについてまとめていきます。

最後まで読んだ方は、AudioBoxの使い方をマスターし、明日から様々なオリジナル音声を生成できるようになりましょう!

ぜひ、最後までご覧ください。

目次

AudioBoxの概要

AudioBoxは、Meta社が開発した音声生成のための新しいAIモデルです。AudioBoxは、音声入力と自然言語のテキスト入力を組み合わせて、さまざまな声や音を生成できます。

例えば、「高い声で速く話す若い女性」というテキスト入力と、音声入力として自分の声を使えば、その声に合わせた音声を生成できます。

また、「川の流れと鳥のさえずり」というテキスト入力だけで、そのような音声を生成できます。

AudioBoxは大きくの3つの特徴があります

1. 自分の声を使った音声生成と、テキスト入力で生成した音声による音声の生成ができる
AudioBoxでは、自分の音声を使った音声生成ができます。自分の音声を録音した上で、喋らせたいテキストを入力すると、自分の音声でそのテキストを読み上げてくれます!

また、テキスト入力から音声の特徴や音の種類を指定できます。例えば、「低い声でゆっくり話すおじいさん」というテキストを入力すると、低い声で話すおじいさんの声を生成できます。

その生成した声を使って、好きなテキストを喋らせることができます。

2. 音声だけでなく、効果音の生成と編集ができる
AudioBoxは、音声だけでなく、効果音やジングルなども生成できます。

川の音や都会の喧騒など環境音から、YouTubeで使われるような太鼓の効果音まで様々な音をテキストから生成できます。

それだけでなく、生成した効果音を編集することもできます!例えば、音量やピッチ、エコーなど調整したり、複数の音を重ね合わせたり、切り取ることもできます。

3. 複数の音声と効果音を使ったオーディオボックスを作成できる
そしてAudioBoxでは、複数の音声と効果音を使ってオーディオボックスを作成できます。
例えば、複数の文章を繋げてオーディオブックを作成できます。

また複数の音声と効果音を使って、まるでラジオドラマのようなストーリーを作ることもできます。

以上がAudioBoxの概要になります。
まとめると、AudioBoxでは自分の音声やテキストから生成した音声を使って、入力したテキストを喋らせることができます!

また、テキストから多彩な効果音も生成できます。生成した効果音に対して、テキストによる指示で音の加工もできるんです!

そして、複数の音声と効果音を自由に組み合わせて、オーディオブックを作成することができます。

色々試してみたのですが、このクオリティで音声生成ができてしまうのか・・・!と感じるほど完成度が高いものになっていました。

早速AudioBoxを使っていきましょう!

なお、テキストから曲を制作できるSunoについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Suno AI】テキストだけで曲、歌詞、歌声を作れる禁断の音楽生成AIの使い方〜実践まで

AudioBoxの使い方

AudioBoxはこちらのサイトから利用できます。この記事執筆時点(2023/12/14) ではデモ版ということもあり、ブラウザから無料で使うことができます!以下のURLから利用ができます。

あわせて読みたい
Audiobox | Meta FAIR Audiobox is Meta's new foundation research model for audio generation. It can generate voices and sound effects using a combination of voice inputs and natural ...

Meta社の生成AIですが、Facebookのアカウントも不要です!

とても簡単に使ってみることができます。

AudioBoxを動かすのに必要なPCのスペック

AudioBoxはこの記事執筆時点(2023/12/14) ではブラウザから利用できます。

インストールや会員登録なども不要です。

ブラウザのアプリケーションなので、PCのスペックもブラウザ閲覧ができるものであれば問題ないと思われます。(AudioBoxサイトでも、PCのスペックの指定はありませんでした)

AudioBoxを実際に使ってみた

それでは実際にAudioBoxを使ってみたいと思います!

  1. まずは以下のURLにアクセスします

    https://audiobox.metademolab.com/

  2. ページを下にスクロールすると、「Capabilities」と「Audiobox Maker」のメニューがあります。
    「Capabilities」を選択すると音声と効果音の生成が行え、「Audiobox Maker」を選択すると複数の音声・効果音を組み合わせたオーディオボックスを作成できます

それでは早速、機能を試していきましょう!

AudioBoxでは以下の通り、全部で7つの機能があります。それぞれ簡単に機能と概要を整理します。

機能概要
Your Voice自分の声を使った音声生成ができます
Described Voices入力したテキストに沿った音声を生成できます
Restyled Voices生成した音声を加工できます
Sound Effects入力したテキストに沿った効果音を生成できます
Magic Eraser音声の背景にある雑音を消すことができます
Sound Infilling生成した効果音を加工できます
Audiobox Maker複数の生成した音声と効果音を組み合わせて、ストーリーを作ることができます

今回は、主要機能である「Your Voice」、「Described Voices」、「Sound Effects」、「Audiobox Maker」の4つを紹介します。

  1. Your Voice (自分の声を使った音声生成)
    まずはYour Voiceです。この機能では自分の声のサンプルをAudioBoxに提供すると、AudioBoxがテキスト入力した文章を読み上げてくれる機能です!

    まずは「Record Your Voice」をクリックすると、音声登録のダイアログが現れます。「Record your reading」をクリックしたら、赤枠部分の英語の文章を読み上げます。

    何度か試したのですが、ゆっくり読んであげると認識されやすいです。


    自分の声が登録されたら、「Text to Speach」にAudioBoxに喋らせたい文章を入力します。
    (注意:AudioBoxは英語だけの対応になります。残念ながら日本語を喋らせることはできません・・・)



    テキストを入力したら、Generateボタンをクリックして音声を生成します。
    生成した音声はこちらです。

個人的に英語の発音はイマイチなのですが、ちょっと下手な感じもきちんと再現されています(笑)

  1. Described Voices(音声の生成)
    次にDescribed Voicesを試してみます。こちらはテキスト入力を使って音声を生成する機能です。

    「Describe The Speaking Voice」に生成したい音声の特徴を入力します。ここでは「低い声でゆっくり話すおじいさん」と入力しています。


    実際に生成した音声はこちらです。
  1. Sound Effects(効果音生成)
    Sound Effectsは効果音を生成できる機能です。テキストで送った指示にしたがって効果音を生成してくれます。

    「Describe A Sound Effect」に生成したい効果音の特徴を入力します。ここでは「猫の鳴き声」と入力しています。


    生成された効果音がこちらです。少し不自然なところはありますが、猫の鳴き声に聞こえます!
  1. Audiobox Maker
    最後はAudioboxMakerです。Audioboxは複数の音声や効果を組み合わせて、一連の物語を作成できる機能です。

    Audioboxは「Audiobox Maker」のメニューから作成を開始できます。


“Click anywhere to start”をクリックすると作成するテンプレートを選択できます。例えば一番右の”Tell a knock knock joke”を選択すると、ジョークを交えたストーリーのテンプレートを使用できます。

テンプレートを選択すると、Audioboxの作成画面に遷移します。この画面ではAudoxboxで使用したい音声や効果音の取り込みが行えます。

そして、取り込んだ音声や効果音の位置を調整することができます。これにより、音声を使って一連のストーリーを作ることができます。


AudioBoxを使って物語を読ませてみた


最後にAudioBoxの機能を使って、AudioBoxに物語を読ませて見ようと思います。

今回読ませるのはイソップ童話の「よくばりなイヌ」です。肉をくわえたイヌが欲張って、自分のお肉を失ってしまうお話ですね。

今回はお肉を池に落としてしまうシーンまで、以下の通り台本を作成しました。

One day, there was a dog holding a piece of meat in his mouth and he was crossing a bridge.

(歩く音)

When he looked down the river, he found there was also a dog holding a piece of meat in his mouth.

He looked at the dog and thought.

“His piece of meat seems bigger than mine.”(子供の声)

He got so jealous of the dog.

“Oh, yes. I will make the dog surprised and when he drops the meat, I will get it.”(子供の声)

Then the greedy dog growled to the dog in the river.

“Woof! Woof!”(犬の鳴き声)

As soon as he opened his mouth, the meat in his mouth fell into the river with a splash.

(物が水の下に落ちる音)

“Oh, no no!”(子供の声)

ナレーションは女性の声に読ませて、犬のセリフは子供の声にします。セリフの間に挟む効果音をカッコ書きで記載をしています。

実際に作成したAudioBoxはこちらです!

約1分間のストーリーを作成することができました!

音声のズレもなく、まるでラジオドラマのようになっていますね!効果音については少しノイズが混ざっていますが、人の声についてはとてもクリアに聞くことができます。

なお、生成AIの開発について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AI開発のベストな環境の作り方!エンジニアが開発の流れを解説

まとめ

今回はAudioBoxの概要とそれぞれの機能の使い方、実際に音声を生成する方法についてご紹介しました。AudioBoxは、音声生成のための新しいAIモデルで、自分の音声やテキスト入力を組み合わせて、さまざまな音声や効果音を生成できます。

またAudioBoxでは、音声、効果音を組み合わせることで、オーディオブックを作成できます。さらに効果音を付け足すと、まるでラジオドラマのような物語を作ることもできます!

AudioBoxは、音声生成の可能性を広げる画期的な音声生成AIだと思います。現時点ではデモのため商用利用ができませんが、商用利用ができるようになったら、オーディオブックの作成やポッドキャスト、動画やゲームなどのコンテンツ制作にかなり活用できそうです!

AudioBoxはMeta社のサービスなので、今後もさらなるアップデートが期待できますので、引き続き注目していきたいと思います!

なお、このような生成AIツールの法人利用ついて詳しく知りたい方は、下記の記事を合わせてご確認ください。
生成AIの法人利用方法10選!法人向け生成AIツールや実際の事例も解説

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Hiromi Sai

    ChatGPTメディア運営 / テクニカルライター リベラルアーツ専攻。大学休学中は、Webマーケティング会社のマネージャーとしてライター、ディレクター100名のマネジメントをする。南米のチリとタイでの長期居住歴を持つ。

  • URLをコピーしました!
  • URLをコピーしました!
目次