【ElevenLabs】超ハイレベルなオーディオ生成AIが登場!使い方を徹底解説

ElevenLabs 超ハイレベル オーディオ生成AI

WEELメディアリサーチャーのいつきです。

みなさんは、オーディオAIプラットフォームの「ElevenLabs」をご存知でしょうか。ElevenLabsとは、高度なAI音声ジェネレーターを備えたAIツールで、人間のイントネーションを忠実に再現した音声を生成できます。

今回はElevenLabsの機能や特徴、使い方などをご紹介します。最後までご覧いただくと、最新の音声AIを使いこなせるようになるため、クリエイティブな業務に活かせるようになるでしょう。

ぜひ最後までご覧ください。

目次

「ElevenLabs」とは?

ElevenLabsとは、高度なAI音声ジェネレーターを備えたオーディオAIプラットフォームです。テキスト入力から音声への変換、動画の音声を吹き替えるなど、音声に関するさまざまな編集ができます。

AIを使って自分の音声クローンを作るといった面白い試みもできますよ!

料金は後ほど詳しく解説しますが、無料でも使えます。API経由での利用も可能なため、ほかのツールと連携して、幅広い使い方が実現できそうです。

なお、音声生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

ElevenLabsの特徴・すごいところ

ElevenLabsの特徴・すごいところを以下にまとめました。

  • イントネーション・抑揚を自動で制御
  • 音声の選択肢が豊富
  • 高速生成が可能
  • ノイズ除去が高精度
  • 日本語含む32ヶ国語に対応

最新のAI音声プラットフォームというだけあって、既存の音声AIにはなかった高度な特徴を備えています。

以下でそれぞれ解説していくので、ぜひご覧ください。

イントネーション・抑揚を自動で制御

ElevenLabsのすごいところの筆頭として挙げられるのが、イントネーション・抑揚を自動で制御できる点です。これまでの音声AIはどこか機械的な音声しか生成できませんでしたが、ElevenLabsはこれを克服しています。

より人間らしくリアルな音声を生成できるようになっているので、人間味のある対応が求められるカスタマー対応などで活かせることでしょう。

音声の選択肢が豊富

参考:https://elevenlabs.io/ja

ElevenLabsには、最初から豊富な音声データが備わっているので、ユーザーは自分の好みに応じた音声を選べます。それぞれに名前が付けられており、男性や女性などの声の特徴が異なるので、実際に聞いてから選んでみてください。

なお、自分の音声クローンを生成して、テキストを読み上げてもらうこともできます。

高速生成が可能

ElevenLabsでは、音声の高速生成が可能です。仮に5秒程度のテキストを入力した場合、約30秒程度で生成が完了します。

コンテンツ制作で大量に音声データが必要になっても、迅速に用意できるのが大きなメリットです。

ノイズ除去が高精度

ElevenLabsは、ノイズ除去も高精度です。Voice Isolatorの機能を使えば、アップロードした音声ファイルの雑音を綺麗に取り除いてくれます。

会議や講演など、多数の人が集まる場所で録音したデータを共有する際に便利です。

日本語含む32ヶ国語に対応

ElevenLabsは、日本語を含む32ヶ国語に対応しています。対応言語の一覧は上記画像のとおりです。

なんといっても、日本語に対応しているのが嬉しいポイントですね!

翻訳して吹き替える機能などもあるので、英語の動画を日本語に編集したいときなどに便利です。

ElevenLabsの機能

ElevenLabsには多数の機能が備わっています。

機能の一覧を以下にまとめました。

  • 読み上げ・音声変換の「Speech」
  • 音声新規作成・選択の「Voices」
  • 効果音を生成できる「Sound Effects」
  • 長文の読み上げができる「Projects」
  • 動画に音声を添えられる「Voiceover Studio」
  • 動画の音声を差し替えられる「Dubbing Studio」
  • Webサイトに読み上げ機能を実装できる「Audio Native」
  • 音声中のノイズが除去できる「Voiceover Isolator」

それぞれの機能の詳細を以下で解説していくので、ぜひ参考にしてみてください。

読み上げ・音声変換の「Speech」

Speechは、ElevenLabsの最も基本的な機能です。そのなかでも、以下2つの機能に分かれています。

  • TEXT TO SPEECH
  • SPEECH TO SPEECH(音源ファイル中の音声を差し替える)

TEXT TO SPEECHは、テキストデータを音声に読み上げてくれる機能なため、最も使いやすい機能といえます。「settings」をクリックすれば、以下の画面からモデルの選択、安定性・類似性・スタイルの誇張などのパラメータを直感的に調整できます。

話し手の選択肢も豊富なので、色々試してみてください。

音声新規作成・選択の「Voices」

Voicesは、音声を新しく生成したり、選択したりする機能です。以下4つの機能にそれぞれ分かれています。

  • Voice Design(性別・年代・発音を選択して生成)
  • Internet Voice Cloning(自分の声のクローンを作る・有料のみ)
  • Professional Voice Cloning(自分の声のクローンを作る・有料のみ)
  • Voice Library(既存の音声探す)

上記にも記載していますが、有料プランでしかできない機能もあるので注意しましょう。まずは、既存の音声を選んで試しに生成させてみて、より高度なコンテンツ生成に使いたくなったら自分の音声クローンを生成してみましょう。

効果音を生成できる「Sound Effects」

Sound Effectsは、入力したテキストから効果音を生成できる機能です。テキストで生成したい効果音の特徴を入力すると、瞬時に対応した効果音を生成してくれます。

こちらの機能は、筆者も実際に使って検証しているので、気になる方はこちらからジャンプしてご覧ください。

長文の読み上げができる「Projects」

Projectsは、長文の読み上げができる機能です。TEXT TO SPEECHでも9,000文字程度の長文を読み込めますが、Projectsならテキストファイルなどをアップロードして、さらに長文を読み上げさせられます。

ただし、Projectsが使えるのはCreatorプランからなので、使いたい方は有料プランにアップグレードしましょう。

動画に音声を添えられる「Voiceover Studio」

Voiceover Studioは、アップロードした動画に音声を添えられる機能です。こちらの機能もCreatorプランから利用できます。

撮影した動画にあとから音声を吹き込みたい場合やちょっとした解説を入れたい場合に便利です。動画編集作業をより効率的におこないたい方はぜひ使ってみてください。

動画の音声を差し替えられる「Dubbing Studio」

Dubbing Studioは、動画の音声を差し替えられる機能です。動画内で間違った情報を伝えていた場合に使用すれば、動画を撮り直すことなく、正しい情報に置き換えられます。

また、音声を翻訳して吹き替えることも可能なため、とくにYouTuberなどの動画配信者の需要が高そうですね!

Webサイトに読み上げ機能を実装できる「Audio Native」

Audio Nativeを使えば、Webサイトに読み上げ機能を実装できます。この機能を実装すれば、ユーザーが通勤途中やランニング中などにながら読みができるようになるので、かなりサイトの利便性が上がります。

ただ、Audio Nativeを利用するにはCreatorプランにアップグレードする必要があるので、利用する際は注意してください。

音声中のノイズが除去できる「Voiceover Isolator」

Voiceover Isolatorは、アップロードした音声のノイズを除去できる機能です。ElevenLabsの強みである高精度なノイズ除去を活かせるので、ぜひ活用していきたいところですね!

ノイズを除去してコンテンツのクオリティを向上できるので、クリエイターなら必須ともいえる機能です。ただし、この機能は有料プランのみで利用できるため、必要な場合は有料プランに契約してください。

なお、生成AIの法人利用方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。

新しく追加されたGenFMとは

2024年11月28日にElevenLabsの公式Xにて新機能であるGenFMが追加されたと発表がありました。

このGenFMとは、PDFや記事、電子書籍、WEBサイトのURL、または 32言語テキストからポッドキャストのような音声コンテンツを生成することができる機能です。

2024年11月30日時点ではiOSのみで利用可能となっているため、現状はiPhoneユーザーしか利用できませんが、数週間後にはAndroidでも利用できるようになる予定と公式から発表されています。

では、このGenFMとは一体どのようなコンテンツが生成できるのでしょうか。

実際にGenFMを使って音声コンテンツを作成してみました。

今回は、今ご覧になっていただいている記事のURLを入力してコンテンツを作成します。

聞いていただいてわかる通り、イントネーションや抑揚、間の取り方などまるでラジオのようなコンテンツを簡単に生成することができました。

ただ、個人的な感想としては、所々英語訛りのような日本語に聞こえるので、とても日本語の上手な外国人の方が二人で話している印象です。

また、しっかり聞くと日本語の読み間違いや機械音のような部分もあるので、まだまだ日本語に関しては正確に出力できるとはいえないでしょう。

しかし、URLを入力してボタンを一つ押すだけで、これだけのコンテンツを生成できてしまうことが驚きです。

コンテンツの内容も、生成AIが要約したテキストを会話形式の音声で聞くことができるので、難しい書籍や論文などでも、より頭に入りやすくなるでしょう。

今回は、無料のプランを使用しているため、生成したコンテンツの最初の1分程度しか出力することができませんでしたが、アプリ上ではコンテンツを最後まで確認することができるので、興味のある方は一度試してみると良いでしょう。

ElevenLabsの商用利用について

ElevenLabsは、Starterプラン以上から商用利用が可能になります。つまり、フリープランでは商用利用が許可されないので注意してください。

ただ、フリープランでも、「elevenlabs.io」あるいは「11.ai」のクレジットを表示すれば公開が可能です。

なお、同意を得ていない他人の声をクローンして、不適切に利用することはどのプランでも禁止されています。すでに、著名人の音声を不正に利用したユーザーが問題になっているので、絶対に真似しないでください。

ElevenLabsの料金プラン

スクロールできます
プラン名料金機能
Free無料10,000クレジットの制限
・毎月10分間の超高品質のテキスト読み上げ
・何千ものユニークな音声を使用して 32 の言語で音声を生成します
・自動吹き替えでコンテンツを翻訳
・カスタム合成音声を作成する
・サウンド効果を生成する
・APIアクセス
Starter5ドル/月30,000クレジットの制限
・Freeの機能
・毎月30分の超高品質のテキスト読み上げ
・わずか1分の音声であなたの声を複製
・翻訳とタイミングをより細かく制御できる吹き替えスタジオへのアクセス
・ElevenLabs を商用利用するためのライセンス
Creator22ドル/月10万クレジットの制限
・Starterの機能
・毎月100分の超高品質のテキスト読み上げ
・あなたの声の最もリアルなデジタルレプリカを作成するためのプロフェッショナルな音声クローン作成
・複数のスピーカーによる長編コンテンツを作成するプロジェクト
・ウェブサイトやブログにナレーションを追加できるオーディオネイティブ
・より高品質なオーディオ (192 kbps)
・追加クレジットの使用量ベースの課金
Pro99ドル/月50万クレジットの制限
・Creatorの機能
・毎月500分の超高品質のテキスト読み上げ
・プロジェクト経由の高品質オーディオ – 192 kbps
・API経由で44.1 kHz PCMオーディオを出力
・使用状況分析ダッシュボード
・追加クレジットの使用量ベースの課金

ElevenLabsの料金プランを上記にまとめました。ElevenLabsには4プランが用意されており、1番安いプランは無料で使えます

ただし、無料のプランだと利用できる機能に制限があるので、ElevenLabsをフル活用したいならCreator以上のプランがおすすめです。

最初は無料でElevenLabsの使い勝手を確認して、気に入ったら徐々に有料プランに切り替えていくのがよさそうです。

ElevenLabsの使い方

ここからは、ElevenLabsの使い方を紹介していきます。

筆者が実際に登録しながらスクショも載せているので、ぜひ参考にしてみてください。

登録手順

参考:https://elevenlabs.io/ja

まずは、ElevenLabsの公式サイトにアクセスして、アカウントを登録します。

右上にある「GET STARTED FREE」をクリックしてください。

アカウント情報の入力を求められるので、上部のGoogleアカウントでログインを選択します。

ちなみに、下のチェックボックスでは、メールの配信に関する同意とプライバシーポリシーへの同意を求められています。

ファーストネームやどこでElevenLabsを知ったか聞かれるので答えます。

このあと、職業等も質問されるので、当てはまるものを選択してください。

質問への回答が終わると、すぐにElevenLabsを使えるようになります。

使いたい機能のタブを選択して、実際に音声を生成してみましょう。

ブラウザ版の使用手順

ブラウザ版の使用手順は簡単です。まずは、左側にあるタブのなかから、使いたい機能を選択します。

その後、上記画像のように、生成したい音声をテキストで入力して、「Generate speech」を押すだけです。

以下に実際に生成された音声を共有します。

API版の使用手順

ElevenLabsをAPIで使用する際は、Google ColaboratoryなどのPython環境を使います。

まずは、以下のコードを入力して、ElevenLabsのセットアップを完了しましょう。

pip install elevenlabs

基本的には必要ありませんが、APIキーとボイスIDを指定して、環境変数の設定もできます。

ELEVENLABS_API_KEY= "発行したAPIキーを入力"
ELEVENLABS_VOICE_ID= "ElevenLabsのVoicesページにて取得したボイスIDを入力"

APIキーはElevenLabsで自分のアカウント名をクリックすると出てくる「API Keys」を選択、ボイスIDは左のタブの「Voices」から好みのボイスを選んで、「View」→「ID」とクリックすればコピーできます。

参考:https://elevenlabs.io/ja

あとは、使いたい機能に応じて適切なコードをPython環境で入力するだけです。

ElevenLabsを使ってみた

筆者も実際にElevenLabsの各機能を使ってみたので、そのレビューを画像とともに紹介していきます。

ElevenLabsで生成した音声も共有していくので、ぜひ参考にしてみてください。

TEXT TO SPEECH

TEXT TO SPEECHは、その名のとおりテキスト入力から音声に変換してくれる機能です。

筆者は試しに上記の文章を入力して音声変換してみました。生成された音声が以下のものです。

36秒というやや長い音声でも問題なく読み上げてくれました。ただ、若干日本語の読み方が不自然なところがあるので、そこは今後の改善に期待ですね。

ちなみに、音声を生成する際、左下の選択枠をクリックすると、話し手を変更できます。

Sound Effects

Sound Effectsは、テキストから効果音を生成する機能です。生成した効果音の特徴をテキスト形式で入力して、「Generate Sound Effects」をクリックすると効果音を生成できます。

参考:https://elevenlabs.io/ja

今回は試しに、テキスト入力欄の下に出ていたサンプルを選んでみました。

生成したあとは、右側のダウンロードアイコンをクリックするだけで瞬時にダウンロードできます。今回生成した音声は以下のとおりです。

確かに「疾走する車」のプロンプトに相応しい音声が作れていますね!

Projects

参考:https://elevenlabs.io/ja

Projectsは、長文のコンテンツを音声に変換する機能です。テキストファイルなどをアップロードすると、それに対応した音声をまとめて生成してくれます。

こちらの機能を使う際は、プランをCreatorにアップグレードする必要があるので注意しましょう。

Dubbing Studio

参考:https://elevenlabs.io/ja

Dubbing Studioは、入力した動画ファイルの音声を翻訳・吹き替えしてくれる機能です。利用する際は、真ん中の「Create new dub」を選択するところから始まります。

次の画面では、以下の情報を入力します。

  • プロジェクト名
  • 動画の言語
  • 吹き替え先の言語
  • 話しての人数

動画はファイルをアップロードするか、YouTubeリンクなどを添付して読み込ませます。動画の時間はアップロードしたあとに自動的に反映される仕組みです。

最後に「Create dub」をクリックすると、吹き替えた動画が生成されます。

ただし、こちらの機能も有料プランでなければ使えないので注意してください。

なお、音声AIの企業活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。

ElevenLabsでコンテンツ制作の幅を広げよう

ElevenLabsは、音声に関わるさまざまな編集ができる音声AIプラットフォームです。テキストから音声を生成できるほか、ノイズ除去や翻訳・吹き替えなど、多様な機能が揃っています。

そんなElevenLabsのできることを以下にまとめました。

【ElevenLabsでできること】

  • イントネーション・抑揚を自動で制御
  • 音声の選択肢が豊富
  • 高速生成が可能
  • ノイズ除去が高精度
  • 日本語含む32ヶ国語に対応

なお、ElevenLabsはStarter以上のプランなら商用利用も可能です。商用利用ができないものの、無料のプランも存在します。

使いこなせばコンテンツ制作の幅が広がることは間違いないので、クリエイターの方はぜひ使ってみてください。

最後に

いかがだったでしょうか?

ElevenLabsのAI音声は、業務効率を大幅に向上させる可能性を秘めています。もし、貴社での音声生成AIの導入を真剣に検討しているなら、このツールの活用が成功の鍵となるでしょう。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

まずは、無料相談にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
メルマガ登録

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • いつき

    高卒6年目にして独立開業した、フリーランスのWebライター。 ChatGPTをはじめ、多くのAIツールを使いこなした経験を基に、AIメディアの記事を執筆中。 複数のWebメディアに在籍し、ライター・ディレクター業務をマルチにこなす。

  • URLをコピーしました!
  • URLをコピーしました!
目次