【ElevenLabs】超ハイレベルなオーディオ生成AI!使い方や商用利用を徹底解説

ElevenLabs オーディオ生成AI 使い方 商用利用

WEELメディアリサーチャーのいつきです。

みなさんは、オーディオAIプラットフォームの「ElevenLabs」をご存知でしょうか。ElevenLabsとは、高度なAI音声ジェネレーターを備えたAIツールで、人間のイントネーションを忠実に再現した音声を生成できます。

今回はElevenLabsの機能や特徴、使い方などをご紹介します。最後までご覧いただくと、最新の音声AIを使いこなせるようになるため、クリエイティブな業務に活かせるようになるでしょう。

ぜひ最後までご覧ください。

目次

「ElevenLabs」とは?

ElevenLabsとは、高度なAI音声ジェネレーターを備えたオーディオAIプラットフォームです。テキスト入力から音声への変換、動画の音声を吹き替えるなど、音声に関するさまざまな編集ができます。

AIを使って自分の音声クローンを作るといった面白い試みもできますよ!

料金は後ほど詳しく解説しますが、無料でも使えます。API経由での利用も可能なため、ほかのツールと連携して、幅広い使い方が実現できそうです。

なお、音声生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

ElevenLabsの特徴・すごいところ

ElevenLabsの特徴・すごいところを以下にまとめました。

  • 音声系のAIモデルが豊富
  • イントネーション・抑揚を自動で制御
  • 音声の選択肢が豊富
  • 高速生成が可能
  • ノイズ除去が高精度
  • 日本語含む32ヶ国語に対応

最新のAI音声プラットフォームというだけあって、既存の音声AIにはなかった高度な特徴を備えています。以下でそれぞれ解説していくので、ぜひご覧ください。

音声系のAIモデルが豊富

ElevenLabsは以下のとおり、多種多様な音声系のAIモデルを搭載しています。(2025年3月時点)

  • Multilingual v2:感情表現に優れた29ヶ国語対応の音声合成モデル
  • Flash v2.5:低コスト・低遅延で32ヶ国語対応の音声合成モデル
  • Scribe v1:タイムスタンプ・話者識別・タグ付け機能を備えた99ヶ国語対応の音声認識モデル

どのモデルも日本語に完全対応していて、読み上げから文字起こしまでが高品質で行えます。

イントネーション・抑揚を自動で制御

ElevenLabsのすごいところの筆頭として挙げられるのが、イントネーション・抑揚を自動で制御できる点です。これまでの音声AIはどこか機械的な音声しか生成できませんでしたが、ElevenLabsはこれを克服しています。

より人間らしくリアルな音声を生成できるようになっているので、人間味のある対応が求められるカスタマー対応などで活かせることでしょう。

音声の選択肢が豊富

参考:https://elevenlabs.io/ja

ElevenLabsには、最初から豊富な音声データが備わっているので、ユーザーは自分の好みに応じた音声を選べます。それぞれに名前が付けられており、男性や女性などの声の特徴が異なるので、実際に聞いてから選んでみてください。

なお、自分の音声クローンを生成して、テキストを読み上げてもらうこともできます。

高速生成が可能

ElevenLabsでは、音声の高速生成が可能です。仮に5秒程度のテキストを入力した場合、約30秒程度で生成が完了します。

コンテンツ制作で大量に音声データが必要になっても、迅速に用意できるのが大きなメリットです。

ノイズ除去が高精度

ElevenLabsは、ノイズ除去も高精度です。Voice Isolatorの機能を使えば、アップロードした音声ファイルの雑音を綺麗に取り除いてくれます。

会議や講演など、多数の人が集まる場所で録音したデータを共有する際に便利です。

日本語含めて最大32ヶ国語に対応

ElevenLabsの各機能は、日本語を含む29〜32ヶ国語に対応しています。対応言語の一覧は上記画像のとおりです。

なんといっても、日本語に対応しているのが嬉しいポイントですね!

翻訳して吹き替える機能などもあるので、英語の動画を日本語に編集したいときなどに便利です。

ElevenLabsの機能

ElevenLabsには多数の機能が備わっています。各機能の詳細を以下で解説していくので、ぜひ参考にしてみてください。

テキストの読み上げができる「TEXT TO SPEECH」

「TEXT TO SPEECH」は、ElevenLabsの最も基本的な機能で、テキストデータを音声に読み上げてくれるというものです。「settings」をクリックすれば、以下の画面からモデルの選択、安定性・類似性・スタイルの誇張などのパラメータを直感的に調整できます。

話し手の選択肢も豊富なので、色々試してみてください。

 会話音声を差し替えられる「VOICE CHANGER」

ElevenLabsには「VOICE CHANGER」という機能も備わっています。こちらではアップロードした会話音声について、以下の仕様で、会話内容を保ったまま声だけを差し替えることができます。

  • 日本語を含む29ヶ国語対応
  • 差し替え先の音声は数千種類
  • 約400ミリ秒での高速差し替えが可能

表現の微調整にも対応していて、音声・動画コンテンツの制作に役立ってくれそうです。

発話内容を文字に起こせる「SPEECH TO TEXT」

ElevenLabsの「SPEECH TO TEXT」では、通常の音声文字起こし+αの機能が使えます。その仕様は以下のとおりです。

  • 日本語を含む99ヶ国語対応
  • 文字単位でタイムスタンプが付与可
  • 話者自動識別が可能
  • 笑い声や足音等、音声イベントのタグ付けにも対応

ElevenLabs公式によると、数ある音声認識モデルのなかでも屈指の誤字率の低さが実現できているとのこと。議事録作成で大活躍の予感がしますね。

自分の声そっくりな合成音声が作れる「VOICE CLONING」

ElevenLabsでは「VOICE CLONING」といって、録音したユーザーの声をもとにそっくりな合成音声(ボイスクローン)が作れます。詳細は以下をご覧ください。

  • 日本語を含む32ヶ国語対応
  • 数分の音声データからボイスクローンが作成可
  • 作成したボイスクローンは商用利用が可能

作成したボイスクローンは、後述するVOICE LIBRARYでの共有・収益化も可能です。

効果音を生成できる「TEXT TO SOUND EFFECTS(SFX生成)」

ElevenLabsの「TEXT TO SOUND EFFECTS(SFX生成)」は、入力したテキストから効果音を生成できる機能です。テキストで生成したい効果音の特徴を入力すると、瞬時に対応した効果音を生成してくれます。

こちらの機能は、筆者も実際に使って検証しているので、気になる方はこちらからジャンプしてご覧ください。

長文の読み上げができる「STUDIO」

ElevenLabsの「STUDIO」は、長文の読み上げができる機能です。TEXT TO SPEECHでも9,000文字程度の長文を読み込めますが、STUDIOならさまざまなファイル(EPUB / TXT / PDF / HTML…etc.)をアップロードして、さらに長文を読み上げさせられます。

ただし、Projectsが使えるのはCreatorプランからなので、使いたい方は有料プランにアップグレードしましょう。

動画の音声を差し替えられる「DUBBING STUDIO」

ElevenLabsの「DUBBING STUDIO」は、以下の仕様で動画の音声を差し替えられる機能です。

  • 日本語を含む29ヶ国語対応
  • YouTube / X / TikTok / Vimeo / URL…etc.からの入力に対応
  • 話者自動識別も可能

動画内で間違った情報を伝えていた場合に使用すれば、動画を撮り直すことなく、正しい情報に置き換えられます。

また、音声を翻訳して吹き替えることも可能なため、とくにYouTuberなどの動画配信者の需要が高そうですね!

音声中のノイズが除去できる「VOICE ISOLATOR」

「VOICE ISOLATOR」は、アップロードした音声のノイズを除去できる機能です。ElevenLabsの強みである高精度なノイズ除去を活かせるので、ぜひ活用していきたいところですね!

ノイズを除去してコンテンツのクオリティを向上できるので、クリエイターなら必須ともいえる機能です。ただし、この機能は有料プランのみで利用できるため、必要な場合は有料プランに契約してください。

プロンプトで音声をカスタムできる「VOICE DESIGN」

ElevenLabsには、テキストプロンプトをもとに合成音声をカスタマイズできる「VOICE DESIGN」機能が備わっています。こちらは年齢・アクセント・トーン・キャラクターの指定が可能で、音声のカスタマイズにかかる時間はたったの数秒です。

音声チャットボットが作れる「CONVERSATIONAL AI」

ElevenLabsの「CONVERSATIONAL AI」は、音声会話機能を備えた生成AIチャットボットを作成してWebサイトや電話に実装できる機能です。その仕様は以下のとおりになります。

  • 31ヶ国語対応
  • 音声認識・LLMによる回答生成・音声合成が可能
  • Twilio経由で電話への実装にも対応

なお、CONVERSATIONAL AIにデフォルトで搭載されるLLMはGoogleの「Gemini 2.0 Flash」です。その他、ClaudeシリーズやGPTシリーズ等、自前のLLMを実装することもできます。

数千もの合成音声が選べる「VOICE LIBRARY」

ElevenLabsでは数千種類以上の合成音声をストックしている「VOICE LIBRARY」から、任意のものを使用できます。VOICE LIBRARYの音声は商用利用が許可されていて、その他自分のボイスクローンを公開して収益を得ることも可能です。

なお、生成AIの法人利用方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。

スマホアプリ版ElevenLabsの「GenFM」について

2024年11月28日にElevenLabsの公式Xにて、スマホアプリ版ElevenLabs(ElevenReader)に新機能「GenFM」が追加されたと発表がありました。

このGenFMとは、PDFや記事、電子書籍、WEBサイトのURL、または 32ヶ国語のテキストからポッドキャストのような音声コンテンツを生成することができる機能。ElevenLabsのiOS / Androidアプリ「ElevenReader」から利用が可能です。

では、このGenFMとは一体どのようなコンテンツが生成できるのでしょうか。

実際にGenFMを使って音声コンテンツを作成してみました。

今回は、今ご覧になっていただいている記事のURLを入力してコンテンツを作成します。

聞いていただいてわかる通り、イントネーションや抑揚、間の取り方などまるでラジオのようなコンテンツを簡単に生成することができました。

ただ、個人的な感想としては、所々英語訛りのような日本語に聞こえるので、とても日本語の上手な外国人の方が二人で話している印象です。

また、しっかり聞くと日本語の読み間違いや機械音のような部分もあるので、まだまだ日本語に関しては正確に出力できるとはいえないでしょう。

しかし、URLを入力してボタンを一つ押すだけで、これだけのコンテンツを生成できてしまうことが驚きです。

コンテンツの内容も、生成AIが要約したテキストを会話形式の音声で聞くことができるので、難しい書籍や論文などでも、より頭に入りやすくなるでしょう。

今回は、無料のプランを使用しているため、生成したコンテンツの最初の1分程度しか出力することができませんでしたが、アプリ上ではコンテンツを最後まで確認することができるので、興味のある方は一度試してみると良いでしょう。

iOS向けアプリ:ElevenReader – Text To Speech on the App Store

Android向けアプリ:ElevenReader – Text to Speech – Apps on Google Play

ElevenLabsの商用利用について

ElevenLabsは、Starterプラン以上から商用利用が可能になります。つまり、フリープランでは商用利用が許可されないので注意してください。

ただ、フリープランでも、「elevenlabs.io」あるいは「11.ai」のクレジットを表示すれば公開が可能です。

なお、同意を得ていない他人の声をクローンして、不適切に利用することはどのプランでも禁止されています。すでに、著名人の音声を不正に利用したユーザーが問題になっているので、絶対に真似しないでください。

ElevenLabsの料金プラン

スクロールできます
プラン名料金機能
Free無料10,000クレジットの制限
・毎月10分間の超高品質のテキスト読み上げ
・何千ものユニークな音声を使用して 32 の言語で音声を生成
・月に99言語での音声からテキストへの2.5時間のAPI
・最大で4つの同時リクエストに対応できる15分間の会話型AI
・スタジオでは3つまでプロジェクトが作成可
・自動吹き替えでコンテンツを翻訳
・カスタム合成音声を作成する
・サウンド効果を生成する
・APIアクセス
Starter月払い:5ドル/月
年払い:4.17ドル/月(2ヶ月無料)
30,000クレジットの制限
・Freeの機能
・毎月30分の超高品質のテキスト読み上げ
・わずか1分の音声であなたの声を複製
・翻訳とタイミングをより細かく制御できる吹き替えスタジオへのアクセス
・月あたり12.5時間の音声からテキストへのAPI
・最大で6つの同時リクエストに対応できる50分間の会話型 AI
・スタジオで最大20のプロジェクト
・ElevenLabs を商用利用するためのライセンス
Creator月払い:22ドル/月(初月は50%OFF)
年払い:18.33ドル/月(2ヶ月無料)
10万クレジットの制限
・Starterの機能
・毎月100分の超高品質のテキスト読み上げ
・月に99言語でAPIを介して63時間の音声をテキストに変換
・最大で10の同時リクエストに対応できる250分間の会話型 AI
・あなたの声の最もリアルなデジタルレプリカを作成するためのプロフェッショナルな音声クローン作成
・複数のスピーカーによる長編コンテンツを作成するプロジェクト
・ウェブサイトやブログにナレーションを追加できるオーディオネイティブ
・より高品質なオーディオ (192 kbps)
・追加クレジットの使用量ベースの課金
Pro月払い:99ドル/月
年払い:82.5ドル/月(2ヶ月無料)
50万クレジットの制限
・Creatorの機能
・毎月500分の超高品質のテキスト読み上げ
・プロジェクト経由の高品質オーディオ – 192 kbps
・API経由で44.1 kHz PCMオーディオを出力
・使用状況分析ダッシュボード
・追加クレジットの使用量ベースの課金
・月に99言語でAPIを介して320時間の音声をテキストに変換
・最大で20の同時リクエストに対応できる1,100分間の会話型AI
Scale月払い:330ドル/月
年払い:275ドル/月(2ヶ月無料)
500万クレジットの制限
・Proの機能
・毎月2,000分の超高品質なテキスト読み上げ
・月あたりのAPIを介した音声からテキストへの1220時間
・最大で30の同時リクエストに対応できる3,600分間の会話型 AI
Business月払い:1,320ドル/月
年払い:1,100ドル/月(2ヶ月無料)
1,100万クレジットの制限
・Scaleの機能
・文字起こし料金を1分あたり5セントに
・毎月11,000分の超高品質なテキスト読み上げ、または 22,000分のフラッシュ/ターボ テキスト読み上げ
・APIを介した6000時間の音声からテキストへの変換
・最大で30の同時リクエストに対応できる13,750分間の会話型AI
・フラッシュ/ターボモデルは100 万文字あたり50ドル(年払いの場合)
・3つのプロフェッショナルボイスクローン
EnterpriseASK必要なだけクレジットを利用可能
・Businessの機能
・文字起こし料金を1分あたり5セント未満に
・すべてのサービスへのAPIアクセス
・DPA(データ処理契約)およびSLA(サービスレベルアグリーメント)に関する個別の条件と保証 
・セキュリティ質問票
・カスタムSSO 
・使用可能な音声および月間音声オペレーションの追加
・同時実行制限の引き上げ
・ElevenStudiosのフルマネージド吹き替えサービス
・規模に応じた大幅な割引価格
・優先サポート

ElevenLabsの料金プランを上記にまとめました。ElevenLabsには4プランが用意されており、1番安いプランは無料で使えます

ただし、無料のプランだと利用できる機能に制限があるので、ElevenLabsをフル活用したいならCreator以上のプランがおすすめです。

最初は無料でElevenLabsの使い勝手を確認して、気に入ったら徐々に有料プランに切り替えていくのがよさそうです。

ElevenLabsの使い方

ここからは、ElevenLabsの使い方を紹介していきます。

筆者が実際に登録しながらスクショも載せているので、ぜひ参考にしてみてください。

登録手順

参考:https://elevenlabs.io/ja

まずは、ElevenLabsの公式サイトにアクセスして、アカウントを登録します。

右上にある「GET STARTED FREE」をクリックしてください。

アカウント情報の入力を求められるので、上部のGoogleアカウントでログインを選択します。

ちなみに、下のチェックボックスでは、メールの配信に関する同意とプライバシーポリシーへの同意を求められています。

ファーストネームやどこでElevenLabsを知ったか聞かれるので答えます。

このあと、職業等も質問されるので、当てはまるものを選択してください。

質問への回答が終わると、すぐにElevenLabsを使えるようになります。

使いたい機能のタブを選択して、実際に音声を生成してみましょう。

ブラウザ版の使用手順

ブラウザ版の使用手順は簡単です。まずは、左側にあるタブのなかから、使いたい機能を選択します。

その後、上記画像のように、生成したい音声をテキストで入力して、「Generate speech」を押すだけです。

以下に実際に生成された音声を共有します。

API版の使用手順

ElevenLabsをAPIで使用する際は、Google ColaboratoryなどのPython環境を使います。

まずは、以下のコードを入力して、ElevenLabsのセットアップを完了しましょう。

pip install elevenlabs

基本的には必要ありませんが、APIキーとボイスIDを指定して、環境変数の設定もできます。

ELEVENLABS_API_KEY= "発行したAPIキーを入力"
ELEVENLABS_VOICE_ID= "ElevenLabsのVoicesページにて取得したボイスIDを入力"

APIキーはElevenLabsで自分のアカウント名をクリックすると出てくる「API Keys」を選択、ボイスIDは左のタブの「Voices」から好みのボイスを選んで、「View」→「ID」とクリックすればコピーできます。

参考:https://elevenlabs.io/ja

あとは、使いたい機能に応じて適切なコードをPython環境で入力するだけです。

ElevenLabsを使ってみた

筆者も実際にElevenLabsの各機能を使ってみたので、そのレビューを画像とともに紹介していきます。

ElevenLabsで生成した音声も共有していくので、ぜひ参考にしてみてください。

TEXT TO SPEECH

TEXT TO SPEECHは、その名のとおりテキスト入力から音声に変換してくれる機能です。

筆者は試しに上記の文章を入力して音声変換してみました。生成された音声が以下のものです。

36秒というやや長い音声でも問題なく読み上げてくれました。ただ、若干日本語の読み方が不自然なところがあるので、そこは今後の改善に期待ですね。

ちなみに、音声を生成する際、左下の選択枠をクリックすると、話し手を変更できます。

Sound Effects

Sound Effectsは、テキストから効果音を生成する機能です。生成した効果音の特徴をテキスト形式で入力して、「Generate Sound Effects」をクリックすると効果音を生成できます。

参考:https://elevenlabs.io/ja

今回は試しに、テキスト入力欄の下に出ていたサンプルを選んでみました。

生成したあとは、右側のダウンロードアイコンをクリックするだけで瞬時にダウンロードできます。今回生成した音声は以下のとおりです。

確かに「疾走する車」のプロンプトに相応しい音声が作れていますね!

Projects

参考:https://elevenlabs.io/ja

Projectsは、長文のコンテンツを音声に変換する機能です。テキストファイルなどをアップロードすると、それに対応した音声をまとめて生成してくれます。

こちらの機能を使う際は、プランをCreatorにアップグレードする必要があるので注意しましょう。

Dubbing Studio

参考:https://elevenlabs.io/ja

Dubbing Studioは、入力した動画ファイルの音声を翻訳・吹き替えしてくれる機能です。利用する際は、真ん中の「Create new dub」を選択するところから始まります。

次の画面では、以下の情報を入力します。

  • プロジェクト名
  • 動画の言語
  • 吹き替え先の言語
  • 話しての人数

動画はファイルをアップロードするか、YouTubeリンクなどを添付して読み込ませます。動画の時間はアップロードしたあとに自動的に反映される仕組みです。

最後に「Create dub」をクリックすると、吹き替えた動画が生成されます。

ただし、こちらの機能も有料プランでなければ使えないので注意してください。

なお、音声AIの企業活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。

ElevenLabsでコンテンツ制作の幅を広げよう

ElevenLabsは、音声に関わるさまざまな編集ができる音声AIプラットフォームです。テキストから音声を生成できるほか、ノイズ除去や翻訳・吹き替えなど、多様な機能が揃っています。

そんなElevenLabsのできることを以下にまとめました。

【ElevenLabsでできること】

  • 音声系のAIモデルが豊富
  • イントネーション・抑揚を自動で制御
  • 音声の選択肢が豊富
  • 高速生成が可能
  • ノイズ除去が高精度
  • 日本語含む32ヶ国語に対応

なお、ElevenLabsはStarter以上のプランなら商用利用も可能です。商用利用ができないものの、無料のプランも存在します。

使いこなせばコンテンツ制作の幅が広がることは間違いないので、クリエイターの方はぜひ使ってみてください。

最後に

いかがだったでしょうか?

ElevenLabsのAI音声は、業務効率を大幅に向上させる可能性を秘めています。もし、貴社での音声生成AIの導入を真剣に検討しているなら、このツールの活用が成功の鍵となるでしょう。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

まずは、無料相談にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
メルマガ登録

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • いつき

    高卒6年目にして独立開業した、フリーランスのWebライター。 ChatGPTをはじめ、多くのAIツールを使いこなした経験を基に、AIメディアの記事を執筆中。 複数のWebメディアに在籍し、ライター・ディレクター業務をマルチにこなす。

  • URLをコピーしました!
  • URLをコピーしました!
目次