Text-to-SpeechとVOICEVOXを比較して、ビジネスに最適な合成音声を見つけていく

Text-to-Speech VOICEVOX 比較 ビジネス 最適 合成音声

WEELメディア事業部AIライターの2scです。

みなさん、Googleの合成音声「Text-to-Speech」はご存知ですか?

Text-to-SpeechはAI技術を搭載した今注目の合成音声!その開発には、かつてGoogleによって4億ドルで買収されたAI開発スタートアップ「DeepMind」が携わっています。

当記事では、このText-to-Speechを解説動画でおなじみ「VOICEVOX」と徹底比較していきます。
例えば、従来のチャットボットに対する新たな付加価値の創出、塾講師の代替としても「Text-to-Speech」が役立つ可能性があります。

ぜひぜひ、最後までお読みください!

目次

「Text-to-Speech」と「VOICEVOX」の概要

「Text-to-Speech」と「VOICEVOX」は、ともに合成音声ソフトウェアの代表格です。以下では、そんな両者の概要をお届けします。

Text-to-Speechの概要

「Text-to-Speech」は、Google傘下のAI開発企業・DeepMind(現・Google DeepMind)が手がけた合成音声ソフトウェアです。2017年11月10日にアルファ版が登場して以降、アップデートを重ねて現在に至っています。(※1)

参考:https://cloud.google.com/blog/products/ai-machine-learning/cloud-text-to-speech-expands-its-number-of-voices-now-covering-33-languages-and-variants?hl=en

そんな「Text-to-Speech」の特徴としては……

● DeepMindのAI技術で、ヒューマンライクなイントネーションを実現
● BtoCのデバイス・アプリケーションに実装可
● 50以上の言語に対応、音声も380種以上から選択可
● 声優を起用して、オリジナルの音声の作成も可能

以上のとおり。企業から個人まで、幅広い使い方が可能です。

公式サイト:Text-to-Speech AI: 自然な音声合成 | Google Cloud

VOICEVOXの概要

一方「VOICEVOX」は、ヒホ(ヒロシバ)氏が手がけた日本発の音声合成ソフトウェアです。こちらは2021年8月1日のリリース後、その音声ライブラリ「ずんだもん」を使ったYouTube動画が知名度を集めています。(※2)

参考:https://voicevox.hiroshiba.jp/how_to_use/

そんな「ずんだもん」でおなじみVOICEVOXの特徴としては……

● ディープラーニング技術により、中品質の音声を無料提供
● クレジットの記載で商用利用も可
● 「ずんだもん」「四国めたん」を筆頭に、ネームドの音声ライブラリ30種が利用可
● キャラクターなしの音声ライブラリ「VOICEVOX Nemo」も9種から選択可

以上のとおりで、個人での利用に最適です。

当記事では、このText-to-SpeechとVOICEVOXのユーティリティを徹底比較!おすすめの音声合成ソフトウェアを決めます。

公式サイト:VOICEVOX

なお、日本語特化型の音声合成用AIについて詳しく知りたい方は下記の記事もあわせてご確認ください。

Text-to-SpeechとVOICEVOXを6項目で比較!

ここからは、Text-to-SpeechとVOICEVOXの使い勝手は下記の6項目で比較していきます。

  • コンテンツ公開時に記載する内容
  • 日本語対応・発話能力
  • 導入の手間
  • 料金
  • 音声の調整機能
  • 拡張性・オリジナルの音声作成

まずは、コンテンツ公開時に記載する内容(クレジット等)から、ご覧あれ!

コンテンツ公開時に記載する内容

Text-to-SpeechとVOICEVOXはともに、商用利用が可能です。

ただし、商用利用にあたっての制約は異なります。具体的には、音声コンテンツの公開時に記載する内容が両者で違っていて……

Text-to-Speech
  • クレジットの記載は不要(※3)
  • サービスに組み込む場合「AI使用」と表記しても問題がない
VOICEVOX
  • 「VOICEVOX使用」の旨をクレジットに記載する必要あり(※4)

以上のとおり、VOICEVOXでのみクレジット表記が義務付けられているんです。「制約を気にせずに使いたい!」「AIのネームバリューが欲しい!」という方には、Text-to-Speechのほうがおすすめですね。

日本語対応・発話能力

純国産のVOICEVOXはもちろん、Text-to-Speechも日本語に対応しています。しかも意外や意外、日本語での読み上げがスムーズなのはText-to-Speechのほうなんです。

例えば、外来語まじりの文章(下記)をText-to-SpeechとVOICEVOXのそれぞれに読み上げてもらうと……

「Azure」はマイクロソフトが提供するクラウドコンピューティングサービスです。

【Text-to-Speech】

【VOICEVOX】

VOICEVOX:ずんだもん

このように違いは一目瞭然。まとめると以下のとおりになります。

Text-to-Speech
  • 日本語以外にも対応(英語 / 中国語 / ヒンディー語 / スペイン語…etc.)
  • 日本語に挟まれる外来語の読み上げも完璧
VOICEVOX
  • 日本語にのみ対応
  • 外来語をアルファベット名の羅列で読んでしまう

外来語を含む商品名やサービス名を紹介する状況を考えると、Text-to-Speechに軍配が上がりますね。

導入の手間

VOICEVOXとText-to-Speechとでは、導入方法が大きく異なっています。その内訳は……

Text-to-Speech
  • Python環境からAPI経由で利用可
  • Google Cloudでもプレビューが利用可
VOICEVOX
  • PC版アプリから利用可(Windows・Mac・Linuxに対応)
  • Python環境からも利用可(VOICEVOX CORE
  • 企業で導入していて社外から使いたい場合は、サーバーの導入が必須

以上のとおり。様々な導入手段が選べるのはVOICEVOXのほうですが、企業への導入についてはAPIから使えるText-to-Speechに軍配が上がります。

料金

VOICEVOXが無料で使えるのに対し、Text-to-Speechでは読み上げ文字数ごとに料金が発生します。両者の料金の内訳は、以下のとおりです。

Text-to-Speech
  • 読み上げ100万文字ごとに料金が発生
  • 毎月初回の100万文字は無料
VOICEVOX
  • アプリとして使う場合は完全無料
  • サーバー上で使う場合は、サーバー代が発生

Text-to-Speechの料金をわかりやすくするため、企業で使う場合を想定して概算してみると……

1000(ユーザー/日)× 10(やり取り回数/日)× 平均200(文字の応答/回)× 30(日)= 60,000,000(文字/月)
→60,000,000(文字/月)/ 1,000,000(文字)= 60
→$16(/100万文字)× 60 = $960/月 ≒ 約15万円/月

結果は以上のとおり。VOICEVOXをサーバーで使う場合も同程度の費用がかかりますので、互角といったところでしょう。

音声の調整機能

Text-to-SpeechとVOICEVOXはともに、音声の高低・抑揚・速度の調整機能を備えています。(※5、6)ただ、それ以外の機能は下記のとおり、かなり違っています。

Text-to-Speech
  • SSMLタグで発話の指示出しが可
  • 高品質な「WaveNet音声」も選択可
  • 50以上の言語・380種以上の音声が選択可(日本語は11種のみ)
  • 声の高さを半音20個分の幅で調整可
  • 発話速度は1/4〜4xで調整可
  • 音量を-96db〜16dbで調整可
  • REST / gRPCでのデバイス間連携に対応
  • MP3 / Linear16 / OGG Opus…etc.での出力に対応
  • スピーカーの種類に応じて音声の最適化が可能
VOICEVOX
  • 音声はキャラあり30種・キャラなし9種から選択可
  • スタイル(喋り方)も選択可
  • 声の高さ・発話速度・音量・抑揚・前後の無音時間を調整可
  • WAVファイルでの出力にのみ対応
  • 歌声合成機能のプロトタイプ版も利用可
    →喋り声よりの「ハミング」と歌声よりの「ソング」が選択可

ビジネスでの使い勝手でいえばText-to-Speechですが、より面白い使い方ができそうなのはVOICEVOX。デフォルトでも39種類の音声が使えて、下図のように歌声の合成も可能です。

参考:https://voicevox.hiroshiba.jp/how_to_use/

動画投稿者の方なら、VOICEVOX一択ですね。

拡張性・オリジナルの音声作成

Text-to-Speechでのみ、自前で収録した音声をベースに自分だけの「カスタム音声」が用意できます。(下記参照)

Text-to-Speech
  • 収録音声を学習・再現した「カスタム音声」が発注可
VOICEVOX
  • 不可

ちなみに、「カスタム音声」の作り方は以下のとおりです。詳細はGoogleCloudセールススペシャリストにお問い合わせください。

  1. スタジオ収録で高品質な音声データを用意する
  2. 音声データをGoogleに提出し、品質の審査が終わるまで待つ
  3. 審査に合格した場合、AIモデルのトレーニングが終わるまで待つ
  4. 数週間ほど待って完成!

このText-to-Speech「カスタム音声」なら、BtoCのサービスで競合他社との差別化が図れる……かもしれません。

Text-to-SpeechとVOICEVOXのどちらがおすすめ?

Text-to-SpeechもVOICEVOXも、それぞれにアピールポイントがあります。

オリジナリティを追求する場合、WEELとしておすすめしたいのは、

APIから簡単に使えてカスタム音声まで作れる「Text-to-Speech」

です!このText-to-Speechなら下記のとおり、様々なビジネスユースで活躍してくれるでしょう。

Text-to-Speechでおすすめの用途
  • カスタマーサポート・AIチャットボットの音声
  • デジタル機器の音声
  • 音声による補助・副音声
  • オーディオブック
    …and more!

対して、VOICEVOXは個人で活動中の動画投稿者の方にうってつけ。定番の解説動画から歌動画まで、ユニークなコンテンツが作れるはずです。

なお、合成音声の最先端・音声生成AIについて詳しく知りたい方は下記の記事もあわせてご確認ください。

合成音声でコンテンツ作成の幅を広げよう!

当記事では合成音声の2トップ「Text-to-Speech」と「VOICEVOX」の使い勝手を比較しました。下表にてもう一度、両者の比較内容を振り返っていきましょう!

スクロールできます
Text-to-SpeechVOICEVOX
コンテンツ公開時に記載する内容クレジット記載なしで「AI使用」と表記できる要クレジット記載
日本語対応・発話能力日本語にアルファベット表記の外来語が混ざっていても読み上げ可日本語が得意だが、外来語の読み上げが苦手
導入の手間APIに対応(企業の場合)サーバーが必要
料金読み上げ100万文字ごとに料金が発生基本無料だが、企業の場合はサーバーが必要
音声の調整機能高品質な音声 / デバイス間連携 / 豊富な出力形式が強み39種の音声ライブラリ / 歌声合成機能が強み
拡張性・オリジナルの音声作成収録音声を学習させた「カスタム音声」が発注可不可

このように、Text-to-SpeechとVOICEVOXにはそれぞれ一長一短がありましたね。合成音声をお探しの方は、ぜひお試しください!

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

無料で相談する

生成AIを社内で活用していきたい方へ
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

投稿者

  • 2sc

    テクニカルライター 大学時代はアリの生態を研究。 ラボで唯一、Pythonを使ってデータ分析を効率化していた。 現在はライターとして、オウンドメディアや学術記事の執筆に当たっている。

  • URLをコピーしました!
  • URLをコピーしました!
目次