【Coqui-AI XTTS】自分の声をあらゆる言語に変換できる最強翻訳AI

オープンソースAI その他音声生成生成AIずかん

2023-09-27

皆さん、CoquiというText-to-speechプラットフォームをご存知ですか？

なんと、GitHubを通じて無料で使えるライブラリと、それをベースにしたCoqui Studioというクラウドサービスが提供されているんです！

特に、最近は「XTTS」というモデルが話題だそうです。なんと、声はそのままに、複数言語の発音や訛りなどを取入れた音声データを作れます！GitHubで一位になるくらいですから、音声関連のサービス開発するなら必須！！

ということで、今回の記事ではCoquiというText-to-speechプラットフォームの概要、導入、実際に使ってみた感想についてまとめています。

この記事を最後まで読むと、音声生成AIツールのCoquiを理解できるようになります。

ぜひ最後までご覧ください！

Coquiの概要

Coqui TTS（Text-to-Speech）/ Coqui.aiは、テキストから音声を生成するためのプラットフォームです。

後述しますが、Coqui TTSは、GitHubからダウンロードして使える音声生成AIのプラットフォームです。
また、Coqui.ai のCoqui Studioは、そのモデルを利用できるクラウドサービスです。

Coqui Studioの中に、Coqui XTTSが入っています。

それでは順番に見ていきましょう！

Coqui.ai

Coqui.aiは、Coqui TTSの先進的な技術を活用したAIプラットフォームで、特に「Coqui Studio」というサービスが注目を集めています。

このツールの使い方はものすごく簡単で、モデルと音声にしたいテキストを入力するだけ。
その上で、声はそのままにマルチリンガル（複数言語）な音声データを作れる機能が大きいのではないでしょうか？

このツールで使えるモデルは「XTTS」、「V1」の2種類ですが、XTTSがその機能を担っています。

XTTS：音声はそのままで複数言語の訛りやイントネーションを付け加えられる
V1 : 感情を選択すると、それに合わせて声色が変わる

また、どちらのモデルも、プロンプトから音声を作ることも可能です。例えば、「若い女性」や「落ち着いている」などの属性を伝えることでそれに合わせた音声が作れます。

さらに、これだけではなく、作った音声をもとに模倣するボイスクローニングや、プロジェクト管理に至るまで、多彩な機能が一つのプラットフォームで利用できるのが魅力です。

Coqui TTS

Coqui TTSは、オープンソースのText-to-Speech（テキストから音声へ変換）ライブラリです。GitHubから無料でダウンロードするだけで、利用可能です。

このライブラリは1100以上の言語に対応した音声モデルを提供しており、マルチリンガル（同じ声で複数の言語を話す）な音声生成もできます。

また、新しいモデルの訓練や既存のモデルの微調整も容易に行えます。開発者からすると、さまざまなアプリに応用ができそうで期待が高まりますね。

Coquiの料金体系

Coqui.ai

Coqui.aiの各プランにおけるクレジットの使用量は以下の通りです。

XTTS: 1秒の音声につき2クレジット
V1: 1秒の音声につき1クレジット

こちらを共通認識として、Coqui.aiはいくつかの料金プランを提供しています。

プラン名	料金	月に付与されるクレジット	APIアクセス	追加機能
無料試用版	$0	300クレジット	なし	なし
Hobbyist	$5/月	3,600クレジット	あり	なし
Starter	$20/月	14,400クレジット	あり	なし
Intermediate	$50/月	36,000クレジット	あり	なし
Advanced	$175/月	180,000クレジット	あり	なし
Pro	要問い合わせ	不明	あり	Advancedプランに加えて – チーム協力ツール – 高品質な音声クローン – 多言語合成 – プロレベルのサポート
Enterprise	要問い合わせ	不明	あり	Proプランに加えて – シングルサインオン（SSO） – ロールベースのアクセス（RBAC） – チーム管理ツール – プレミアム品質の音声クローン – すべてのサポート言語 – スクリプトバージョニング – 監査ログ – VPCホスティング – カスタム統合

それでは導入方法をみていきましょう。

Coqui TTS

Coqui TTSはオープンソースプロジェクトであり、GitHubから無料でダウンロードして使用することができます。

ただし、商用利用や大規模なデプロイメントの場合には、追加のライセンス料が発生する可能性があります。

なお、OpenAIのWhisperをバージョンアップさせた音声生成AIについて知りたい方はこちらをご覧ください。
→【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた

Coquiの導入方法

Coqui.AIのCoqui XTTSとGithub上のCoqui TTSの導入方法を解説します。

Coqui XTTS

まずは、Coqui.aiの中でもCoqui XTTSを試してみます。

以下のURLにアクセスします。

右上のTry now for free をクリック。

以下のような画面になればOKです。

Coqui TTS

Google Colab で実際に実行したので、そのファイルを公開します。

（但し、ソースコードが壊れており、導入までしかできていません。予めご留意ください。）

まずは、以下を実行します。

!pip install --upgrade TTS
!pip install numpy>=1.23.0

次に、プログラム実行時に求められるAPIキーを取得するため、以下にアクセスします。

https://app.coqui.ai/auth/signin

ログインします。

プロフィールを入力して、Save and login。

で、再度、URLにアクセスして下にスクロールすると、APIキーが取得できます！！

再度、Google Colab に戻りましてAPIキーを環境に設定。

!export COQUI_STUDIO_TOKEN=your-api-key

以下のプログラムを実行

import torch
from TTS.api import TTS
# Get device
device = "cuda" if torch.cuda.is_available() else "cpu"
# List available 🐸TTS models and choose the first one
model_name = TTS().list_models()[0]
# Init TTS
tts = TTS(model_name).to(device)

yと入力。

以上で終了です。

再掲ですが、これ以降にある実際にやってみたパートでプログラムは動いてません。ソースコードの問題のため、解決されたら後日追記します。

Coqui XTTSを実際に使ってみた

Coqui XTTSを試してみます。

まずは、Coqui Studioで、Create Newをクリックしプロジェクトを作ります。

プロジェクト名と、モデルを選びCreate Projectします。

ちなみに、モデルには、以下の違いがあります。

XTTS：音声に対して、なまりをつけられる
V1 : 音声の感情を調整できる

XTTSモデルのプロジェクトが出来上がるので、クリック。

こんな画面に。

1. 声（キャラ名）、2.ネイティブ言語、3.言語を選択すると、それに合わせた音声が出来上がります。

今回は、「Hello World」という英語を、「English（英語話者）」にしたので、綺麗な英語で音声が作れます。

以下のように押すと再生されます。

実際の音声はこんな感じ。

作った音声は、下の方に溜まっていき一連の流れのまま聞くことができます。

この音声をエクスポートしたものがこちらです。

これで使い方についての紹介を終わります。

Coqui XTTSの推しポイントは本当なのか？

Coqui XTTSの機能の中で、以下が推されていたので実際に比較してみます。

同じ声のまま、マルチリンガルな音声を作成
音声のスタイル、ペース、感情の調整

それでは順番に確認していきましょう。

同じ声のまま、マルチリンガルな音声を作成

Coqui Studioでは、XTTSモデルを使い、声はそのままにマルチリンガルな音声を作ることができます。

これは、例えば、フランス人が「Hello World」という英語を発音したときの音声データを作れるということです。

まずは、英語話者の「Hello World」がこちらです。

先程のものを基準に、フランス人の「Hello World」を聞いてみましょう

確かに、　最初とは違いどこかフランス人の訛りのようなものが入っていますね。

他にも、ドイツ、スペイン、イタリア、ポルトガル、ポーランドを選択できます。

ドイツ

スペイン

イタリア

ポルトガル

ポーランド

AI音声で、これだけバリエーションが出せるのは驚きですね。

音声のスタイル、ペース、感情の調整

プロンプトを使い自分が作りたい音声に調整可能です。

もし、以下のプロンプトで、若い男性の声を作ったらこのような声になります。

A young man

次は、イケオジ声。以下のプロンプトで作りました。

An older man with a pleasing, deep voice.

落ち着いた声を作れてますね。

他にも、V1モデルを使ったプロジェクトだと、ボタンで簡単に感情を変えられます。

以下のセリフを感情を変えて、比較してみます。

Only one of us walks out of here!

これは、ニュートラルな感情の場合。

これを基準に、退屈そうな場合を聞いてみましょう。

最初とは雰囲気が一気に変わりましたね。

本当にダルそうに話してます笑

なお、感情表現が豊かな音声生成AIについて知りたい方はこちらをご覧ください。
→【OpenVoice】マルチリンガルで感情表現豊かな音声生成AIが人間レベル

まとめ

Coquiの概要、導入、使ってみた感想、そして推しポイントの検証結果をまとめました。

Coquiの概要

Coqui TTS（Text-to-Speech）/ Coqui.aiは、テキストから音声を生成するためのプラットフォームです。

Coqui.ai

Coqui.aiは、Coqui TTSの先進的な技術を活用したAIプラットフォームで、特に「Coqui Studio」というサービスが注目を集めています。

使い方はものすごく簡単で、モデルと音声にしたいテキストを入力するだけ。

使えるモデルは「XTTS」、「V1」の2種類。

XTTS：音声はそのままに訛りを付け加えられる
V1 : 感情を選択すると、それに合わせて声色が変わる

また、どちらのモデルも、プロンプトから音声を作ることが可能です。さらに、ボイスクローニング（生成した音声からの模倣）や、プロジェクト管理に至るまで、多彩な機能が一つのプラットフォームで利用できるのが魅力です。

Coqui TTS

Coqui TTSは、オープンソースのText-to-Speech（テキストから音声へ変換）ライブラリです。GitHubから無料でダウンロードし利用できます。

このライブラリは1100以上の言語に対応した音声モデルを提供しており、マルチリンガル（同じ声で複数の言語を話す）な音声生成も可能です。また、新しいモデルの訓練や既存のモデルの微調整も容易に行えます。

Coquiの料金体系

Coqui.ai

Coqui.aiの各プランにおけるクレジットの使用量は以下の通りです。

V1: 1秒の音声につき1クレジット
XTTS: 1秒の音声につき2クレジット

こちらを共通認識として、Coqui.aiはいくつかの料金プランを提供しています。

プラン名	料金	月に付与されるクレジット	APIアクセス	追加機能
無料試用版	$0	300クレジット	なし	なし
Hobbyist	$5/月	3,600クレジット	あり	なし
Starter	$20/月	14,400クレジット	あり	なし
Intermediate	$50/月	36,000クレジット	あり	なし
Advanced	$175/月	180,000クレジット	あり	なし
Pro	要問い合わせ	不明	あり	Advancedプランに加えて – チーム協力ツール – 高品質な音声クローン – 多言語合成 – プロレベルのサポート
Enterprise	要問い合わせ	不明	あり	Proプランに加えて – シングルサインオン（SSO） – ロールベースのアクセス（RBAC） – チーム管理ツール – プレミアム品質の音声クローン – すべてのサポート言語 – スクリプトバージョニング – 監査ログ – VPCホスティング – カスタム統合

Coqui TTS

Coqui TTSはオープンソースプロジェクトであり、GitHubから無料でダウンロードして使用することができます。

ただし、商用利用や大規模なデプロイメントの場合には、追加のライセンス料が発生する可能性があります。

Coquiの導入

Coqui XTTS

こちらのGoogle Colabファイルを参照ください。

ただし、ソースファイルが壊れており導入段階でストップしています。

Google Colabファイルにアクセスする
Coquiのアクセストークンを入手して、環境変数へ登録する
TTSモジュールをインストールする
音声モデルをダウンロードする

Coqui TTS

以下のURLにアクセスし、トライアルを始めます。

Coqui XTTSを使ってみた

テキストに訛りをつけられるXTTSモデルで、まずはプロジェクトを作りました。

その後、1.声、2.テキスト、3.言語の訛りを選択しました。

「English（英語話者）」の「Hello World」という綺麗な発音の音声が作られています。

Coqui XTTSの推しポイントの検証結果

次の推しポイントについて検証してみました。

同じ声のまま、マルチリンガルな音声を作成
音声のスタイル、ペース、感情を調整

同じ声のまま、マルチリンガルな音声を作成

Coqui Studio で、XTTSモデルを使うことで声はそのままに、マルチリンガルな音声を作ることができます。

対応している言語は以下の通りです。

イギリス
ドイツ
フランス
スペイン
イタリア
ポルトガル
ポーランド

それぞれの国の訛りやイントネーションが反映された音声データが作れてました。

音声のスタイル、ペース、感情を調整

特に、音声のスタイルの調整に関して確認するため、以下の2パターンをCoqui Studioプロンプトに入力。

A young man（若い男性の声）
An older man with a pleasing, deep voice.（深みのある声が心地よい年配の男性）

比較した結果、たしかにプロンプトに沿って、指定した通りの声色になっています。

若い男性の声

深みのある声が心地よい年配の男性

微妙な調整もうまくできているように感じました！

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ