【Coqui-AI XTTS】自分の声をあらゆる言語に変換できる最強翻訳AI

Coqui 音声生成AI 言語変換

皆さん、CoquiというText-to-speechプラットフォームをご存知ですか?

なんと、GitHubを通じて無料で使えるライブラリと、それをベースにしたCoqui Studioというクラウドサービスが提供されているんです!

特に、最近は「XTTS」というモデルが話題だそうです。なんと、声はそのままに、複数言語の発音や訛りなどを取入れた音声データを作れます!GitHubで一位になるくらいですから、音声関連のサービス開発するなら必須!!

ということで、今回の記事ではCoquiというText-to-speechプラットフォームの概要、導入、実際に使ってみた感想についてまとめています。

この記事を最後まで読むと、論文読み込みツールのCoquiを理解できるようになります。

ぜひ最後までご覧ください!

目次

Coquiの概要

Coqui TTS(Text-to-Speech)/ Coqui.aiは、テキストから音声を生成するためのプラットフォームです。

後述しますが、Coqui TTSは、GitHubからダウンロードして使える音声生成AIのプラットフォームです。
また、Coqui.ai のCoqui Studioは、そのモデルを利用できるクラウドサービスです。

Coqui Studioの中に、Coqui XTTSが入っています。

それでは順番に見ていきましょう!

Coqui.ai

Coqui.aiは、Coqui TTSの先進的な技術を活用したAIプラットフォームで、特に「Coqui Studio」というサービスが注目を集めています。

このツールの使い方はものすごく簡単で、モデルと音声にしたいテキストを入力するだけ。
その上で、声はそのままにマルチリンガル(複数言語)な音声データを作れる機能が大きいのではないでしょうか?

このツールで使えるモデルは「XTTS」、「V1」の2種類ですが、XTTSがその機能を担っています。

  1. XTTS:音声はそのままで複数言語の訛りやイントネーションを付け加えられる
  2. V1 : 感情を選択すると、それに合わせて声色が変わる

また、どちらのモデルも、プロンプトから音声を作ることも可能です。例えば、「若い女性」や「落ち着いている」などの属性を伝えることでそれに合わせた音声が作れます。

さらに、これだけではなく、作った音声をもとに模倣するボイスクローニングや、プロジェクト管理に至るまで、多彩な機能が一つのプラットフォームで利用できるのが魅力です。

Coqui TTS

Coqui TTSは、オープンソースのText-to-Speech(テキストから音声へ変換)ライブラリです。GitHubから無料でダウンロードするだけで、利用可能です。

このライブラリは1100以上の言語に対応した音声モデルを提供しており、マルチリンガル(同じ声で複数の言語を話す)な音声生成もできます。

また、新しいモデルの訓練や既存のモデルの微調整も容易に行えます。開発者からすると、さまざまなアプリに応用ができそうで期待が高まりますね。

Coquiの料金体系

Coqui.ai 

Coqui.aiの各プランにおけるクレジットの使用量は以下の通りです。

  • XTTS: 1秒の音声につき2クレジット
  • V1: 1秒の音声につき1クレジット

こちらを共通認識として、Coqui.aiはいくつかの料金プランを提供しています。

プラン名料金月に付与されるクレジットAPIアクセス追加機能
無料試用版$0300クレジットなしなし
Hobbyist$5/月3,600クレジットありなし
Starter$20/月14,400クレジットありなし
Intermediate$50/月36,000クレジットありなし
Advanced$175/月180,000クレジットありなし
Pro要問い合わせ不明ありAdvancedプランに加えて
– チーム協力ツール
– 高品質な音声クローン
– 多言語合成
– プロレベルのサポート
Enterprise要問い合わせ不明ありProプランに加えて
– シングルサインオン(SSO)
– ロールベースのアクセス(RBAC)
– チーム管理ツール
– プレミアム品質の音声クローン
– すべてのサポート言語
– スクリプトバージョニング
– 監査ログ
– VPCホスティング
– カスタム統合

それでは導入方法をみていきましょう。

Coqui TTS

Coqui TTSはオープンソースプロジェクトであり、GitHubから無料でダウンロードして使用することができます。

ただし、商用利用や大規模なデプロイメントの場合には、追加のライセンス料が発生する可能性があります。

Coquiの導入方法

Coqui.AIのCoqui XTTSとGithub上のCoqui TTSの導入方法を解説します。

Coqui XTTS

まずは、Coqui.aiの中でもCoqui XTTSを試してみます。

以下のURLにアクセスします。

あわせて読みたい
Coqui Coqui, Freeing Speech.

右上のTry now for free をクリック。

以下のような画面になればOKです。

Coqui TTS

Google Colab で実際に実行したので、そのファイルを公開します。

(但し、ソースコードが壊れており、導入までしかできていません。予めご留意ください。)

あわせて読みたい

まずは、以下を実行します。

!pip install --upgrade TTS
!pip install numpy>=1.23.0

次に、プログラム実行時に求められるAPIキーを取得するため、以下にアクセスします。

あわせて読みたい
Coqui Studio Coqui, Freeing Speech.

ログインします。

プロフィールを入力して、Save and login。

で、再度、URLにアクセスして下にスクロールすると、APIキーが取得できます!!

再度、Google Colab に戻りましてAPIキーを環境に設定。

!export COQUI_STUDIO_TOKEN=your-api-key

以下のプログラムを実行

import torch
from TTS.api import TTS
# Get device
device = "cuda" if torch.cuda.is_available() else "cpu"
# List available 🐸TTS models and choose the first one
model_name = TTS().list_models()[0]
# Init TTS
tts = TTS(model_name).to(device)

yと入力。

以上で終了です。

再掲ですが、これ以降にある実際にやってみたパートでプログラムは動いてません。ソースコードの問題のため、解決されたら後日追記します。

Coqui XTTSを実際に使ってみた

Coqui XTTSを試してみます。

まずは、Coqui Studioで、Create Newをクリックしプロジェクトを作ります。

プロジェクト名と、モデルを選びCreate Projectします。

ちなみに、モデルには、以下の違いがあります。

  • XTTS:音声に対して、なまりをつけられる
  • V1 : 音声の感情を調整できる

XTTSモデルのプロジェクトが出来上がるので、クリック。

こんな画面に。

1. 声(キャラ名)、2.ネイティブ言語、3.言語を選択すると、それに合わせた音声が出来上がります。

今回は、「Hello World」という英語を、「English(英語話者)」にしたので、綺麗な英語で音声が作れます。

以下のように押すと再生されます。

実際の音声はこんな感じ。

作った音声は、下の方に溜まっていき一連の流れのまま聞くことができます。

この音声をエクスポートしたものがこちらです。

これで使い方についての紹介を終わります。

Coqui XTTSの推しポイントは本当なのか?

Coqui XTTSの機能の中で、以下が推されていたので実際に比較してみます。

  • 同じ声のまま、マルチリンガルな音声を作成
  • 音声のスタイル、ペース、感情の調整

それでは順番に確認していきましょう。

同じ声のまま、マルチリンガルな音声を作成

Coqui Studioでは、XTTSモデルを使い、声はそのままにマルチリンガルな音声を作ることができます。

これは、例えば、フランス人が「Hello World」という英語を発音したときの音声データを作れるということです。

まずは、英語話者の「Hello World」がこちらです。

先程のものを基準に、フランス人の「Hello World」を聞いてみましょう

確かに、 最初とは違いどこかフランス人の訛りのようなものが入っていますね。

他にも、ドイツ、スペイン、イタリア、ポルトガル、ポーランドを選択できます。

ドイツ

スペイン

イタリア

ポルトガル

ポーランド

AI音声で、これだけバリエーションが出せるのは驚きですね。

音声のスタイル、ペース、感情の調整

プロンプトを使い自分が作りたい音声に調整可能です。

もし、以下のプロンプトで、若い男性の声を作ったらこのような声になります。

A young man

次は、イケオジ声。以下のプロンプトで作りました。

An older man with a pleasing, deep voice.

落ち着いた声を作れてますね。

他にも、V1モデルを使ったプロジェクトだと、ボタンで簡単に感情を変えられます。

以下のセリフを感情を変えて、比較してみます。

Only one of us walks out of here!

これは、ニュートラルな感情の場合。

これを基準に、退屈そうな場合を聞いてみましょう。

最初とは雰囲気が一気に変わりましたね。

本当にダルそうに話してます笑

まとめ

Coquiの概要、導入、使ってみた感想、そして推しポイントの検証結果をまとめました。

Coquiの概要

Coqui TTS(Text-to-Speech)/ Coqui.aiは、テキストから音声を生成するためのプラットフォームです。

Coqui.ai

Coqui.aiは、Coqui TTSの先進的な技術を活用したAIプラットフォームで、特に「Coqui Studio」というサービスが注目を集めています。

使い方はものすごく簡単で、モデルと音声にしたいテキストを入力するだけ。

使えるモデルは「XTTS」、「V1」の2種類。

  1. XTTS:音声はそのままに訛りを付け加えられる
  2. V1 : 感情を選択すると、それに合わせて声色が変わる

また、どちらのモデルも、プロンプトから音声を作ることが可能です。さらに、ボイスクローニング(生成した音声からの模倣)や、プロジェクト管理に至るまで、多彩な機能が一つのプラットフォームで利用できるのが魅力です。

Coqui TTS

Coqui TTSは、オープンソースのText-to-Speech(テキストから音声へ変換)ライブラリです。GitHubから無料でダウンロードし利用できます。

このライブラリは1100以上の言語に対応した音声モデルを提供しており、マルチリンガル(同じ声で複数の言語を話す)な音声生成も可能です。また、新しいモデルの訓練や既存のモデルの微調整も容易に行えます。

Coquiの料金体系

Coqui.ai 

Coqui.aiの各プランにおけるクレジットの使用量は以下の通りです。

  • V1: 1秒の音声につき1クレジット
  • XTTS: 1秒の音声につき2クレジット

こちらを共通認識として、Coqui.aiはいくつかの料金プランを提供しています。

プラン名料金月に付与されるクレジットAPIアクセス追加機能
無料試用版$0300クレジットなしなし
Hobbyist$5/月3,600クレジットありなし
Starter$20/月14,400クレジットありなし
Intermediate$50/月36,000クレジットありなし
Advanced$175/月180,000クレジットありなし
Pro要問い合わせ不明ありAdvancedプランに加えて
– チーム協力ツール
– 高品質な音声クローン
– 多言語合成
– プロレベルのサポート
Enterprise要問い合わせ不明ありProプランに加えて
– シングルサインオン(SSO)
– ロールベースのアクセス(RBAC)
– チーム管理ツール
– プレミアム品質の音声クローン
– すべてのサポート言語
– スクリプトバージョニング
– 監査ログ
– VPCホスティング
– カスタム統合

Coqui TTS

Coqui TTSはオープンソースプロジェクトであり、GitHubから無料でダウンロードして使用することができます。

ただし、商用利用や大規模なデプロイメントの場合には、追加のライセンス料が発生する可能性があります。

Coquiの導入

Coqui XTTS

こちらのGoogle Colabファイルを参照ください。

ただし、ソースファイルが壊れており導入段階でストップしています。

  1. Google Colabファイルにアクセスする
  2. Coquiのアクセストークンを入手して、環境変数へ登録する
  3. TTSモジュールをインストールする
  4. 音声モデルをダウンロードする

Coqui TTS

以下のURLにアクセスし、トライアルを始めます。

あわせて読みたい
Coqui Coqui, Freeing Speech.

Coqui XTTSを使ってみた

テキストに訛りをつけられるXTTSモデルで、まずはプロジェクトを作りました。

その後、1.声、2.テキスト、3.言語の訛りを選択しました。

「English(英語話者)」の「Hello World」という綺麗な発音の音声が作られています。

Coqui XTTSの推しポイントの検証結果

次の推しポイントについて検証してみました。

  • 同じ声のまま、マルチリンガルな音声を作成
  • 音声のスタイル、ペース、感情を調整

同じ声のまま、マルチリンガルな音声を作成

Coqui Studio で、XTTSモデルを使うことで声はそのままに、マルチリンガルな音声を作ることができます。

対応している言語は以下の通りです。

  • イギリス
  • ドイツ
  • フランス
  • スペイン
  • イタリア
  • ポルトガル
  • ポーランド

それぞれの国の訛りやイントネーションが反映された音声データが作れてました。

音声のスタイル、ペース、感情を調整

特に、音声のスタイルの調整に関して確認するため、以下の2パターンをCoqui Studioプロンプトに入力。

  • A young man(若い男性の声)
  • An older man with a pleasing, deep voice.(深みのある声が心地よい年配の男性)

比較した結果、たしかにプロンプトに沿って、指定した通りの声色になっています。

若い男性の声

深みのある声が心地よい年配の男性

微妙な調整もうまくできているように感じました!

生成AIツールならOSS利用がおすすめ

じつのところ、巷に溢れるAIツールは以下のリンクにあるようなオープンソースプロジェクトの組み合わせで作られています。(*全て商用可能・無料なものがほとんど)

GitHub
GitHub - EwingYangs/awesome-open-gpt: Collection of Open Source Projects Related to GPT,GPT相关开源... Collection of Open Source Projects Related to GPT,GPT相关开源项目合集🚀、精选🔥🔥 - GitHub - EwingYangs/awesome-open-gpt: Collection of Open Source Projects Re...

ツールはその特性上、どうしても限界があります。

個人で使う場合や、業務の一部分のみを効率化する場合であれば問題ありませんが、社内で大規模に活用する場合は、様々な不都合が発生する可能性があります。

以下に、AIサービスを使用した場合とオープンソース利用による自社開発を行った場合の比較表を作成しました。

初期導入コストや50人未満で活用する場合には、AIサービスに利点が多いです。

しかし、長期的にツールを活用する場合や50人以上の会社で活用する場合には、自社開発を行った方がメリットが大きいです。

加えて、カスタマイズ性や技術資産性、セキュリティの依存性という観点からも、OSS利用による自社開発を行うことを推奨しております。

計算シミュレーションAIサービスOSS利用による自社開発
初期導入コスト/初期開発費
開発費がかからない。(ただし、初期導入コストが実質開発費以上になるようなケースもある)

おおよそ500万以上の場合だと、OSS開発の方が安い
ランニングコストの費用対効果
毎月費用が発生する

基本無料だが、一部管理保守費による費用発生する場合あり
一アカウント当たりの費用対効果
1アカウント当たりの月額課金がかかる

自社クラウドサーバーによる運用
ワークフローの見直し(ツールにワークフローを合わせなくてはいけない)×
カスタマイズ性×
サービスを開発した機能しか使えない

完全オーダーメイド
技術資産性×
これから企業価値のキモとなってくるIT技術を外部に依存する

技術資産をアウトソースしないことで、企業価値が上がる
セキュリティの依存性×
ツール開発会社に依存する

自社に特化したセキュリティ対策が可能
50人未満の場合(年間あたりの費用対効果)
50人以上の場合(年間あたりの費用対効果)
100人以上の場合(年間あたりの費用対効果)
300人以上の場合((年間あたりの費用対効果)×
1000人以上の場合(年間あたりの費用対効果)×

弊社WEELは国内最速で生成AI関係のオープンソースプロジェクト(OSS)を記事化し、月間130万PVを超えました。

生成AI業界は、成長スピードが爆発的であり、それらに日々伴走できるエンジニアコミッターが管理・バージョンアップするOSSの利用・活用・連携が欠かせません。国内ベンダーが作りがちのOSSを積極利用しないAIツールは、すぐに形骸化し、費用対効果が合わなくなるでしょう。

生成AIサービスを利用・開発する場合はOSSの知見が肝。
弊社では「もしもAIサービスを作るなら、どんなオープンソースの組み合わせで開発できるだろう?」という疑問にベストアンサーを提供できます。ぜひお問い合わせください。

➡︎費用対効果の高い生成AIサービスの開発について相談をしてみる。

最後に

弊社は生成系AI特化の事業になるまでは、法人向けシステムの開発・連携・自動化・機能比較等々

エンジニア目線によるシステム検討・導入支援を行ってきました。

そこで、明らかに高すぎる「ボッタクリ」とも呼べるような業者や、システムに何度も遭遇してきました。

弊社は透明性に特に力を入れており、弊社のノウハウや開発料金などを公開しています。

今まで100社以上の実績がある、SaaS間API連携の経験からシステム・ツール選びには強みがあります。

生成AIサービスの比較、一番いいのを教えてくれ!という方はぜひご連絡を。

また、自社開発と既存のAIサービスの導入で悩んでいる、などなどの場合もご対応しています!

➡︎生成AIサービスの比較、AIサービスの導入について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Leon Kobayashi

    必ずフォローすべきAIエバンジェリスト(自称) => 元東証一部上場ITコンサル (拙者、早口オタク過ぎて性に合わず退社)<-イマココ 【好きなもの】リコリコ・しゃぶ葉 宜しくおねがいします。

  • URLをコピーしました!
  • URLをコピーしました!
目次