【ZyphraAI Zonos-v0.1】テキストや人間の声から音声をクローン!?概要や使い方、活用事例を徹底解説!

- 2025年2月11日、Zyphra AI社が最新の音声合成AI「Zonos-v0.1」をβ版としてリリース
- オープンソースながら商用TTS並みのクオリティを実現
- APIとローカル実行の両方が可能
2025年2月11日、米スタートアップのZyphra AI社が、最先端のテキスト読み上げ(TTS)/音声合成AIモデルのβ版「ZyphraAI Zonos-V0.1」をリリースしました!
「ZyphraAI Zonos-v0.1」は、オープンソースの音声合成モデルであり、その表現力と音質は、主要な商用TTSサービスと同等かそれ以上とも評価されているようです。
本記事では、「ZyphraAI Zonos-v0.1(以下「Zonos-v0.1」とします)」の概要や使い方についてご説明します。
最後までお読みいただくと、使い方だけでなく活用事例についてもご理解いただけるかと思いますので、ぜひ最後までご覧ください!
ZyphraAI Zonos-v0.1 とは?
「Zonos-v0.1」は、約20万時間に及ぶ多言語の音声データで訓練されたオープンソースの音声合成モデルです。
「Zonos-v0.1」は、テキストから自然で表現力豊かな音声を生成できるだけでなく、数秒間の音声サンプルから話者の声質をクローンし、そっくりの合成音声を作り出せる点が大きな特徴です。
さらに、話すスピードや声の高さ、感情なども細かく調整可能で、出力は44kHzと非常に高音質なものとなっています。

Zonos-v0.1は、Zonos APIとプレイグラウンドをベースに、驚異的なスピードで音声を生成することができます。(TTFA:Time-To-First-Audio)。

また、上記の画像の通り、特にハイブリッドモデルは、Transformerモデルと比較して、遅延とメモリ負荷を大幅に削減しており、非常に効率的なパフォーマンスを発揮します。
これは、アテンションブロックへの依存度が低い「Mamba2」ベースのアーキテクチャを採用することで実現されているようです。
なお、自分の音声クローンが作れるAIツールについては以下の記事をご覧ください。

ZyphraAI Zonos-v0.1の特徴
Zonos-v0.1は、既存の音声合成サービスに比べ、技術的な先進性と使い勝手の良さを兼ね備えています。主な特徴は下記の通りです。
高い音声品質と表現力
44kHzというプロ並みの高精細サンプリングレートで音声を生成し、よくありがちな「ロボットのような不自然さ」の無いクリアな音質が実現されています。
感情の抑揚や話し方も自然で、人間らしい表現力を備えています。
ゼロショット音声クローン
わずか5〜30秒程度の音声サンプルから話者の特徴を捉え、そこからテキストを読み上げるボイスクローン機能を備えています。
事前に話者の訓練データがなくても、短いサンプル音声だけで高精度に声を再現できる点は画期的といえますね。
音声プレフィックス(※)
テキストと一緒にプレフィックスを入力することで、より豊かな話者表現ができます。
ささやき声や笑い声など、単なる声質のクローンだけでは再現が難しいニュアンスも、プレフィックス音声を与えることで、多彩な話し方・トーンを表現することができます。
※音声合成「TTS(Text-to-Speech)」において、合成音声のスタイルや話者の特徴を指定するために、事前に短い音声サンプルを提供する手法。
高速生成
大規模モデルでありながら、リアルタイムの約2倍速で音声生成をすることができます。
2025年2月現在の最新GPU(NVIDIA RTX 4090)で1秒あたり約2秒分の音声を出力することができるようです。
開発者フレンドリー
オープンソースで提供されており、GitHub上で多くのスターを獲得するなど活発な開発コミュニティがあります。
GitHubリポジトリには、GradioベースのWeb UIが公開されており、手軽に音声生成を試すことが可能です。
DockerコンテナやPython環境ですぐに動かせるサンプルコードが用意されており、モデルのセットアップやデプロイも容易です。
ZyphraAI Zonos-v0.1の料金プラン
Zonos-v0.1は、「オープンソース版」、「従量課金版」、「サブスクリプション版」の3つが提供されています。
項目 | 料金 |
---|---|
オープンソース | ・1ヶ月あたり100分まで利用可能※API利用にはアカウント登録必須 |
従量課金 | ・無料枠超過分は1分あたり0.02ドルの従量課金制・1リクエストごとではなく、生成された音声の長さに基づき料金計算がなされる |
サブスクリプション(Proプラン) | ・月額5ドルで毎月300分の利用枠が付与・超過分には、従量課金同様に1分あたり0.02ドルの従量課金が適用される |
ZyphraAI Zonos-v0.1のライセンス
Zonos-v0.1はApache 2.0ライセンスで公開されており、商用目的での利用や特許利用など、制限はありません。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | ⭕️ |
私的利用 | ⭕️ |
ただし、ライセンスについては変更となる可能性もありますので、利用する際は最新情報をチェックするようにしましょう。
ZyphraAI Zonos-v0.1の使い方
Zonos-v0.1は、「オープンソースモデルを直接利用する方法」と、「APIを利用する方法」の2通りの使い方があります。それぞれ手順やポイントを解説します。
1. オープンソースモデル
オープンソース版のZonos-v0.1を使うには、以下のステップを踏みます。
2025年2月時点では、Linux (Ubuntu 22.04/24.04推奨) + NVIDIA GPU環境での動作がサポートされています。適切なGPUドライバとCUDAがセットアップされた環境を用意しておきましょう。
音素変換に使うライブラリ「eSpeak-ng(音声合成時の発音補助として利用)」への依存があるため、Ubuntuの場合は次のコマンドでインストールします。
sudo apt install -y espeak-ng
GitHubリポジトリをクローンし、必要なPythonパッケージをインストールします。
git clone https://github.com/Zyphra/Zonos.git
cd Zonos
pip install -e .[compile] --no-build-isolation
セットアップが完了したら、音声合成を試せる状態になります。リポジトリ内のsample.pyスクリプトを実行すると、英語のデモ音声ファイルが生成されます。
GradioベースのWebUIを使う場合は、以下のようにDocker Compose(※)で簡単に起動することができます。
※事前にDockerのセットアップが必要です。
docker compose up
Hugging Face上にもZonos-v0.1のモデルが公開されており、from_pretrainedメソッド経由で、直接モデルをロードして使用することもできます。
PyTorchやTorchaudioの知識があれば、これらモデルを使って自前のPythonスクリプト内で音声生成処理を組み込むことも可能です。
2. API利用
Zyphra社の提供するクラウドAPIを利用すれば、自前で環境構築せずとも、インターネット経由でZonos-v0.1の音声合成機能を呼び出すことができます。基本的な利用手順は次の通りです。
Zyphra公式サイトでの「Try our models」をクリック。

サインアップをしましょう。

以下の画像のようなWebUIが表示されたらアカウント登録完了です。

WebUIの「Account Settings」から「API Keys」タブをクリックすると、デフォルトキーが設定されています。
デフォルトキーをそのままコピーするか「Generate New Key」で新規APIキーを作成してコピーしましょう。

Python向けには、公式のクライアントライブラリがPyPIで公開されているので、ターミナルで以下コマンドを実行しましょう。
pip install zyphra
APIキーとクライアントセットアップが完了したら、実際にリクエストを送ってみましょう。Pythonクライアントの場合、以下のコードでテキスト読み上げを実行できます。
from zyphra import ZyphraClient
client = ZyphraClient(api_key="YOUR_API_KEY")
# 音声合成を実行(結果をファイル保存)
client.audio.speech.create(text="こんにちは、世界!", speaker="ja-JP_Female", output_path="output.webm")
上記コードを実行すると、「こんにちは、世界!」というテキストが日本人女性の声で読み上げられ、「output.webm」という音声ファイルが保存されます。
実行すると、リクエストがZyphraのクラウドに送信され、合成された音声データが返ってくるという仕組みになっています。
以上、2通りの使い方をご紹介しました。
試作段階では無料枠で試してみて、プロジェクト規模が大きくなったら有料プランへ移行するといった使い分けもできそうですね。
ZyphraAI Zonos-v0.1を使って「Hello World! 」を生成してみた
今回は簡単に「クラウド版」を利用してみます。

使い方はシンプルで、入力欄にテキストを打ち込むだけで、数秒〜数十秒程度の所要時間で音声ファイルが生成され、読み上げがスタートします。


話者の性別や言語、スピークスピード(Slow〜Fast)が20段階で設定できたり、細かくパラメーター調整が可能になっていますね。
「Hello World! 」日本人女性ver.
Speaking Rate:10
Speaking Rate:15
Speaking Rate:20
「Hello World! 」アメリカ人女性ver.
Speaking Rate:10
Speaking Rate:15
Speaking Rate:20
同じテキストでも、言語や話すスピードなどのパラメータを変更することで、全く印象が変わりますね!
ZyphraAI Zonos-v0.1活用事例
ここでは、Zonosの活用事例を3つご紹介します!ユーザーがどんな活用をしているのか、参考にしてみてください。
1.ZonosをMacローカル環境で実行
生成スピードも速く、もはや人間が話しているのか、ロボットなのか判別できないレベルのリアリティ性がありますね。
ちなみに上記ポストは、49〜50秒あたりで急にボリュームが大きくなりますので、ご注意ください。
2.Zonos × Luma Ray2
Luma Ray2で生成した動画に、Zonosの音声を載せています。
細かな手法は不明ですが、リアルな動画生成技術とリアルな音声生成技術のかけ合わせで、ハイクオリティなフェイク映像が作れそうです。
3.実在する人物の声をクローン
実際に存在するYouTuberの声を真似て、テキスト読み上げがなされています。可能性は無限大ですが、悪用はしないようにしましょう。
弊社では、音声合成技術と生成AIを活用し、教育分野でのAIコーチシステムを開発した実績があります。
生徒の集中度やストレスをリアルタイムに分析し、最適な声掛けを行うことで、学習効率とモチベーション向上を実現しました。ぜひこちらも参考にしてみてください!

まとめ

最後に改めて「ZyphraAI Zonos-v0.1」の特徴をまとめます。
- オープンソースの音声合成モデル
- 表現力と音質は主要な商用TTSサービスと同等かそれ以上
- 1ヶ月あたり100分まで利用可能(超過分は従量課金)
- Apache 2.0ライセンスベースであり、商用利用など制限なし
- 「オープンソースモデルを直接利用する方法」と「APIを利用する方法」の2通りの使い方がある
導入方法も容易で、無料枠でもある程度利用することができるので、気になる方はぜひ使ってみてください!
最後に
いかがだったでしょうか?
ZyphraAI Zonosのような高品質な音声合成AIを、自社のプロダクトや業務に活用しませんか?業務効率化や新規サービス開発にAIを導入した企業の事例をご紹介しながら、最適な活用方法をご提案します。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。