【ZyphraAI Zonos-v0.1】テキストや人間の声から音声をクローン！？概要や使い方、活用事例を徹底解説！

2025-02-17

押さえておきたいポイント

2025年2月11日、Zyphra AI社が最新の音声合成AI「Zonos-v0.1」をβ版としてリリース
オープンソースながら商用TTS並みのクオリティを実現
APIとローカル実行の両方が可能

2025年2月11日、米スタートアップのZyphra AI社が、最先端のテキスト読み上げ（TTS）/音声合成AIモデルのβ版「ZyphraAI Zonos-V0.1」をリリースしました！

Today, we're excited to announce a beta release of Zonos, a highly expressive TTS model with high fidelity voice cloning.

We release both transformer and SSM-hybrid models under an Apache 2.0 license.

Zonos performs well vs leading TTS providers in quality and expressiveness. pic.twitter.com/jaliZNJecm
— Zyphra (@ZyphraAI) February 10, 2025

「ZyphraAI Zonos-v0.1」は、オープンソースの音声合成モデルであり、その表現力と音質は、主要な商用TTSサービスと同等かそれ以上とも評価されているようです。

本記事では、「ZyphraAI Zonos-v0.1（以下「Zonos-v0.1」とします）」の概要や使い方についてご説明します。
最後までお読みいただくと、使い方だけでなく活用事例についてもご理解いただけるかと思いますので、ぜひ最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

ZyphraAI Zonos-v0.1 とは？

「Zonos-v0.1」は、約20万時間に及ぶ多言語の音声データで訓練されたオープンソースの音声合成モデルです。

「Zonos-v0.1」は、テキストから自然で表現力豊かな音声を生成できるだけでなく、数秒間の音声サンプルから話者の声質をクローンし、そっくりの合成音声を作り出せる点が大きな特徴です。

さらに、話すスピードや声の高さ、感情なども細かく調整可能で、出力は44kHzと非常に高音質なものとなっています。

https://www.zyphra.com/post/beta-release-of-zonos-v0-1

Zonos-v0.1は、Zonos APIとプレイグラウンドをベースに、驚異的なスピードで音声を生成することができます。（TTFA：Time-To-First-Audio）。

また、上記の画像の通り、特にハイブリッドモデルは、Transformerモデルと比較して、遅延とメモリ負荷を大幅に削減しており、非常に効率的なパフォーマンスを発揮します。

これは、アテンションブロックへの依存度が低い「Mamba2」ベースのアーキテクチャを採用することで実現されているようです。

なお、自分の音声クローンが作れるAIツールについては以下の記事をご覧ください。

WEEL

【ElevenLabs】超ハイレベルなオーディオ生成AI！使い方や商用利用を徹底解説 | WEEL ElevenLabsは、高精度なAI音声ジェネレーターを提供するプラットフォームです。人間のような自然な音声を生成し、さまざまな言語に対応。イントネーションの制御や高速な音…

ZyphraAI Zonos-v0.1の特徴

Zonos-v0.1は、既存の音声合成サービスに比べ、技術的な先進性と使い勝手の良さを兼ね備えています。主な特徴は下記の通りです。

高い音声品質と表現力

44kHzというプロ並みの高精細サンプリングレートで音声を生成し、よくありがちな「ロボットのような不自然さ」の無いクリアな音質が実現されています。

感情の抑揚や話し方も自然で、人間らしい表現力を備えています。

ゼロショット音声クローン

わずか5〜30秒程度の音声サンプルから話者の特徴を捉え、そこからテキストを読み上げるボイスクローン機能を備えています。

事前に話者の訓練データがなくても、短いサンプル音声だけで高精度に声を再現できる点は画期的といえますね。

音声プレフィックス（※）

テキストと一緒にプレフィックスを入力することで、より豊かな話者表現ができます。

ささやき声や笑い声など、単なる声質のクローンだけでは再現が難しいニュアンスも、プレフィックス音声を与えることで、多彩な話し方・トーンを表現することができます。

※音声合成「TTS（Text-to-Speech）」において、合成音声のスタイルや話者の特徴を指定するために、事前に短い音声サンプルを提供する手法。

高速生成

大規模モデルでありながら、リアルタイムの約2倍速で音声生成をすることができます。

2025年2月現在の最新GPU（NVIDIA RTX 4090）で1秒あたり約2秒分の音声を出力することができるようです。

開発者フレンドリー　　　　

オープンソースで提供されており、GitHub上で多くのスターを獲得するなど活発な開発コミュニティがあります。

GitHubリポジトリには、GradioベースのWeb UIが公開されており、手軽に音声生成を試すことが可能です。

DockerコンテナやPython環境ですぐに動かせるサンプルコードが用意されており、モデルのセットアップやデプロイも容易です。

ZyphraAI Zonos-v0.1の料金プラン

Zonos-v0.1は、「オープンソース版」、「従量課金版」、「サブスクリプション版」の3つが提供されています。

項目	料金
オープンソース	・1ヶ月あたり100分まで利用可能※API利用にはアカウント登録必須
従量課金	・無料枠超過分は1分あたり0.02ドルの従量課金制・1リクエストごとではなく、生成された音声の長さに基づき料金計算がなされる
サブスクリプション（Proプラン）	・月額5ドルで毎月300分の利用枠が付与・超過分には、従量課金同様に1分あたり0.02ドルの従量課金が適用される

ZyphraAI Zonos-v0.1のライセンス

Zonos-v0.1はApache 2.0ライセンスで公開されており、商用目的での利用や特許利用など、制限はありません。

利用用途	可否
商用利用	⭕️
改変	⭕️
配布	⭕️
特許使用	⭕️
私的利用	⭕️

ただし、ライセンスについては変更となる可能性もありますので、利用する際は最新情報をチェックするようにしましょう。

ZyphraAI Zonos-v0.1の使い方

Zonos-v0.1は、「オープンソースモデルを直接利用する方法」と、「APIを利用する方法」の2通りの使い方があります。それぞれ手順やポイントを解説します。

1. オープンソースモデル

オープンソース版のZonos-v0.1を使うには、以下のステップを踏みます。

2025年2月時点では、Linux (Ubuntu 22.04/24.04推奨) + NVIDIA GPU環境での動作がサポートされています。適切なGPUドライバとCUDAがセットアップされた環境を用意しておきましょう。

音素変換に使うライブラリ「eSpeak-ng（音声合成時の発音補助として利用）」への依存があるため、Ubuntuの場合は次のコマンドでインストールします。

sudo apt install -y espeak-ng

GitHubリポジトリをクローンし、必要なPythonパッケージをインストールします。

git clone https://github.com/Zyphra/Zonos.git 
cd Zonos 
pip install -e .[compile] --no-build-isolation

セットアップが完了したら、音声合成を試せる状態になります。リポジトリ内のsample.pyスクリプトを実行すると、英語のデモ音声ファイルが生成されます。

GradioベースのWebUIを使う場合は、以下のようにDocker Compose（※）で簡単に起動することができます。

※事前にDockerのセットアップが必要です。

docker compose up

Hugging Face上にもZonos-v0.1のモデルが公開されており、from_pretrainedメソッド経由で、直接モデルをロードして使用することもできます。

PyTorchやTorchaudioの知識があれば、これらモデルを使って自前のPythonスクリプト内で音声生成処理を組み込むことも可能です。

2. API利用

Zyphra社の提供するクラウドAPIを利用すれば、自前で環境構築せずとも、インターネット経由でZonos-v0.1の音声合成機能を呼び出すことができます。基本的な利用手順は次の通りです。

Zyphra公式サイトでの「Try our models」をクリック。

サインアップをしましょう。

以下の画像のようなWebUIが表示されたらアカウント登録完了です。

WebUIの「Account Settings」から「API Keys」タブをクリックすると、デフォルトキーが設定されています。

デフォルトキーをそのままコピーするか「Generate New Key」で新規APIキーを作成してコピーしましょう。

Python向けには、公式のクライアントライブラリがPyPIで公開されているので、ターミナルで以下コマンドを実行しましょう。

pip install zyphra

APIキーとクライアントセットアップが完了したら、実際にリクエストを送ってみましょう。Pythonクライアントの場合、以下のコードでテキスト読み上げを実行できます。

from zyphra import ZyphraClient 
client = ZyphraClient(api_key="YOUR_API_KEY") 
# 音声合成を実行（結果をファイル保存） 
client.audio.speech.create(text="こんにちは、世界！", speaker="ja-JP_Female", output_path="output.webm")

上記コードを実行すると、「こんにちは、世界！」というテキストが日本人女性の声で読み上げられ、「output.webm」という音声ファイルが保存されます。

実行すると、リクエストがZyphraのクラウドに送信され、合成された音声データが返ってくるという仕組みになっています。

以上、2通りの使い方をご紹介しました。

試作段階では無料枠で試してみて、プロジェクト規模が大きくなったら有料プランへ移行するといった使い分けもできそうですね。

ZyphraAI Zonos-v0.1を使って「Hello World! 」を生成してみた

今回は簡単に「クラウド版」を利用してみます。

使い方はシンプルで、入力欄にテキストを打ち込むだけで、数秒〜数十秒程度の所要時間で音声ファイルが生成され、読み上げがスタートします。

話者の性別や言語、スピークスピード（Slow〜Fast）が20段階で設定できたり、細かくパラメーター調整が可能になっていますね。

「Hello World! 」日本人女性ver.

Speaking Rate：10

Speaking Rate：15

Speaking Rate：20

「Hello World! 」アメリカ人女性ver.

Speaking Rate：10

Speaking Rate：15

Speaking Rate：20

同じテキストでも、言語や話すスピードなどのパラメータを変更することで、全く印象が変わりますね！

ZyphraAI Zonos-v0.1活用事例

ここでは、Zonosの活用事例を3つご紹介します！ユーザーがどんな活用をしているのか、参考にしてみてください。

今回解説する事例において、弊社がX（旧Twitter）で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

1．ZonosをMacローカル環境で実行

Run ZONOS Locally

ZONOS, the new SOTA Open Source Voice Cloning TTS, is here.

I've managed to write a 1-click launcher for Zonos that works on Mac, Windows, and Linux (ALL platforms!)

Here's me cloning Peter Griffin's voice on my Mac. https://t.co/XLB6NEU8gE pic.twitter.com/nQ1cVtXE4P
— cocktail peanut (@cocktailpeanut) February 15, 2025

生成スピードも速く、もはや人間が話しているのか、ロボットなのか判別できないレベルのリアリティ性がありますね。

ちなみに上記ポストは、49〜50秒あたりで急にボリュームが大きくなりますので、ご注意ください。

2．Zonos × Luma Ray2

I'm testing Zonos the text-to-voice with my #Ray2 videos 🔊 pic.twitter.com/qF8jK2rOZy
— Alex (@alexfredo87) February 15, 2025

Luma Ray2で生成した動画に、Zonosの音声を載せています。

細かな手法は不明ですが、リアルな動画生成技術とリアルな音声生成技術のかけ合わせで、ハイクオリティなフェイク映像が作れそうです。

3．実在する人物の声をクローン

This is not being talked about enough

Zonos is a new open-source voice AI model that clones any voice in under 10 seconds.

Here is how I made a voice clone of @mreflow ! pic.twitter.com/SDEkAH1HOJ
— AP (@angrypenguinPNG) February 14, 2025

実際に存在するYouTuberの声を真似て、テキスト読み上げがなされています。可能性は無限大ですが、悪用はしないようにしましょう。

弊社では、音声合成技術と生成AIを活用し、教育分野でのAIコーチシステムを開発した実績があります。

生徒の集中度やストレスをリアルタイムに分析し、最適な声掛けを行うことで、学習効率とモチベーション向上を実現しました。ぜひこちらも参考にしてみてください！

WEEL

生徒の感情分析 × 生成AIによる学習アシスタント | WEEL プログラミング学習をしている生徒の学習を生成AIがサポート！カメラに映る表情から、生徒の集中度や感情を分析し、雑談モードなど寄り添うAIコーチを実現。導入・開発内…

まとめ

最後に改めて「ZyphraAI Zonos-v0.1」の特徴をまとめます。

オープンソースの音声合成モデル
表現力と音質は主要な商用TTSサービスと同等かそれ以上
1ヶ月あたり100分まで利用可能（超過分は従量課金）
Apache 2.0ライセンスベースであり、商用利用など制限なし
「オープンソースモデルを直接利用する方法」と「APIを利用する方法」の2通りの使い方がある

導入方法も容易で、無料枠でもある程度利用することができるので、気になる方はぜひ使ってみてください！

最後に

いかがだったでしょうか？

ZyphraAI Zonosのような高品質な音声合成AIを、自社のプロダクトや業務に活用しませんか？業務効率化や新規サービス開発にAIを導入した企業の事例をご紹介しながら、最適な活用方法をご提案します。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ