【OpenVoice】マルチリンガルで感情表現豊かな音声生成AIが人間レベル

OpenVoice 人間の声 音声生成AI

OpenVoiceは、正確なトーンカラーのクローニング柔軟な声のスタイル制御ゼロショット多言語クローニングを可能にする音声クローニング技術です。

OpenVoiceを使用すると、リファレンス スピーカーの音色を複製するだけでなく、感情アクセントリズムポーズイントネーションなどの音声スタイルをきめ細かく制御できます。

これを使用するとこのような音声が生成できます。

現在、OpenVoiceのGitHubリポジトリには5,700を超えるスターがついており、公開以来なんと数千万回ほど使用されているそうです。

今回は、OpenVoiceの概要と使ってみた感想をお伝えします。

是非最後までご覧ください!

目次

OpenVoiceの概要

OpenVoiceは、正確なトーンカラーのクローニング柔軟な声のスタイル制御ゼロショット多言語クローニングを可能にする音声クローニング技術です。

OpenVoiceを使用すると、リファレンス スピーカーの音色を複製するだけでなく、感情アクセントリズムポーズイントネーションなどの音声スタイルをきめ細かく制御できます。

引用元:https://github.com/myshell-ai/OpenVoice?tab=readme-ov-file

OpenVoiceの特徴とその概要です。

  • 正確なトーンカラークローニング: 参照音声のトーンカラーを正確にクローンし、複数の言語やアクセントで音声を生成できます。
  • 柔軟な声のスタイル制御: 感情やアクセントなど、声のスタイルを細かく制御することができます。
  • ゼロショット多言語クローニング: 生成する音声の言語や、参照音声の言語が、大規模な多言語トレーニングデータセットに含まれていなくても、クローニングが可能です。

以下にOpenVoiceの紹介動画と、いくつかの生成例が紹介されているリンクを貼り付けておきます。

リンク

open-voice

OpenVoiceは、日本語にも対応しており、生成例でも紹介されていましたが非常に自然に生成できています。

ここからは、OpenVoiceの各機能を使用するとともに、他のTTSとの比較をしていこうと思います。

まずは使い方から説明します。

OpenVoiceの使い方

OpenVoiceは、オンラインで使用する方法とローカルにインストールして使用する方法の2種類あります。

オンラインで使用する方法は3種類あり、Lapton AIで使う方法と、MyShellで使う方法と、Hugging Face Spaceで使う方法です。

Lapton AI

playground/openvoice

MyShell

myshell.ai

Hugging Face Space

myshell-ai/OpenVoice

どれもアクセスするだけで簡単に使用できます。

次に、ローカルにインストールして使用する方法です。

まず以下のコマンドを順に実行します。

conda create -n openvoice python=3.9
conda activate openvoice
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

※Anacondaのインストールが必要です。

柔軟な声のスタイル制御を使用するには、demo_part1.ipynbを実行してください。

ゼロショット多言語クローニングを実行するには、demo_part2.ipynbを実行してください。

また、Gradio Web UIでデモを使用する場合は、python -m openvoice_app –shareを実行することで起動できます。

さらに高度な使用法については、以下のGitHubリポジトリを参照してください。

myshell-ai/OpenVoice

今回は、オンラインで実際に使ってみたいと思います。

なお、多言語に対応できる音声AI、Coqui-AI XTTSについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Coqui-AI XTTS】自分の声をあらゆる言語に変換できる最強翻訳AI

OpenVoiceを実際に使ってみた

まずは、トーンカラークローニングから使用してみます。

今回はLapton AIで生成を行い、実際の画面はこのようになっています。

以下が参照音声と生成されたクローニング音声です。

生成テキスト

He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat mutton pieces to be ladled out in thick, peppered, flour-fattened sauce.

非常に高い精度で参照音声のトーンカラーを複製しており、テキストを人間のような自然な音声で読み上げてくれています。

次に、声のスタイル制御を使用してみます。

先ほどと同じテキストと参照音声を使用して、声のスタイルを変更します。

このように複数の声のスタイルが用意されており、好きなスタイルを選択して先ほど同じように生成ボタンを押すだけで、スタイルを変更した音声を出力してくれます。

複数のスタイルを選択して、生成された結果は以下のようになりました。

Angry

Whispering

Terrified

結果は、どれも高い品質で選択したスタイルの音声を出力してくれており、特にWhisperingではささやくような声になっており、違いが明確に分かります。

最後に、多言語クローニングを使用してみようと思ったのですが、現状使用することができなかったので、使用できるようになり次第追記します。

ここからは、Open AI TTSとAmphionと比較して、どちらがより自然な音声を出力できるのか検証します。

OpenVoiceをOpen AI TTSとAmphionと比較してみた

OpenVoiceとOpen AI TTSとAmphionは若干機能は違いますが、どれもTTSツールなので、それぞれで生成される音声を比較してみます。

生成するテキストは先ほどのものと同じ以下のテキストです。

He hoped there would be stew for dinner, turnips and carrots and bruised potatoes and fat mutton pieces to be ladled out in thick, peppered, flour-fattened sauce.

結果はこのようになりました。

OpenVoice

Open AI TTS

Amphion

それぞれ設定や参照音声が違うので直接的な比較はできませんが、この中で最も自然な音声を生成したのは、Open AI TTSだと感じました。

機械感がほぼなく、本物の人間が喋っているかのように自然な音声になっています。

OpenVoiceは、TTSに引けを取らないほど自然な音声を生成してくれており、さらに忠実に参照音声のトーンカラーを再現できています。

Amphionの生成した音声は、この中では最も機械的な音声でしたが、他の2つのレベルが高すぎるだけでこちらも十分品質の高い音声を生成してくれています。

今後、さらに品質の向上したTTSや画期的な機能を搭載したTTSが登場することに期待しましょう!

なお、高性能の音声生成AI、Amphionについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Amphion】テイラースウィフトに中国語の曲を歌わせられる神音声AIツールを使ってみた

まとめ

OpenVoiceは、正確なトーンカラーのクローニング柔軟な声のスタイル制御ゼロショット多言語クローニングを可能にする音声クローニング技術です。

OpenVoiceを使用すると、リファレンス スピーカーの音色を複製するだけでなく、感情アクセントリズムポーズイントネーションなどの音声スタイルをきめ細かく制御できます。

実際に使ってみた感想は、オンラインで簡単に参照音声のトーンカラーをクローニングした高品質な音声を生成できたり、声のスタイルをワンクリックで変更できたりと、とても画期的なツールだと感じました。

この技術がさらに発展すると、映画「ブレードランナー」で登場する人間と区別がつかないほどリアルなレプリカントのように、人間と区別がつかないレベルの音声を生成できるようになるかもしれませんね!

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • ゆうや

    ロボット工学専攻。 大学時代は、対話ロボットのための画像キャプションの自動生成について研究。 趣味は、サウナとドライブ。

  • URLをコピーしました!
  • URLをコピーしました!
目次