【Voice Engine】OpenAIが犯罪への悪用を恐れている音声モデルの活用事例

2024-04-012024-07-22

OpenAI社が、2022 年後半に開発していた「Voice Engine」という音声モデルを発表し、その詳細が公開されました。

このモデルは、テキスト入力と単一の15 秒の音声サンプルを使用して、元の話者によく似た自然な音声を生成できます。

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ
— OpenAI (@OpenAI) March 29, 2024

以下の音声は、入力した音声サンプルと、実際にVoice Engineで生成された英語で物理について話している音声です。

音声サンプル

生成音声

元の音声とほとんど区別がつかない非常に自然な音声ですよね！

このVoice Engindeは、あまりに高性能なため、悪用される危険性があることから、広範なリリースはせず、Text-to-Speech APIやChatGPT Voice、Read AloudといったOpenAIのツールやサービスで活用していたそうです。

ですが、OpenAIは2023年末から信頼できるパートナーと非公開でテストを開始し、Voice Engineを使用したいくつかのツールが誕生しています。

今回は、Voice Engineの概要や、活用事例、将来性などについて詳しく解説していきます。

是非最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Voice Engineの概要

Voice Engineは、OpenAIが2022年の後半に開発し、Text-to-Speech APIやChatGPT Voice、Read Aloudで活用されています。

OpenAIは、このモデルが悪用される危険性を考慮して、広範なリリースはせず自社製品での活用にとどめていましたが、2023年末頃から信頼できるパートナーと、Voice Engineを使用した小規模なテストを行っています。

OpenAIがこれほど悪用されることに警戒感を示しているのは、Voice Engineがテキスト入力と単一の15 秒の音声サンプルのみを使用して、元の話者に非常によく似た自然な音声を生成できるからです。

このモデルは、日本語にも対応しており、日本語での生成音声サンプルも公開されています。

少しぎこちなく感じますが、これは他言語のネイティブの人が日本語を話した場合の音声になっているそうです。

#OpenAI のVoice Engine、公開される日本語のサンプルは純粋な日本語ではなく、

他言語のネイティブの人が日本語話した場合

とのことで、英語ネイティブが日本語を喋った時の読み方になっているらしい。
日本語だと使い道がピンとこないけど要するに関西弁対応してるのと同じ感覚だと思う。 pic.twitter.com/bRqtbKLvwx
— 楠剛毅@LOVERSE開発者 (@goke34) March 30, 2024

つまり、音声サンプルを日本語にすれば、自然な日本語の生成もできそうですね。

ここからは、OpenAIから公開された情報をもとに、パートナーとのテストで開発されたVoice Engineを活用したアプリケーションを紹介します。

なお、感情表現ができる音声生成AIであるEmotionVoiceについて知りたい方はこちらの記事をご覧ください。
→【EmotiVoice】AIがついに感情を手に入れる。感情表現ができる音声生成AIに実際に喋ってもらった

Voice Engineの活用例

概要でも説明した通り、OpenAIはVoice Engineが悪用される危険性を危惧し、広範なリリースにかなり慎重な姿勢をとっています。

ですが、このモデルの潜在的な用途、活用方法をより深く理解する必要があるため、OpenAIは信頼できるパートナーと非公開でテストを開始しました。

ここでは、そのテストで開発されたツールをいくつか紹介します。

Age of Learning

子どもたちの学業の成功に特化した教育テクノロジー企業であるAge of Learningは、Voice EngineとGPT-4を使って、本を読まない人や子供たちに向けた文章読み上げコンテンツや、生徒とシステムが対話しながら学習するコンテンツを開発しました。

具体的には、Voice Engineを使用して事前にスクリプト化されたナレーションコンテンツを生成し、Voice EngineとGPT-4を使用して、生徒と対話するためのリアルタイムのパーソナライズされた応答を作成しました。

以下の音声は、音声サンプルとそれをもとに生成されたナレーションです。

音声サンプル

生物学についてのナレーション

元の話者とほぼ同じ、流暢で自然な音声になっており、大変聞き取りやすいですね！

これにより、Age of Learningはより幅広い層の方々に向け、多くのコンテンツを効率的に作成できるようになりました。

HeyGen

AI技術を活用した動画生成プラットフォームであるHeyGenは、顧客と協力して製品マーケティングから販売デモまで、さまざまなコンテンツ用の人間に似たカスタムアバターを作成しています。

HeyGenは、Voice Engineを活用して、ビデオの話者の声を複数の言語に翻訳しています。

先ほど紹介した日本語の音声も、HeyGenで生成されたもので、Voice Engineは翻訳に使用される場合、元の話者のネイティブのアクセントを保持します。

つまり、英語の音声をサンプルとして使用した場合は英語のアクセントに、日本語の音声をサンプルとした場合、日本語のアクセントになるということです。

こちらも例を示します。

音声サンプル

スペイン語

スペイン語ネイティブではないので、英語訛りになっているか分かりませんが、問題なく翻訳できていそうですね。

この機能により、HeyGenを使うクリエイターや企業が流暢かつ自分の声で世界中のより多くの人々に情報を発信できるようになります。

Dimagi

Dimagiは、開発途上国や人道支援が必要とされる地域で、医療、教育、経済開発などの分野における情報技術を活用した解決策を提供している非営利団体です。

この団体は、Voice EngineとGPT-4を使用して、アフリカで医療従事者のスキル開発のために、スワヒリ語を含む各従業員の主言語や、シェン語などのローカルな言語での対話型フィードバックツールを開発しました。

以下の音声は、音声サンプルとそれをもとに生成された音声です。

音声サンプル

生成音声

こちらは、流暢なスワヒリ語の音声サンプルから、ビタミンAについてスワヒリ語で説明する音声を生成しています。

このツールにより、Dimagiはより効率的に開発途上国の医療従事者向けの教育コンテンツを作成できるようになります。

Livox

AIを活用した代替コミュニケーションアプリであるLivoxは、Voice Engineを使用して、障害のある人々のコミュニケーションを可能にする拡張代替コミュニケーション (AAC) を強化しています。

Voice Engineを使用することで、自閉症スペクトラム障害 (ASD) などで、言語コミュニケーションに困難を抱える方向けにユニークで自然な音声を多言語で提供し、コミュニケーションを支援します。

こちらも以下に例を示します。

音声サンプル

生成音声（英語）

生成音声（ポルトガル語）

ユーザーは、自分を最もよく表す音声をサンプルとして選択でき、それをもとに多くの言語でコミュニケーションが取れるようになります。

この機能は、これまで障害によりコミュニケーションに大変な困難を抱えていた方にとって希望の光となりそうですね！

ライフスパン・ノーマン・プリンス神経科学研究所

ライフスパン・ノーマン・プリンス神経科学研究所は、アルツハイマー病、自閉症、脳卒中、脳腫瘍など、脳と神経系の疾患を専門とする研究所です。

ここで、臨床診療でのAIの使用を模索されており、腫瘍学的あるいは神経学的病因による言語障害を持つ個人にVoice Engineを提供するプログラムを試験的に実施しています。

実際に、脳腫瘍によって流暢な言葉を失った若い患者の声を、Voice Engineを用いて、以前学校用に録画したビデオの音声をサンプルにして以前の声に復元することに成功しています。

現在の声

音声サンプル

生成音声

Voice Engineを活用したこのプロジェクトは、前述したLivoxと同様、病気等で発声に困難が生じてしまった方々の言語的なコミュニケーションを支援する強力かつ革新的なプロジェクトだと思います。

このように、Voice Engineは様々な用途で活用され、その有用性が証明されています。

今後もテストは続けられ、活用策の模索だけでなく、安全性に関する対策もされていくでしょう。

一日も早く安全性が確立され、Voice Engineが世に広まっていくことを期待しましょう！

Voice Engineの安全性

先ほどから何度か言及している、Voice Engineの安全性についてOpenAIの見解や取り組みを解説します。

Voice Engineのような、音声生成AIによる実在する人間の声に似た音声を生成することには重大なリスクが伴います。

特に、悪意のある人物が、政治家などの著名人に似た音声を音声生成AIによって生成し、フェイクニュースに使用するといったことも考えられ、それは非常に危険なことです。

OpenAIは、Voice Engineの安全性を確保するため、以下のような対策を行っています。

使用ポリシーへの同意
元の話者からの明示的かつ十分な情報に基づいた同意
独自の音声を作成する方法を構築することを禁止
AIで生成したもの音声であることを視聴者に明確に開示
生成された音声の出所を追跡するための電子透かし
どのように使用されているかの積極的な監視

ただ、ここまでの対策を施してもまだ十分とは言えず、広範なリリースのためには、元の話者が故意に自分の声をサービスに追加していることを検証する仕組みや、著名人に似すぎている声の作成を検出し防止する禁止音声リストの作成が必要だとOpenAIは考えています。

なお、OpenAIの超高性能動画生成AIであるSoraについて知りたい方はこちらの記事をご覧ください。
→【Sora】世界に激震を与えたOpenAIの動画生成AI！できることや仕組み、問題点まで徹底解説

音声生成AIが一般社会に広まる将来を見据えて

Voice Engineは、テキスト入力と単一の15 秒の音声サンプルを使用して、元の話者によく似た自然な音声を生成できる音声生成AIです。

OpenAIは、悪用される危険性を考慮し、このモデルを広範にはリリースしておらず、自社製品での使用と信頼できるパートナーとの非公開のテストでの使用に留めています。

そのテストでVoice Engineは様々な用途で活用され、その有用性が証明されています。

今回のプレビューは、その成果を紹介すると同時に、これまでの音声生成AIと一線を画すような性能を持つモデルの出現によって引き起こされる社会的な課題に対する備えや取り組みを促進することが目的です。

OpenAIは具体的に以下のような取り組みを提案しています。

銀行口座やその他の機密情報にアクセスするためのセキュリティ対策としての音声認証を段階的に廃止
AIにおける個人の声の使用を保護するための法整備やポリシーの策定の検討
欺瞞的なAIコンテンツの可能性を含め、AI技術の能力と限界を理解するための一般市民の教育
オーディオビジュアル・コンテンツの出所を追跡する技術の開発と採用の加速

現段階では、これらの取り組みは広くは行われていないので、OpenAIはVoice Engineをプレビューにとどめ、公開はしないとしています。

いつか、これらの取り組みがなされて音声生成AIが広く普及する世の中になることを期待しましょう！

なお、今回解説した内容は、以下のOpenAIのブログ記事を参考にしています。気になった方はぜひそちらもご覧ください。

参考：navigating-the-challenges-and-opportunities-of-synthetic-voices

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ