【EVI 2】Hume AIの感情を読む音声認識モデル!できることや利用方法を徹底解説
WEELメディア事業部リサーチャーのいつきです。
2024年9月11日、Hume AIは新しい音声認識モデルとして「EVI 2」を発表しました。
EVI 2は、人間のような自然な会話ができるよう調整されているほか、応答時間が1秒以内と驚異のスピード感を実現しています。
この記事では、そんなEVI 2の基本情報や利用方法について詳しく解説していきます。最後まで目を通していただくと、新しい音声認識モデルの機能を理解できるので、事業の可能性が広がるかもしれません。
ぜひ最後までご覧ください。
EVI 2とは
EVI 2(Empathic Voice Interface 2)とは、Hume AIが新しく開発した音声認識モデルです。話し手の感情を理解する能力に優れており、より人間らしい会話ができるよう調整されています。
EVI 2については、Hume AIの公式Xでも詳しく解説されています。
EVI 2は、応答時間が1秒以内とされており、迅速かつ流暢に話せるのが魅力です。また、声のトーンや話す速度を調整する機能も搭載しているので、カスタマイズ性にも優れています。
企業のさまざまなサービスの使い道がありそうですね!
なお、音声認識モデルの精度に関しては下記の記事を参考にしてください。
EVI 2にできること
EVI 2にできることを以下にまとめました。
- 人間のような音声会話
- 任意の声のトーンを生成
- APIも可能
- 多言語に対応
現状わかっている情報だけでも、さまざまなことができます。
以下で詳しく解説していくので、ぜひ参考にしてみてください。
人間のような音声会話
EVI 2の1番の特徴ともいえるのが、人間のように自然に音声会話できることです。人間らしい会話ができるのは、音声と言語処理をシームレスに統合する新しいアーキテクチャを導入していることが関係しています。
これまでの音声AIは、どれも機械的でまだまだ人間の会話とは程遠い出来でしたが、EVI 2は一味違います。より人間らしく、温かみのあるサービスを提供したいと考えている方にとって、大きな力となりそうです。
任意の声のトーンを生成
EVI 2は、ユーザーの指定に沿って任意の声のトーンを生成できます。会話速度の変更やラップといった、ニッチな要求に応えられるのも特徴です。
さまざまな性格や発音のアクセントをエミュレートできるように設計されているので、自社のサービスイメージに合った任意のキャラクターや音声ガイドを作る際に役立ちます。
APIも可能
EVI 2は、APIも提供されています。外部アプリケーションにEVI 2のAPIを組み込んで、API経由で呼び出して利用可能です。
ただし、EVI 2のAPIを利用する場合は、Hume AIのガイドラインを遵守する必要がある点に注意しましょう。現在はまだデモ版なので、今後本格リリースされれば、さらにできることが増えていくはずです。
多言語に対応
EVI 2は、多言語の音声認識や発話に対応しています。さまざまな国の人々がEVI 2と会話できるので、将来EVI 2を利用したサービスを開発したときに、多くの方に利用してもらえるのが魅力です。
ただ、現状のデモ版だとまだ日本語には対応していないようなので、今後のアップデートに期待しましょう。
EVI 2の利用方法
EVI 2は、現在ベータ版が提供されているので、誰でも無料で利用可能です。一応ログインやサインアップの項目もありますが、基本的には登録も不要ですぐに使えます。
実際に利用する際は、会話するキャラクターを選んでから、画面中央の「START CALL」をクリックしてください。
現時点では、以下6つのキャラクターを選択できます。
- Kara
- Aura
- Ito
- Suttera
- Dacher
- Whimsy
パソコンやスマートフォンに対してマイクのアクセス許可が求められるので、許可してから利用しましょう。
EVI 2の活用方法
EVI 2の活用方法として、最も有力なのはカスタマーサービスにおける問い合わせ対応業務です。とくに、EVI 2はユーザーの感情を理解する能力に長けているため、顧客の声のトーンから感情を理解して適切な対応を取れることが期待できます。
とくに、クレーム対応などの電話でAIが機械的な対応をしていては、顧客離れが進みかねません。EVI 2なら、顧客に適切な対応を取りつつ、従業員の工数削減も期待できるので、うまくいけば顧客満足度の向上と従業員の働き方改革を同時に進められます。
なお、生成AIツールの活用方法については下記の記事も参考にしてください。
EVI 2を使って新感覚のAI音声対話を体験してみよう!
EVI 2は、感情の理解力や応答速度に優れている高性能な音声認識AIです。任意の音声を生成できるなど、カスタマイズ性にも優れているので、将来的にはさまざまな企業が自社サービスに導入すると考えられます。
なお、EVI 2ができるのは以下の4つです。
- 人間のような音声会話
- 任意の声のトーンを生成
- APIも可能
- 多言語に対応
現在はデモ版が公開されており、誰でも無料かつ登録不要ですぐに試せます。
実際に使ってみると、新たな事業の可能性が見つかるかもしれないので、AIを使った新事業を考えている方や業務効率化を模索している方はぜひ試してみてください。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。