【Realtime API】OpenAIが音声会話可能なモデルのAPIを公開!音声サービスの開発が簡単に

Realtime-API OpenAI 音声会話可能 モデル API

2024年10月1日にOpen AIが発表したRealtime API。Realtime APIはリアルタイムで音声を使ったマルチモーダルな体験をアプリケーションに組み込むことが可能です。

ChatGPTのAdvanced Voice Modeと同じように、自然な音声対話を実現し、6つのプリセット音声をサポートしています。

Realtime APIを活用することで、言語学習アプリやカスタマーサポート用のAIアシスタントなど、ユーザーとの自然な会話をリアルタイムで行うことが可能になるでしょう。

本記事では、OpenAIが発表したRealtime APIについて基本事項から活用方法について具体的にご紹介します。本記事を最後まで読むことで、新たな技術を活用した「新・AI仕事術」を体得できるはずです。

ぜひ最後までお読みください。

目次

Realtime APIの概要

OpenAIが2024年10月1日に発表したRealtime APIは、リアルタイムで音声を使ったマルチモーダルな体験をアプリケーションに組み込むことを可能にするAPIです。

従来の音声アシスタントを作成するには、Whisperのような自動音声認識モデルで音声をテキストに変換し、そのテキストを言語モデルに渡して推論を行い、最後にテキスト読み上げモデルを使ってモデルの出力を再生する必要がありました。

これまでのアプローチでは、感情や強調、言葉のアクセントが失われやすく、また、音声の遅延が発生することがよくありました。一方、OpenAIのRealtime APIは、これらの問題を解決するために設計されています。

Realtime APIは、音声入力と出力をリアルタイムにストリーミングすることで、より自然で遅延の少ない会話を実現します。

Realtime APIのメリット

Realtime APIは従来の音声アシスタントに比べて、よりスムーズな会話が可能というメリットがあります。従来の音声アシスタントでは実現できなかった、「会話の流れ」も理解できます。

そのため、会話の中断にも自動的に対応可能。つまり、ユーザーが話している途中で言葉を遮ったり、質問を挟んだりしても、自然な形で会話を続けることができるのです。

また、Realtime APIは、新しいGPT-4oモデル「gpt-4o-realtime-preview」によって強化されており、テキストと音声の両方の入力を処理し、テキスト・音声、またはその両方でレスポンスを返せます。

さらに、機能呼び出しもサポートしており、音声アシスタントがユーザーのリクエストに応じてタスクを実行したり、情報を取得したりすることが可能です。例えば、ユーザーに代わって注文したり、関連する顧客情報を取得して応答をパーソナライズしたりできます。

WebSocketを用いた持続的な接続が可能

Realtime APIはWebSocketを用いて持続的な接続を確立することで、ユーザーとの音声やテキストベースの会話をリアルタイムで処理。WebSocketという通信プロトコルを使って、ユーザー側のアプリケーションとRealtime APIとの間で、双方向のデータ通信が途切れなく行われます。

通常のHTTPリクエストはリクエストとレスポンスが一回限りですが、WebSocketは一度接続を確立すると、その接続を維持したまま、サーバーとクライアントの間でリアルタイムにデータを送受信できます。これにより、例えば、音声入力をリアルタイムで処理し、即座に音声やテキストの応答を返すといった、双方向の会話が可能です。

また、WebSocketを用いることで持続的な接続が可能になるので、各リクエストごとに新しい接続を開く必要がなく、データの送受信が迅速に行われます。これにより、音声ベースの会話がスムーズで遅延の少ないものになります

あわせて読みたい
【Parler TTS】まるで人間が喋っている?オープンソースのTTSモデル! Parler TTSは、特定の話者のスタイル (性別、ピッチ、話し方など) で高品質で自然な音声を生成できる軽量のテキスト音声合成 (TTS) モデルです。 以下の動画のように、...

Realtime APIの料金

Realtime APIの料金は次の通りです。

スクロールできます
トークンタイプ料金1分あたりのコスト
テキスト入力$5/1M トークン
テキスト出力$20/1M トークン
音声入力$100/1M トークン$0.06
音声出力$200/1M トークン$0.24

OpenAIのTTSにWhisperがありますが、WhisperのAPI料金は音声ファイル1分につき、0.006ドル(約0.86円)

そのほかCoqui.aiの使用料金は、プランがいくつかに分かれていますが、最も安いHobbyistプランだと月額$5で3,600クレジット。1分で120クレジットを消費しますので3,600クレジットだと30分の音声生成を行うことができます。

同じようにRealtime APIを30分使用すると9ドルになるため、Realtime APIはその他のTTSモデルに比べるとやや高めの値段設定になっていると感じます。

Realtime APIの使い方

現在はまだAPIが提供されていないようで、PlayGroundもしくはRealtime ConsoleでRealtime APIを使うようです。

GitHubのIssueにも同様の問題が投稿されており、ロールアウトの遅延が原因のようです。

Realtime APIのベータ版はすでに提供されているようですが、ベータ版を最終的な開発に使用するべきではないとGitHubに記載されています。

参考:https://github.com/openai/openai-realtime-api-beta

PlayGroundはOpenAIの公式サイトから飛ぶことができます。

実際にアクセスをすると、以下の画像のように「Personal does not have access to the Realtime API(PersonalはRealtime APIにアクセスできません)」と記載が出ます。

参考:https://platform.openai.com/playground/realtime

ただ、左側にあるTTSをクリックして、チャットボックスにテキストを入力、「Generate」をクリックすることでTTSを使うことができます。

Personalでは使えないと書かれていましたが、API料金を支払っているとAPIを使って使用できるようです。実際に音声を出力した後のUsageを確認すると、しっかりAPI使用になっていました。

OpenAIのAPI料は従量課金制から前払い方式に変更になっているので、実際に使ってみる場合には前払いをする必要があります。最低課金額は5ドルからのため、Realtime APIを試してみたいだけって場合には、5ドル支払えばOKです。また、自動課金が有効になっているケースがあるので、APIを使う前に自動課金をオフにすることを忘れずに!

参考:https://platform.openai.com/usage/activity

非常に流暢に喋っており、とてもAIが話しているとは思えません。正直、電話越しでこの感じで話をされると、喋っている相手は人間だと錯覚するレベルです。

Realtime APIの活用事例

Realtime APIはインタラクティブなやり取りを音声を用いて行うことができます。この特徴を最大限に活かせる活用事例をいくつか考えてみました。

言語学習アプリ

現在も言語学習アプリにAIモデルが搭載されているものはいくつもあります。しかし、Realtime APIを使えば、ユーザーがリアルタイムかつ感情や強調、言葉のアクセントが失われずに言語学習に取り組むことができるようになるでしょう。

例えば、ユーザーが実際に学習言語で質問を投げかけると、即座にAIがその言語で適切に返答します。また、会話中にユーザーが途中で割り込んで話しかけても、Realtime APIはそれに対応し、自然な会話を行うことができるようになり、実際に人と話しているような体験をしつつ第二言語を学べるようになるのではないでしょうか。

カスタマーサポート

リアルタイムでのレスポンスが必要な仕事にカスタマーサポートがあります。特にコールセンターなどのカスタマーサポートでは、その場でのやり取りが必須。

顧客が音声で問い合わせを行った場合、Realtime APIを利用して、即座にAIが質問に答えたり、必要なサポート情報を提供したりできます。リアルタイムでの応答が可能なため、会話がスムーズで、顧客満足度の向上が期待できるでしょう。

スマートホームアシスタント

スマートホームデバイスは今もいくつかありますが、より高い精度を求める・より自然なコミュニケーションを取れるようにするということを考えると、Realtime APIを活用するのがいいかもしれません。

スマートホームデバイスにRealtime APIを組み込むことで、音声で家電を操作したり、天気や予定を確認したりできます。例えば、ユーザーが「今日の天気は?」と尋ねると、すぐにAIが音声で天気を教えてくれます。会話の流れも自然に続くため、ユーザー体験が向上するでしょう。

WEEL
【Fish Speech 1.4】自然な音声と多言語対応の音声生成AI!機能と使い方、課題を徹底解説 | WEEL まるで本人が話しているかのような自然な音声生成、8言語への対応、感情や抑揚の豊かな表現力など。この記事では、Fish Audioが2024年9月11日に発表した最新の音声生成AIモ...

まとめ

本記事ではOpenAIのRealtime APIについて紹介をしました。これまでのTTSモデルに比べるとかなり流暢であり、音声のアクセントがしっかりとついており、とてもAIが話しているとは思えません。

本記事執筆時は、Realtime APIがリリースされた直後であり、アプリケーションへの応用などはまだ発表されていませんでした。しかし、今後Realtime APIを活用したアプリケーションやWebサービスなどがどんどん増えてくることが予想されます。

ぜひ本記事を参考にRealtime APIを活用してみてくださいね!

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 翔平

    総合病院で10年間理学療法士として勤務し、その後Pythonを独学で学びデータアナリストとして転職。趣味はキックボクシング

  • URLをコピーしました!
  • URLをコピーしました!
目次