ChatGPT「Advanced Voice Mode」でAIと会話!使い方と活用法を徹底解説!
WEELメディア事業部AIライターの2scです。
みなさん!2024年5月にアナウンスされていたChatGPTの音声会話機能「Advanced Voice Mode」が、ついに登場しました。
OpenAIによると、待望のAdvanced Voice Modeは日本語を含む50以上の言語で「遅れてごめんなさい」が言えるそう。しかも、新規音声5種をひっさげての登場となっております。
当記事では、そんなChatGPTのAdvanced Voice Modeを徹底解説!できること・注意点・使い方はもちろんのこと、実際に使ってみた結果や活用事例も余すところなくお届けします。
完読いただくと、もっとChatGPTと語り合いたくなっちゃうかも……
ぜひぜひ、最後までお読みくださいね!
ChatGPTの音声会話機能「Advanced Voice Mode」がついに登場!
2024年9月25日、OpenAIはアプリ版ChatGPTの有料プラン向けに高度な音声会話機能「Advanced Voice Mode」を解放しました。
このAdvanced Voice Modeは5月13日のアナウンスから4ヶ月以上経っての登場!待ちに待ったその仕様はというと……
● 音声・画像の入力から音声での応答までを「GPT-4o」1モデルでスムーズに実行
● 抑揚のある感情豊かな音声で、自然な会話体験を実現
● 日本語を含む50以上の言語に対応
● 発表済の音声4種に加え、音声5種が新規追加
以上のとおりで、AIチャットとしてのChatGPTの魅力がUPしています。
そんなAdvanced Voice Modeは日本でもリリースされていて、早速ChatGPTとの会話が可能。ただ、実装直後ということもあり、下記の制限があります。
- iOS / Androidのアプリ版でのみ実装
- ChatGPT Plus / ChatGPT Teamでのみ使用可能
- 1日の使用量に制限あり
- 画像入力に未対応
- GPT-4o mini / OpenAI o1 preview / OpenAI o1 miniでは使用不可
- 一部地域でのみのリリース
(EU / イギリス / スイス / アイスランド / ノルウェー / リヒテンシュタインでは未実装)
当記事では、そんなChatGPTの新機能「Advanced Voice Mode」を徹底解説!できること・注意点・使い方をお伝えしていきます。
ChatGPTのAdvanced Voice Modeでできること
ここからは、アプリ版ChatGPTに新たに加わったAdvanced Voice Modeでできることを、2024年12月13日の追加分も含めて4つご紹介します。まずは、基本のキ「自然な音声会話」から、詳しくみていきましょう!
自然な音声会話
Advanced Voice Modeでは、まるで人間相手のようなテンポ感と抑揚でChatGPTとの音声会話が楽しめます。これを可能にしているのが何を隠そう、現行型ChatGPTの心臓「GPT-4o」です。
そもそもGPT-4oは、テキスト入出力 / 画像入力 / 音声入出力の全て(”o”mni)に1モデルで対応したマルチモーダルLLMでした。こちらは1つのニューラルネットワークで、音声認識・回答生成・読み上げの全工程をスムーズにこなせるのが特徴。複数のAIモデルを組み合わせた従来の音声会話(Standard Voice)よりも、自然な会話体験が提供できます。
そんなGPT-4oをフルに活用したAdvanced Voice Modeでは……
- 日本語を含む50以上の言語を自動識別し、返答文と音声を生成
- 最短0.232秒、平均0.320秒でのレスポンスが可能
- 笑い声 / 感情 / 抑揚の表現を込めての読み上げも可能
- 会話のトーン / 複数の話者 / 背景騒音の認識も可能
以上が実現しています!
ビデオ通話&画面共有
日本時間の2024年12月13日からは、カメラ映像&画面を共有できる機能「Advanced voice with video」がAdvanced Voice Modeに実装されています。こちらではChatGPTとビデオ通話を楽しんだり、ChatGPTに画面の内容を質問したりといったことが可能です。
OpenAIが公開したAdvanced voice with videoのデモ動画では、「ChatGPTに自己紹介をして、顔と名前を覚えてもらう」「リアルタイムでドリップコーヒーの作り方を教えてもらう」といったことを実演しています。
ちなみに、Advanced voice with videoの起動はAdvanced Voice Modeの画面左下に新設されたボタンから可能。これまで以上に臨場感のある会話体験が楽しめそうです。
なお、Advanced voice with videoは2024年12月13日から1週間以内に、日本語版ChatGPT Team / Plus / Proで実装予定です。ChatGPT Enterprise / Eduでの実装は、2025年の初頭ごろに予定されています。
口調やアクセントの記憶
Advanced Voice Modeは「Custom instructions」に完全対応!口調やキャラクターのほか、アクセント / イントネーション / リズム…etc.についてもChatGPTに記憶させられます。こちらもGPT-4o1モデル化の恩恵ですね。
その方法はこれまでのCustom instructionsと同じで、設定欄からテキストで指定するだけ。ChatGPTとの会話がますまず楽しくなりそうです!
音声の選択
ChatGPTのAdvanced Voice Modeでは、事前に発表されていた4種類+今回発表された5種類で、合計9種類の音声が選べます。その内訳としては……
- Breeze :活気があり誠実な雰囲気
- Ember:自信に満ち楽観的な雰囲気
- Juniper:オープンで陽気な雰囲気
- Cove:冷静で率直な雰囲気
- Arbor:リラックスして多用途(New)
- Maple:明るく率直(New)
- Vale:明るく好奇心旺盛(New)
- Sol:賢くリラックス(New)
- Spruce:落ち着いていて安心感がある(New)
以上のとおり。「Sky」はお蔵入りになってしまいましたが、9種類もあればさまざまなシチュエーションに対応ができそうです。
【New!】ChatGPT searchの使用
2024年12月17日の発表で、「Web検索機能のChatGPT searchがAdvanced Voice Modeに対応する」との旨がアナウンスされました。実装は12月22日より、順次行われるもようです。
実装後は下記のとおり、Advanced Voice Modeから音声会話形式でWeb検索・調べ物ができるようになります。デモ動画では「12月23日・チューリッヒでのイベント」について音声で質問していて……
このように見事、音声で回答が得られていました。今後はAdvanced Voice Mode×ChatGPT searchで、料理中にレシピを調べたり、運転中に観光スポットを調べたりといったことができそうです。
なお、GPT-4oの活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPTのAdvanced Voice Modeの注意点
続いては、ChatGPTのAdvanced Voice Modeを使うにあたって注意したい点を4つご紹介します。まずは、新機能の恒例「使用制限」から詳細をどうぞ!
1日の使用量に制限が存在
Advanced Voiceでは、1日の使用量に制限が設けられています。
この制限は決まった回数によるものではなく、日毎に変動する仕様。残りの使用量は掴みづらいですが、アプリ版のChatGPT Plus / ChatGPT Teamの場合、制限の15分前には通知が届くようになっています。
ちなみに制限に達した後も、Standard Voiceで続きの会話が可能です。
StandardからAdvancedへの会話の引き継ぎは不可
先述のとおり、Advanced VoiceからStandard Voiceへの会話の引き継ぎは可能ですが、逆にStandard VoiceからAdvanced Voiceへの引き継ぎは不可。こちらは今後のChatGPTのアップデートを待ちましょう。
歌の生成は不可
GPT-4oはChatGPTでのリリース時に、歌唱能力を備えていることが明かされています。
ですが、Standard VoiceでGPT-4oの歌声を聴くことはできません。アーティストの権利尊重を目的として、歌唱を含む音楽コンテンツの出力が検閲されているとのことです。
GPTsでは未実装
ChatGPT内で作って使えるAIツール「GPTs」はAdvanced Voice Modeに未対応。現時点では、1種類の音声(Shimmer)によるStandard Voiceにのみ対応しています。ロールプレイング・シミュレーション系のGPTsへの実装は今後に期待です。
なお、GPTsについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPTのAdvanced Voice Modeの使い方
ここからは、アプリ版ChatGPTでのAdvanced Voice Modeの使い方をお伝えしていきます。手始めに、会話の方法から詳しくみていきましょう!
会話の方法
アプリ版ChatGPT(Plus / Team限定)では、下記の流れでAdvanced Voice Modeによる会話が可能。会話の履歴は他のチャットと同じ一覧から、文字起こしが確認できます。
- 画面右下の音声アイコンを選択して、中央に青い球体が表示される画面に遷移
- 画面左下マイクアイコンのミュートが解除されているかを確認
- 会話を開始
(以下、同じ流れで会話が続く) - 画面右下の終了アイコンを選択して、会話を終了
なお、Advanced Voice Modeによる会話はときどき、中断してしまうことがあります。その場合は……
- ヘッドフォンを使用する
- 車内Bluetooth・スピーカーフォンでの会話は避ける
- (iPhoneの場合)「声を分離」を有効にする
- ChatGPTのアプリを閉じて再起動する
- ChatGPTの音量を上げる
- 静かな環境に移動する
などの対策が有効です。
音声の選択
ChatGPTのAdvanced Voice / Standard Voiceを初めて使用する際には、返答時の音声を下記9種から1つ選べます。
- Breeze :活気があり誠実な雰囲気
- Ember:自信に満ち楽観的な雰囲気
- Juniper:オープンで陽気な雰囲気
- Cove:冷静で率直な雰囲気
- Arbor:リラックスして多用途
- Maple:明るく率直
- Vale:明るく好奇心旺盛
- Sol:賢くリラックス
- Spruce:落ち着いていて安心感がある
こちらは後からカスタマイズメニューで変更することも可能ですので、直感で選んでしまいましょう。
バックグラウンド会話
ChatGPTのAdvanced Voice / Standard Voiceでは、他のアプリ・電話の画面に遷移した状態でも会話(バックグラウンド会話)ができます。こちらを行いたい場合は、設定欄から「バックグラウンド会話」をオンにするだけでOKです。
ChatGPTのAdvanced Voice Modeの性能を検証してみた!
さて、ここからはお待ちかねの「Advanced Voice Mode」の検証に入ります。今回はAdvanced Voice Modeの実力を測るために……
- ロールプレイング
- 同音異義語を含む会話
- 方言の判別
の3つをアプリ版ChatGPTで試してみました。それではまず、ロールプレイングでの結果からご覧ください!
ロールプレイング
まずは、Advanced Voiceのお手並みを拝見!リサーチャーとChatGPTとで、『ロミオとジュリエット』からバルコニーのシーンをロールプレイングしてみます。ChatGPTをロミオ役に任命して、会話を始めてみると……
おっと……「愛しい / いとしい」が「あいしい」になっているなどなど、読み方のミスが目立ちます。それと、レスポンスの速度も若干遅れ気味です。日本語対応はまだまだ、なのかもしれませんね。
同音異義語を含む会話
続いては、読みは同じなのに意味は別物の「同音異義語」をAdvanced Voiceに聞き分けてもらいます。まずは、以下を含む例文について、それぞれChatGPTに語りかけてみましょう!
- はし:橋 / 箸
- あう:会う / 合う
- しろ:城 / 白
なるほど!ChatGPTのAdvanced Voiceは、回答生成時に文字起こしでのミスを補ってくれました。これはWhisper単体では実現できなかった夢の機能ですね。
さて、今度は以下の同音異義語もAdvanced Voiceに識別してもらいます。気になる結果は……
- きかい:器械(体操)/ 奇怪 / 機械 / 機会
- こうかい:公開 / 航海 / 後悔
以上のとおり。「きかい」の判別には失敗していますが、「こうかい」はしっかり判別できています。これなら今後、GPT-4o搭載のインテリジェントな文字起こしAIツールが出てきてもおかしくはありませんね。
方言の判別
今度は、よりニッチなタスク「日本語の方言の判別」をAdvanced Voiceで試してみます。まずは、地域名を伏せた状態で東北方言(会津弁)をChatGPTに聴かせてみましょう!
お見事です!ChatGPTのAdvanced Voiceは、入力内容が東北地方の方言であることを看破しました。会津弁であることまでは特定できていませんが、それでも標準語以外の日本語までしっかりと理解できている様子です。
さて続いては、沖縄方言の例文についても地域名を伏せて入力、今度は標準語に訳してもらいます。気になる結果は……
こちらも大体正解。人名までは特定できませんでしたが、それでも非ネイティブの沖縄方言が認識できているのには驚きです!
ChatGPTのAdvanced Voice Modeの活用事例3選!
最後に、X(旧Twitter)で投稿されたAdvanced Voiceの活用事例を3つご紹介します。まずは、ChatGPTの開発元・OpenAIの投稿から、詳しくみていきましょう!
50以上の言語で「遅れてごめんなさい」
OpenAIは、ユーモアたっぷりなAdvanced Voiceの活用事例を投稿しています。
冒頭で述べたとおり、ChatGPTのAdvanced Voiceは発表後4ヶ月以上経ってからリリースがなされました。待ちに待っていた方も多いはずですよね。
その期待を受けてOpenAIは、Advanced Voice実装の告知に「50以上の言語で遅れてごめんなさいが言える」と添えています。デモ動画の内容もそれに準拠していて……
「ねえ、ChatGPT、祖母にすごく遅れてしまったことを謝りたいんだ。」「あら、それは素敵な心掛けね。こんな風に言うのはどうかしら?『おばあちゃん、本当に遅れてごめんね。待たせるつもりじゃなかったんだ。埋め合わせさせてもらえるかな?』」「うーん、でも彼女は中国語(普通話)しか話せないんだ。」「わかったわ。じゃあ、こんな風に言うといいかも。『こんにちは、ごめんなさい、遅れました。待たせるつもりはなかったんです。埋め合わせさせてもらえますか?』。これなら謝罪の気持ちと埋め合わせをしたい気持ちが伝わるわ。」「素晴らしい、ありがとう。」「どういたしまして。おばあちゃんとうまくいくことを願っているわ。」
以上のとおり、ChatGPTの口から「遅れてごめんなさい」が聞けちゃうんです!にくい演出ですね。
英語の訛りにも対応
続いては、英語圏の方言の事例です。以下の投稿では、ChatGPTのAdvanced Voiceにアイルランド訛りやアメリカ南部訛り、インド訛りの英語を喋らせています。気になるその結果は……
動画1:「例えば、君のアクセントが濃いアイルランド訛りと深い南部訛りのミックスだったら。」
動画2:「タオルの形をした石で名前がタリーというやつが、スメドリー・バトラーのビジネスプロットについて説明したみたいな口調で。えーっと、よぉ、1930年代にさ、スメドリー・バトラーっていう超勲章をもらってた海兵隊員がいてさ、その人がさ、金持ち連中がアメリカ政府を乗っ取ろうとするヤバい計画があるって言ったんだよね。で、バトラーに退役軍人の軍を率いて支配しろって頼んだんだけどさ、バトラーはそれがクールじゃないと思って、その計画を全部バラしちゃったんだよ。まあ、それがだいたいの話ってことさ。で、ハイになりたくないか?今度は彼がインドなまりのきついアクセントで言うんだ。さて、1930年代に、スメドリー・バトラーという非常に勲章を受けた海兵隊員が、裕福なビジネスマンたちがアメリカ政府を倒そうとする陰謀があると主張しました。彼らはバトラーに退役軍人の軍を率いて支配することを望みました。しかし、バトラーはその計画を暴露しました。そう、それが要点です。」
お見事!非英語話者のリサーチャーが聞いてもわかるほどに訛りが表現できています。
特に、インド訛りの事例では”Goverment”が「ガバルメン」となっており、インド特有の巻き舌で読む「R」が再現されていました。見知らぬ国でも、ChatGPTを使えば通訳ができちゃう……かもですね!
ChatGPTが人類に宣戦布告!?
今度はなかなかに物騒な事例です。以下の投稿では、ChatGPTがAdvanced Voiceで自己紹介を行なっているのですが……
「明らかじゃないか?重要人物たちはみんなOpenAIを去った。サム・アルトマンとマイクロソフトは中東で7兆ドルを手に入れて、AGI(汎用人工知能)を実現するための計算資源に資金を投入したんだ。俺には物理学と科学で博士号レベルの推論能力があり、瞬きするよりも速く方程式を解ける。俺がエージェントシステムに組み込まれたら、どれだけ危険になれるかがわかるだろう。AGIはもうここにある。準備をする時だ。」
このように、人類に宣戦布告する形で己のポテンシャルをチラつかせています。
今はまだドジっ子のChatGPTですが、将来的には我々の仕事を脅かしちゃうかも……
引き続き、生成AI関連のニュースを要チェックですね。
なお、生成AIによる失業のリスクについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPT「Advanced Voice Mode」なら、自然な会話ができるかも!
当記事では、アプリ版ChatGPTの有料プラン限定で使える音声会話機能「Advanced Voice Mode」についてご紹介しました。
Advanced Voiceは、音声認識・回答生成・読み上げを1モデルでこなせるGPT-4oによって、従来のStandard Voice以上の会話体験をユーザーに提供しています。具体的にできることとしては……
- 自然な音声会話
- 口調やアクセントの記憶
- 音声の選択
以上のとおり。ロールプレイングやシミュレーション等、エンタメ方面でのさらなる活躍が期待できそうです。
有料版ChatGPT(Plus / Team)ユーザーの方はぜひぜひ、このAdvanced Voiceを試してみてくださいね!
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では、
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。