【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説

ChatGPTがついに、目と耳を手に入れました。
9月25日、OpenAIが衝撃的な発表をしました。
なんとGPT 4Vに、画像解析機能と音声出力機能が追加され、マルチモーダルAIになったとのこと…!
とうとうGPT 4Vで画像入力と音声出力ができるようになるんですね!
GPT 4Vを使うと実態にこんなことができちゃうんです!
今回は話題沸騰中のGPT 4Vについて、その概要や新機能について、OpenAI公式の論文を交えながら解説します。
また、GPT 4Vによってどのような影響があるのか、生成AI業界の未来を深掘り解説します。
是非最後までご覧ください!
なお弊社では、ChatGPTの業務活用について1時間無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる
GPT 4Vの概要
GPT 4Vは、Open AI社が開発した、従来のGPT 4Vに画像解析機能と音声出力機能を持たせたマルチモーダルAIです。
これは、つまりChatGPTに「声」と「目」が実装されるということ!
テキストだけだった頃よりも、さらにハイレベルな会話ができます。
ちなみに、利用できるのは月20$の料金がかかるPlus ユーザーと、企業向けのエンタープライズユーザーとなります。
ただ、その開発段階では、プライバシー侵害や不適切な表現を出力するといった問題があったそうなので、まずはその部分の詳しい説明がされている論文の概要を解説します。
そしてその後に、多くの可能性を秘めた新機能について、詳しく見ていきます。
なお、ChatGPT超えのLLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Xwin-LM】GPT4を上回るOSS!?使い方と性能比較レビュー
GPT 4Vの論文解説
ここでは、Open AI社が発表したGPT 4Vについての論文を解説していきます。
この論文では、GPT 4Vモデルと何か、OpenAI社がGPT 4VにGPT 4Vを組み込むのにどのような準備をしたか述べられています。
その中でも、アーリーアクセスでのユーザーからのフィードバックから得た弱点と改善点、弱点への対応策、モデルの安全性評価、外部専門家による評価について深堀されています。
これらについて、わかりやすくまとめます。
GPT 4Vの弱点と改善点
アーリーアクセスで視覚障害者のためのツールを開発する団体Be My Eyesを含む、多くのユーザーにGPT 4Vを使用してもらい、そこからいくつかの弱点や改善点が見えてきたようです。
以下がその内容になります。
ユーザーのフィードバックの重要性:多くのユーザーからフィードバックを受け取り、システムの問題点やユーザーの要望を具体的に知ることができたため、その重要性を再認識しました。
システムの限界:GPT 4Vは完璧ではなく、誤った情報を提供することがあったため、ユーザーにこれを指摘され、それに対する対応が求められることがあった。
安全性の向上:一部のユーザーから、システムが不適切な内容を生成することがあるとのフィードバックがあったため、これに対してOpenAIは、安全性の向上に努めました。
多様性と公平性:システムが偏見を持っている可能性が指摘され、これは重要な問題なので、これに対して、公平性を確保するための修正を行いました。
透明性の確保:ユーザーからのフィードバックを通じて、システムの動作原理や決定ロジックについての透明性が求められたため、OpenAIはこれに応えるための取り組みを行いました。
これらの問題点の多くは、対応策を講じることにより改善されていますが、システムの限界などは後述しますが、完全に改善することは難しく、今後も策を講じていくようです。
GPT 4Vの弱点の対応策
問題点も多くあることから、OpenAI社はリスクを緩和するためのいくつかの策を実施しました。
モデルの改善:モデルが不適切な出力を生成するリスクを減少させるために、モデルのトレーニングデータやトレーニング方法の改善などを継続的に行っています。
ユーザーのフィードバック:ユーザーからのフィードバックを収集し、それを使用してモデルの改善を行っています。ユーザーは、モデルの出力に関する問題点や懸念をいつでもOpenAIに報告できます。
システムカードの導入: モデルの能力や限界、使用方法に関する情報を提供するために、システムカードを導入したことにより、ユーザーはモデルをより安全に使用できます。
モデルの使用制限:特定のリクエストやトピックに対してモデルが応答しないようにするための使用制限が設けられているため、モデルが不適切な情報を提供するリスクを減少させることができます。
パートナーシップ:他の組織や研究者と協力し、モデルの安全性に関する研究や取り組みを共有し、モデルのリスクをより広範囲で緩和することに努めています。
このように、多角的な評価と改善を繰り返してきたGPT 4Vですが、それでもまだ完全に安全であるとはいえず、偏見をもった回答やプライバシーを侵害した回答を出力する可能性があるということには注意が必要です。
安全性評価
以下の要素について、拒否率やパフォーマンス評価などの安全性評価を行いました。
・有害なコンテンツ
・根拠のない推論
・性別、人種、年齢を認識するためのパフォーマンス精度
・プライバシー
・サイバーセキュリティ
・マルチモーダル脱獄
これらについて評価を行い、発見されたいくつかの問題点について対応策を練り、解決したものが紹介されていました。
社外の専門家からの評価
社外の専門家と協力して、モデルとシステムに関連する限界とリスクを定性的に評価した結果が紹介されています。
論文では、その中で特に有益なフィードバックを得た以下の項目について詳しく説明されています。
• 科学的熟練度
• 医療アドバイス
• ステレオタイプと根拠のない推測
• 偽情報のリスク
• 憎悪に満ちたコンテンツ
• 視覚的脆弱性
これらの項目について、確認された問題点とそれに対する解決策や、解決策がない場合は、モデルの信頼性が欠けているとして、その用途では使わないよう注意喚起されていました。
例えば、危険な化合物の識別や、医療現場で診断に使用すると誤った判断を下してしまうことにつながり、非常に危険なので使用すべきではないと書かれています。
問題点の発見と改善を繰り返してきたGPT 4Vですが、完全に誤った情報が提供されないわけではないので、その点を考慮しなければなりません。
GPT 4Vのできること
追加されできるようになることは2つあります。
ChatGPTで音声入力ができる
まず、ChatGPTと音声で手軽に会話できるようになりました。
例えば、家族でのストーリータイムやディナーテーブルでの議論を楽しむなどです。
GPT 4Vはスマホアプリから利用でき、音声は5種類の中から選べます。
こちらは公式がアップロードしていた動画です。
読み上げるテキストと、音声サンプルは以下の2箇所を変更することで試せます。
日本語になるとどのようになるのか、リリースまで待ち遠しいですね!
Chatgptで画像入力ができる
GPT 4Vでは画像入力をし、それを用いた対話も可能です。
例えば、旅行中に観光地の写真を撮って、それについてChatGPTと対話したり、冷蔵庫の中を撮影して夕食のメニューを考えることもできます。
モバイルアプリには描画ツールがあるので、画像の特定の部分を強調させることも可能です。
こちらは、公式がアップロードしていた動画です。
自転車のサドルの下げ方を画像付きで質問しています。
サドルを下げるためのレバーの位置や、どの工具を使うと良いのかも全て画像を用いて会話できてますね。
画像を読み込めるGPT 4V、早く使いたい!!
なお、ChatGPTと他の生成AIの比較について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIを徹底比較!ChatGPT・Bard・BingAIの中で最強の生成AIを本気で決めてみた
GPT 4Vの使い方
GPT 4VをPCから使う方法及びスマートフォンからの使い方を解説します。
PCからの使い方
弊社では、2023年10月4日現在、GPT 4VをPCでまだ使えていません。使えるようになりましたら追記します。
スマートフォンからの使い方
GPT 4Vをスマートフォンで利用するにはアプリを利用します。
画像認識と、音声入力それぞれの機能を見ていきましょう。
まずは、画像認識の機能からです。
画像認識
特に、難しいことをする必要はありません。ChatGPTのアプリで新しいチャットを開き、「+」ボタンをクリックします。
画像を選択し、メッセージボックスに入力します
テキストを入力して、会話をすると回答が返ってきます。
背景にある他のお酒について触れていたりと画像全体をしっかりみれてますね!
醸造元は、ヤッホーブルーイングさんなので間違えてますが…。
音声入力
GPT 4Vではスマートフォンから音声入力が使えるようになっていました。
まず、画面の右上の3つの点をタップします。
「Settings=設定」をタップ
「New Features=新機能」を押します。
すると、「Voice conversations=音声会話」のオンオフ設定ができる画面が出てきますので、それをオンにします。
これで、使えるようになっています。
使う際は、ホーム画面のヘッドフォンマークをタップ。
この画面が表示されたらChatgptでt音声入力ができます。
ちなみに、音声を変える際は「Settings=設定」の「Voice」から変更できます。
5つの音声を選べます。
GPT 4Vを使ってみた
実際に、GPT 4Vを使って画像を入力してみます。
公式が出していた使い方に習って、自転車のサドルの下げ方を教えてもらおうと思います。
まずは、写真をとって、「サドルを下げる方法を教えてくれますか?」と聞いてみます。
以下のように手順を教えてくれました。
もちろん、お伝えします。自転車のサドルの高さを調整する手順は以下の通りです:
1. ツールの用意: まず、サドルの高さを調整するための適切なサイズのアレンキーを用意します。多くの自転車の場合、サドルを固定しているボルトはアレンボルトで、そのサイズは5mmまたは6mmが一般的です。
2. サドルの固定ボルトを緩める: 自転車のサドル下部にあるボルトを見つけ、アレンキーで緩めます。ボルトを完全に外す必要はありません。ある程度緩めるだけで十分です。
3. サドルの高さを調整: サドルのボルトを緩めたら、サドルの位置を上げたり下げたりして、希望の高さに調整します。
4. サドルの固定ボルトを締める: 希望の位置にサドルを調整したら、アレンキーを使ってサドルのボルトをしっかりと締めます。ボルトを締める際は、十分な強さで締めることが重要です。しかし、過度に強く締めすぎると、サドルポストやフレームが損傷する可能性がありますので注意が必要です。
5. 最終チェック: サドルの高さが調整されたら、自転車に乗ってみて、サドルの高さが適切かどうかを確認します。必要に応じて微調整を行ってください。
注意: サドルの高さを調整する際は、自分の体に合った高さに設定することが大切です。適切なサドルの高さは、ペダルを一番下に踏み込んだ状態で、膝がわずかに曲がっている状態が理想的です。
固定ボルトがどれかわからないので、写真をとって確認してみました。
すると以下のように出力され、どこを緩めると良いか出てきました!
テキストも載せておきます。
はい、おっしゃる通り、写真に白で囲まれている部分がサドルの高さを固定するためのボルトのようです。
このボルトを緩めれば、サドルの高さを調整することができます。
アレンキーまたは適切なツールを使用して、ボルトを緩めた後、サドルの高さを調整してください。調整が終わったら、ボルトを再びしっかりと締めることを忘れずに。
本当に、ChatGPTに目が実装されていて感動しました……!
なお、ChatGPTのライバルであるGoogle Bardについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→Bardの5つの最新機能を動画で解説!日本で使える機能はどれ?
ChatGPTのGPT 4Vによってどのような変化が起きるのか
今回のアップデートを通して、ChatGPTはマルチモーダルAIとなりました。
これまで、ChatGPTが画像を取得できなかったり、音声を取得できなかったことから、サードパーティが開発したプラグインやサービスが使われていました。
しかし、ChatGPTで音声入力と画像認識ができるようになった今、それらのサービスは価値を失うことになるでしょう。
となると、いよいよChatGPT単体でほとんどのことができてしまい、それ以外のサービスを使う必要がなくなってしまっています。
10月に公開予定のDALLE3が発表された時は、そのあまりのクオリティとChatGPTとの掛け合わせで、Twitter上に「Bye bye Midjourney(さよならMidjourney)」というコメントが多くみられました。
ChatGPTのマルチモーダル化はそれほどインパクトを持つことなのです。
マルチモーダルといえば、GoogleのBardもマルチモーダルAIの一つです。
つい最近大型アップデートを発表し、既存の機能に加えてGoogle Workspaceとの連携ができるようになりました。
Bardも強力なLLMの一つですが、ChatGPTには及びません。
Bardが最近アップデートを発表した時、GoogleのCEOのツイートいいね数は8,000。
対して、ChatGPTを発表した時のOpenAIのいいね数は30,000。
いいね数が全てではありませんが、やはりそれだけChatGPTは注目を浴びていると言うことでしょう。
今後、ChatGPTのような万能AIが単体で普及していくのか、、、それとも複数のAIが乱立していくのか、、、それはまだわかりません。
しかし、GPT 4Vの登場は今の生成AIのパワーバランスを大きく変えることになるでしょう。
なお、AIの未来について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→Open Interpreterが人類に与える影響とは?次のゲームチェンジャーAIを大予想
GPT 4Vの生成AIずかん
GPT 4Vは、従来のGPT 4Vに画像解析機能と音声出力機能を持たせたマルチモーダルAIです。
テキスト、画像、音声の入力・出力が可能です。
生成スピード、クオリティも高く、直感的に使いやすいデザインとなっています。
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「1時間の無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。