【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説
2023年9月25日にリリースされた新たな機能で、ChatGPTがついに、目と声を手に入れました。
具体的には、画像解析機能と音声出力機能のAPI「GPT-4V」が追加され、マルチモーダルAIになったとのこと。
要するに、ChatGPTで画像入力と音声出力ができるようになり、今までよりさらに便利になったということですね!
今回はそのGPT-4Vの概要や新機能について、特徴を踏まえながら詳しくご紹介します。ぜひ最後までご覧ください!
GPT4Vの概要
GPT-4V(Vision)は、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。マルチモーダルAIとは、複数のデータをもとに情報を集めて、解析・出力を可能とするAIのことです。
つまりGPT-4を搭載したChatGPTに「目」と「声」が実装されたことで、画像・音声・テキストという異なる情報を組み合わせたりお互いに関連付けたりして処理できるようになったということですね!テキストだけだった頃よりも、さらにハイレベルな会話ができるようになりました。
その開発段階ではプライバシー侵害や不適切な表現を出力するといった問題があったとのことで、その特徴を解説しつつ、多くの可能性を秘めた新機能について詳しくご紹介していきます。
なお、GPT-4について詳しく知りたい方は、下記の記事を合わせてご確認ください。
GPT-4Vの料金体系
ここでは、GPT-4Vの料金体系について解説します。あわせてAPI利用にかかる料金の解説もしますので、GPT-4Vを使う際の参考にしてください。GPT-4Vの利用料金
GPT-4Vを使用するには、以下の有料プランに登録する必要があります。
- ChatGPT Plus:個人向け、月額20$
- ChatGPT Team:チーム向け、月額30$
- ChatGPT Enterprise:企業向け、料金は要問合せ
GPT-4VはChatGPTに追加された機能、無料会員は利用することはできません。無料会員が利用できるのはChatGPT-3.5になります。
GPT-4VのAPI料金
GPT-4Vを使うにはChatGPT API料金がかかります。処理させる画像のサイズと解像度の設定によって消費するトークン数が変わり、さらにトークン数に応じて料金が変動します。
最終的に支払う料金は(トークン数)x(トークンあたりの料金)になります。トークン数あたりの料金は、OpenAI公式の料金表を参照してください。
なお、ChatGPTを法人利用する方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。
GPT-4Vの特徴
ここでは、Open AI社が発表したGPT-4Vの特徴を論文に触れつつ説明していきます。
この論文では、「GPT-4Vモデルとは何か」について述べられています。その中でも、弱点と改善点、弱点への対応策、モデルの安全性評価、外部専門家による評価について深堀されています。
GPT-4Vの弱点・改善点
アーリーアクセスで視覚障害者のためのツールを開発する団体Be My Eyesを含む、多くのユーザーにGPT-4Vを使用してもらい、弱点や改善点を調査しました。
以下がその結果内容になります。
- ユーザーのフィードバックの重要性
ユーザーのフィードバックにより、システムの問題点やユーザーの要望を具体的に知ることができた。 - システムの限界
GPT-4Vが誤った情報を提供することがあるため、それに対する対応を常に行う必要があることがわかった。 - 安全性の向上
一部のユーザーから、不適切な内容を生成することがあるとのフィードバックがあったため、安全性の向上の必要があった。 - 多様性と公平性
システムが偏見を持っている可能性が指摘され、公平性を確保するための修正を行う必要があった。 - 透明性の確保
ユーザーからのフィードバックを通じて、システムの動作原理や決定ロジックについての透明性が必要であることが分かった。
これらの弱点・問題点の多くは、対応策を講じることにより改善されています。
システムの限界などは後述しますが、完全に改善することは難しいものもあり、今後も改善策を策を講じていくとのことです。
GPT-4Vの改善策
問題点も多くあることから、OpenAI社はリスクを緩和するためのいくつかの策を実施しました。
- モデルの改善
モデルが不適切な出力を生成するリスクを減少させるために、モデルのトレーニングデータやトレーニング方法の改善などを継続的に行っています。 - ユーザーのフィードバック
ユーザーからのフィードバックを収集し、それを使用してモデルの改善を行っています。ユーザーは、モデルの出力に関する問題点や懸念をいつでもOpenAIに報告できます。 - システムカードの導入
モデルの能力や限界、使用方法に関する情報を提供するために、システムカードを導入したことにより、ユーザーはモデルをより安全に使用できます。 - モデルの使用制限
特定のリクエストやトピックに対してモデルが応答しないようにするための使用制限が設けられているため、モデルが不適切な情報を提供するリスクを減少させることができます。 - パートナーシップ
他の組織や研究者と協力し、モデルの安全性に関する研究や取り組みを共有し、モデルのリスクをより広範囲で緩和することに努めています。
このように、多角的な評価と改善を繰り返してきたGPT 4Vですが、それでもまだ完全に安全であるとはいえず、偏見をもった回答やプライバシーを侵害した回答を出力する可能性があるということには注意が必要です。
特徴・安全性評価
改善の結果を以下の要素について、拒否率やパフォーマンス評価などの安全性評価を行いました。
- 有害なコンテンツ
- 根拠のない推論
- 性別、人種、年齢を認識するためのパフォーマンス精度
- プライバシー
- サイバーセキュリティ
- マルチモーダル脱獄
これらについて評価を行い、発見されたいくつかの問題点について対応されています。
モデルとシステムに関連する限界とリスク
社外の専門家と協力して、モデルとシステムに関連する限界とリスクを定性的に評価した結果が説明されています。
- 科学的熟練度
- 医療アドバイス
- ステレオタイプと根拠のない推測
- 偽情報のリスク
- 憎悪に満ちたコンテンツ
- 視覚的脆弱性
これらの項目について、確認された問題点とそれに対する解決策や、解決策がない場合は、モデルの信頼性が欠けているとして、その用途では使わないよう注意喚起されています。
例えば、危険な化合物の識別や、医療現場で診断に使用すると誤った判断を下してしまうことにつながり、非常に危険なので使用すべきではないと書かれています。
問題点の発見と改善を繰り返してきたGPT-4Vですが、完全に誤った情報が提供されないわけではないので、その点を考慮しなければなりません。
GPT-4Vにできること
GPT-4Vの機能が追加され、できるようになったことは大きく分けて以下の2つです。
- 画像入力(画像認識)
- 音声入力(音声会話)
この画像入力では、さらに「ChatGPT に画像の説明をさせて、類似の画像生成を行う」こともできるようになったので、それぞれ詳しく解説していきます。
ChatGPTで画像入力ができる
できるようになったこと1つ目は、画像の入力です。さらに、入力した画像を用いた対話も可能です。
例えば、旅行中に観光地の写真を撮ってそれについてChatGPTと対話したり、冷蔵庫の中を撮影して夕食のメニューを考えることもできます。モバイルアプリには描画ツールがあるので、画像の特定の部分を強調させることも可能です。
こちらは、公式がアップロードしていた動画です。
自転車のサドルの下げ方を画像付きで質問しています。サドルを下げるためのレバーの位置や、どの工具を使うと良いのかも全て画像を用いて会話できていますね。画像を読み込めるようになったことで、テキストで説明しにくいことも質問できるようになりました!
ChatGPTに画像の説明をさせて、類似の画像生成を行う
上記の画像入力と「できる」という部分では同じですが、あえて別項目としています。写真などの画像をChatGPTに説明してもらいましょう。そうした際に出てきた言葉がその写真のプロンプトとなります。
このプロンプトを使って、OpenAIの画像生成AI「DALL-E3」を利用することで、類似の画像生成が行えてしまいます。これの最大の長所は、類似画像となったことで著作権が問題にならなくなる点です。(似たような画像が欲しいなぁ)という際にはおすすめの使い方となります。
ChatGPTで音声入力ができる
できるようになったこと2つ目は、音声の入出力です。これにより、ChatGPTと音声で手軽に会話できるようになりました。例えば、家族でのストーリータイムやディナーテーブルでの議論を楽しむなどです。
ChatGPTのスマホアプリ版には、音声入力が標準搭載されています。こちらは公式がアップロードしていた動画です。
読み上げるテキストと、音声サンプルは以下の2箇所を変更することで試せます。
2024年4月現在、無料版・有料版ともにWebブラウザ版で音声会話の機能は提供されていません。ただし、Chromeの拡張機能を使うことでChatGPTのWebブラウザ版でも音声入力・音声会話を行うことができます。
なお、ChatGPTと音声会話する方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。
GPT 4Vの使い方
GPT-4Vを、PC・スマホで使う方法を解説します。
PCからの使い方
画像認識機能については、GPT-4に機能として追加されているため、特別な操作は必要ありません。
矢印の所をクリックして画像を選択するだけで挿入可能です。
スマホからの使い方
GPT-4Vをスマホで利用するにはアプリを利用します。
画像認識と、音声入力それぞれの機能を見ていきましょう。まずは、画像認識の機能からです。
画像認識
ChatGPTのアプリで新しいチャットを開き、「+」ボタンをクリックします。
画像を選択し、メッセージボックスに入力します
テキストを入力して、会話をすると回答が返ってきます。
背景にある他のお酒について触れていたりと画像全体をしっかり読み取れていますね!
ただし、醸造元はヤッホーブルーイングさんなので間違えてますが…。
音声入力
ChatGPTのスマホアプリ版では、音声入力・音声会話の機能が標準で搭載されており、ChatGPTの無料版・有料版どちらでも利用できます。
まず、画面右上の3つの点をタップします。
「Settings=設定」をタップ
「New Features=新機能」を押します。
すると、「Voice conversations=音声会話」のオンオフ設定ができる画面が出てきますので、それをオンにします。
これで、使えるようになっています。
使う際は、ホーム画面のヘッドフォンマークをタップ。
この画面が表示されたらChatgptでt音声入力ができます。
ちなみに、音声を変える際は「Settings=設定」の「Voice」から変更できます。
5つの音声を選べます。
- Ember:男性の声1
- Cove:男性の声2
- Juniper:女性の声1
- Sky:女性の声2
- Breez:女性の声3
GPT-4Vを実際に使ってみた
ここでは、実際にGPT-4Vを使って画像入力・音声入力をしてみます。GPT-4Vを使う際にぜひ参考にしてください。
画像入力機能
まずは、画像を入力して会話をしてみます。公式が出していた使い方に習って、自転車のサドルの下げ方を教えてもらいましょう。まずは写真を撮って、「サドルを下げる方法を教えてくれますか?」と聞いてみます。
以下のように手順を教えてくれました。
もちろん、お伝えします。自転車のサドルの高さを調整する手順は以下の通りです:
1. ツールの用意: まず、サドルの高さを調整するための適切なサイズのアレンキーを用意します。多くの自転車の場合、サドルを固定しているボルトはアレンボルトで、そのサイズは5mmまたは6mmが一般的です。
2. サドルの固定ボルトを緩める: 自転車のサドル下部にあるボルトを見つけ、アレンキーで緩めます。ボルトを完全に外す必要はありません。ある程度緩めるだけで十分です。
3. サドルの高さを調整: サドルのボルトを緩めたら、サドルの位置を上げたり下げたりして、希望の高さに調整します。
4. サドルの固定ボルトを締める: 希望の位置にサドルを調整したら、アレンキーを使ってサドルのボルトをしっかりと締めます。ボルトを締める際は、十分な強さで締めることが重要です。しかし、過度に強く締めすぎると、サドルポストやフレームが損傷する可能性がありますので注意が必要です。
5. 最終チェック: サドルの高さが調整されたら、自転車に乗ってみて、サドルの高さが適切かどうかを確認します。必要に応じて微調整を行ってください。
注意: サドルの高さを調整する際は、自分の体に合った高さに設定することが大切です。適切なサドルの高さは、ペダルを一番下に踏み込んだ状態で、膝がわずかに曲がっている状態が理想的です。
固定ボルトがどれかわからないので、写真をとって確認してみました。
すると以下のように出力され、どこを緩めると良いか出てきました!
テキストも載せておきます。
はい、おっしゃる通り、写真に白で囲まれている部分がサドルの高さを固定するためのボルトのようです。
このボルトを緩めれば、サドルの高さを調整することができます。
アレンキーまたは適切なツールを使用して、ボルトを緩めた後、サドルの高さを調整してください。調整が終わったら、ボルトを再びしっかりと締めることを忘れずに。
本当に、ChatGPTに目が実装されていて感動しました……!
画像認識を活用した類似の画像生成
ではもう一つ、画像認識と画像生成機能を活用した類似の画像生成をしてみましょう。熊の画像を添付して説明してもらいます。
画像について説明してくれました。
ここで注目するのは文章の冒頭です。「森の中で草の上を歩く茶色い毛のクマ」の部分が、画像のプロンプトとしてそのまま使える文章ですね。
では、これを使ってChatGPTに画像生成してもらいます。
なんとなく似た画像が生成されました。元々が写真なので少しイラスト感が出ているのが気にはなるところ・・・ですので写真のような画像を求めてみましょう。
少し変わりましたが、あくまでイラストの範囲内ですね。写真に似た画像というのは難しいようです。しかしながら、イラスト・画像から類似の画像生成というのは可能です。
これなら、「この画像は著作権もあるし似たものが欲しいなぁ」と思った際に活用できそうですね!。
なお、画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPTはGPT-4Vによってさらなる進化を遂げた
本記事では、GPT-4Vの概要や料金、使い方などを詳しくご紹介しました。
GPT-4VがリリースされたことによってChatGPTはマルチモーダルAIとなり、生成スピードが早くなったことに加えクオリティも高く、直感的に使いやすいデザインとなっています。
音声入力と画像認識ができるようになったことでChatGPTはさらに便利になり、業種を問わず、さまざまなシーンで役立つAIツールとなりました。
GPT-4Vの登場によって、生成AIは今後もさらなる進化を遂げるはずです。
興味のある方は、ぜひこの記事を参考にGPT-4Vの機能を試してみてくださいね。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。