【GPT-4V APIのおすすめ活用事例】OpenAIの最新モデルを使ったヤバい使い方10選

ChatGPT（ユーザー向け）

2023-12-062024-07-18

みなさん、API経由でGPT-4Vが使えるようになったのはご存知ですか？

その名も「GPT-4V API」というモデル名なのですが、GitHubでスター10,000超えのAIツール・tldrawに採用されています。

このGPT-4V APIは、アプリ・サービスに目を与えてくれるすぐれものなんです！

当記事では、そんなGPT-4V APIの活用事例のうち、SNSでバズったものだけを10個ピックアップしました。

最後まで読んでいただくと、APIで作れるアプリ・サービスのレパートリーが増えるかもしれません。ぜひ最後までお読みくださいね！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

GPT-4V APIとは？概要を紹介

「GPT-4V API」はChatGPT APIのなかで唯一、画像入力に対応しているモデルです。アプリやWebサービス上からGPT-4モデルへの画像の転送を実現してくれます。

その利用料金については、画像サイズに依存するのが特徴です。GPT-4V APIは2023年11月7日のリリース以降、AIチャットボットやAIツールで活用が進んでいます。

当記事ではそんなGPT-4V APIの活用事例を紹介していきます。

なおGPT-4V APIは、数ある呼び名のひとつです。「GPT-4 Turbo with vision」や「Vision API」として紹介されることもありますが、すべて同じモデルを指しています。

参考記事：Models – OpenAI API

SNSでバズったGPT-4V APIの活用事例10選！

ここからはSNSでバズったGPT-4V APIの活用事例を10個紹介していきます！画像入力でグッと広がる、ChatGPT APIの用途をみていきましょう！

【アプリ開発での活用事例】GPT-4V API搭載、お絵かき感覚のローコードツールが登場！

GPT-4V APIを活用したAIツールが早速登場しています。

今回出てきたのは「tldraw」というローコードツールです。こちらがなんと、お絵かき感覚でHTMLのコーディングができちゃうすぐれものなんです！

下の投稿のとおり、tldrawのアプリ上に図形とテキストを入力するだけで……

(can't believe this works) pic.twitter.com/pMb6xfk21i
— tldraw (@tldraw) November 14, 2023

このようにレビューの送信フォームができちゃいました。しかもtldraw は、カーソルを合わせたときのボタンの挙動など細かい部分まで、仕上げてくれています。

これからも国内外で、GPT-4V APIを採用するAIツールが続々でてくるはずです！

【ファッション分野での活用事例】GPT-4V APIを使って今日のコーデにアドバイスしてくれるAIツールが登場！

AIがファッションチェックをしてくれる時代になりました！まずは以下をご覧ください。

『今着てる服へのファッションアドバイザーAI👕』

GPT-4のVision APIとDALL･E3を組み合わせて作ってみた⚡本当にサクッとできたので、これからマルチモーダルなサービスがどんどん出てきそう pic.twitter.com/ktlBzC7H11
— Yukiya Okuda / THE GUILD (@alumican_net) November 8, 2023

このようにGPT-4V APIがあれば、今日のコーデを評価&アドバイスしてくれるAIツールができちゃうんです！スカーフやポケットチーフで明るい色を入れたほうがいい、といったファッション初級者でも真似しやすい提案が返ってきていますね。

さらにアドバイス時には、DALL-E 3による着用イメージまで付いてきています。これならデートの前に、いい感じのコーデが決められるのではないでしょうか。

【AIチャットボットでの活用事例】GPT-4V API経由で物を指しながらChatGPTと会話できるように！

ChatGPTと目と目で通じ合う……そういう仲になりたくありませんか？

実はGPT-4V APIとWebカメラを組み合わせることで、ChatGPTがカメラの前の物体にリアクションしてくれるようになるんです。まずは下の投稿をチェック！

Chat with the webcam using @OpenAI vision API pic.twitter.com/SUg3d0pU0E
— SkalskiP (@skalskip92) November 7, 2023

カメラの前の男性が「何が見える？」と聞くと、ChatGPTは「ショートヘアの成人男性がカメラを直視しています」と回答してくれています。

これを応用すれば、GPT-4V APIで下記のようなこともできちゃうかも……

簡単な診察をしてくれる「AI内科医」
オムライスにおまじないをかけてくれる「AIアキバメイド」

発想次第で、どんどん用途が広がっていきますね！

【スポーツ観戦での活用事例1】GPT-4V APIを使えば、サッカーの試合に実況がつけられる！

“ある方法”でChatGPTに動画を文字起こしさせた、との投稿がバズってます！まずは以下をご覧ください。

GPT-4V + TTS = AI Sports narrator 🪄⚽️

Passed every frame of a football video to gpt-4-vision-preview, and with some simple prompting asked to generate a narration

No edits, this is as it came out from the model (aka can be SO MUCH BETTER) pic.twitter.com/KfC2pGt02X
— Gonzalo Espinoza Graham 🏴‍☠️ (@geepytee) November 7, 2023

このようにGPT-4V API（画像入力）とText-to-Speech（音声生成）を組み合わせれば、サッカーの試合に実況が付けられるんです！

しかも本来ならChatGPTで扱えない動画ファイルを見事、入力できています。動画をフレームごとに分けたものを画像として読み込ませているみたいです。

そのうち学生サッカーや草野球の試合にも、実況がつくようになるかもしれませんね。

【スポーツ観戦での活用事例2】GPT-4V APIならバスケットボールの実況だってできちゃう！

先ほど紹介したGPT-4V APIとText-to-Speechで動画に実況をつける方法については、OpenAI公式クックブックから解説記事が出ています！

【ゲーム実況での活用事例】GPT-4V APIなら、League of Legendsの実況もイケる！

GPT-4V APIとText-to-Speechの合わせ技なら、ルールが複雑なゲームの実況だってできてしまいます！まずは投稿から、ご覧ください。

THIS IS DOPE.

I used the new @OpenAI Vision API + TTS to commentate a @LeagueOfLegends game!! pic.twitter.com/lwRmiKdzPF
— peter! 🥷 (@pwang_szn) November 7, 2023

見事！プレイング動画に実況音声が付いていますね。ちなみに実況しているゲームは、世界一プレイ人口が多い「League of Legend」です。

これをうまく応用すれば、ゲーム実況もできるAIVTuberが実現するかもしれません！今後が楽しみですね。

【AI開発での活用事例】GPT-4V APIに他の技術を組み合わせることでアノテーションを自動化！

画像に説明・注釈を付ける「アノテーション」は、AIの画像学習に欠かせません。このアノテーションはもともと、人の手で時間をかけて行う作業です。

ただGPT-4V APIの登場で、アノテーションが自動化できるようになるかもしれません。その詳細が、以下になります。

RIP image annotation companies

Fully automated image labeling with GroundingDINO + SAM + OpenAI Vision API

code: https://t.co/g4RHUw2AqE pic.twitter.com/r3LTLtXpqT
— SkalskiP (@skalskip92) November 8, 2023

DeepL翻訳

さようなら、画像アノテーション企業……
GroundingDINO + SAM + OpenAI Vision APIによる完全自動画像ラベリング

このように見事、写真内のメルセデス・ベンツの部分に「mercedes」とアノテーションが付いています。以下の合わせ技なのだそうです。

GroundingDINO & GPT-4V API：画像から所定の物体だけを検出する
SAM / Segment Anything Model：物体とそれ以外の境界線を引く

なんとAIがAIを教えるところまで、技術が発展してきています。これは驚きです！

【チャットボット開発での活用事例】GPT-4V APIの解禁で、画像の埋め込みが可能に！

生成AIでチャットボットを作る際、データベース上の知識をプロンプトに埋め込むことで解答精度の向上が見込めます。これを「RAG」というのですが、GPT-4V APIの登場によって画像情報も含めた「マルチモーダルRAG」ができるようになりました。

以下の投稿で、その例を取り上げています。

⭐️Multi-modal RAG w/ GPT-4V ⭐️

"A picture is worth 1000 words," but images are typically invisible in RAG apps.

Multi-modal LLMs like GPT-4V unlock RAG apps that use images.

Using the new @OpenAI GPT-4V API, we'll be releasing templates and cookbooks this week to highlight… pic.twitter.com/ajSA6gK7Lg
— LangChain (@LangChainAI) November 7, 2023

DeepL翻訳

⭐️Multi-modal RAG w/ GPT-4V ⭐️
“百聞は一見に如かず “ですが、RAGアプリでは画像は通常見えません。GPT-4VのようなマルチモーダルLLMは、画像を使用するRAGアプリのロックを解除します。新しいオープンAIのGPT-4VのAPIを使って、今週、テンプレートとクックブックをリリースします：

オプション1：マルチモーダル埋め込み検索

長所：画像が直接埋め込まれるため、最高品質の検索ができる可能性がある。
短所：マルチモーダル埋め込みの選択肢が少ない。

オプション2：画像要約の作成

長所：テキスト埋め込みを使用し、マルチモーダルLLMに依存しないため、単純。
短所：回答合成や検索に画像が直接使用されないため、情報が失われる。

オプション3：画像要約を含む検索を行うが、合成には画像を使用しない。

長所：テキスト埋め込みは検索を単純化するが、回答合成では画像を使用する。
短所：画像要約が埋め込まれているため、検索品質が低下する可能性がある。

これらのアプローチにより、テキストブック、財務報告書、技術マニュアルなどのような画像コンテンツのあるドキュメントでもRAGが可能になる。私たちの最初のクックブックでは、マルチベクトルリトリーバを使用したオプション2+3を紹介しています。

マルチモーダルRAGであれば、教科書や技術書など写真&図式付きのデータもAIチャットボットで使えます。たとえば以下のようなAIチャットボットを作りたい場合に役立つはずです。

車種ごとのつくりを理解した整備用AIチャットボット
作物ごとの病気に詳しい農業用AIチャットボット

より業務内容に合わせたAIチャットボットが作れるかもしれませんね。

【Web開発での活用事例1】GPT-4V API経由でブログのスクリーンショットからCSSを再現！

GPT-4V APIを使えば、ブログの構造が丸ごと盗めてしまいます！

下の投稿のように、気になるブログのボタンについてスクリーンショットを撮ってGPT-4V APIから質問してみると……

ChatGPT + Vision API perfectly recreates dropdown menu in Tailwind CSS from a screenshot:

pic.twitter.com/gU6IKA4iyY
— AI Breakfast (@AiBreakfast) November 10, 2023

このようにボタンの仕組みの部分であるCSSコードを生成してくれるんです！

GPT-4V APIをうまく使えば、趣味のブログが企業公式サイト並みの仕上がりになっちゃうかもしれませんよ。

【Web開発の活用事例2】GPT-4V API経由でWebサイトに辛口コメントをつけてくれるサービスが登場！

GPT-4V APIを搭載した、Webサイト分析サービスが登場しています！まずは投稿をご覧ください。

Isn't the future great?

I built "Roast my Website" using the newly announced OpenAI APIs.

GPT4 Vision analyzes the screenshot and roasts it, while the new text-to-speech API returns it as audio.

Check it out (with audio to hear the roast) 🌶️ pic.twitter.com/pqJPFJt03g
— Marcel Pociot 🧪 (@marcelpociot) November 6, 2023

DeepL翻訳

未来は素晴らしいと思いませんか？
新しく発表されたOpenAIのAPIを使って “Roast my Website”を作ってみました。
GPT4 Visionがスクリーンショットを分析してダメ出しし、新しい音声合成APIがそれを音声として返します。
見てね！（ダメ出しを聞くための音声付き）🌶️

このように気になるWebサイトのURLを貼り付けて「Get Roasted / ダメ出しを受ける」ボタンを押すと、ページの分析が行われます。そして分析後に、音声（Text-to-Speech）によるダメ出しが返ってくるそうです。

これなら、駆け出しSEOライターの特訓に使えるかもしれませんね。

なお、ChatGPTの活用方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【ChatGPTの最新活用事例】業務が鬼捗る仕事ハック術66選

GPT-4V APIが加わり、さらに用途が広がった

当記事ではChatGPT APIの中で唯一、画像入力に対応しているGPT-4V APIについて活用事例を紹介してきました。

画像入力に対応しただけでAIチャットボットで画像が扱えたり、アノテーションが自動化できたりと、飛躍的にChatGPT APIの用途が増えていますね。

このGPT-4V APIのすごさは、目をもったソフトウェアが簡単に作れるという点にあります。これからも新しい活用事例が出てくるはずですので、今後の動向は要チェックです！

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ