サイトのデザインが新しくなりました。

GPT-4oの活用事例10選!目と耳を手に入れたマルチモーダルLLMの使い方を徹底解説

GPT-4o 活用事例10選 目 耳 手に入れた マルチモーダルLLM 使い方 徹底解説

2024年5月13日(現地時間)にOpenAIからChatGPTの最新モデルである「GPT-4o」が発表されました。このGPT-4oは有料版のChatGPT Plusに加入していれば全ての機能を利用することができます。また、一部制限付きではありますが、無料版ユーザーでもGPT-4oを利用できるので、誰でもGPT-4を体験することができます。

この記事では、新しく発表されたGPT-4oの概要や今後期待できるGPT-4oの活用方法について解説します。最後までお読みいただくことで、GPT-4oの活用方法がわかるので、ぜひご覧ください。

なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。

目次

GPT-4oとは

GPT-4oの“o”は、Omnimodelのことで直訳すると全方位モデルと言う意味になります。つまり、テキスト以外にも音声や視覚といった情報を処理することができるようになったモデルです。

それ以外にも、GPT-4相当の知能を持ちながらもパフォーマンスが向上し、英語以外の言語テキスト対応能力も大幅に進化しています。

このように、優れた性能を持つGPT-4oですが、機能に制限はあるものの有料版のChatGPT Plusに加入しなくても無料で利用することができます。さらに今回のアップデートでGPTsが無料で使えるようになったため、高性能なChatGPTを気軽に利用できるようになりました。

なお、GPT-4oについて詳しく知りたい方は、合わせて下記の記事もご覧ください

GPT-4oの活用事例10選

テキスト以外にも音声や視覚情報を処理できるようになったことで、どのような使い方ができるようになったのでしょうか。次に、GPT-4oの活用事例について解説します。

なお、今回解説する事例において、弊社がX(旧Twitter)で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、弊社公式X(旧Twitter)からご連絡ください。

①リアルタイム検索

GPT-4の学習データは2023年4月までのものだったため、質問に対して出力される回答はリアルタイムのものではなく、2023年4月時点の最新情報が回答される状態でした。

しかし、GPT-4oではChatGPTとWeb(Bing)の両方から応答取得が可能になったので、この投稿のようにリアルタイムな最新情報とその情報元のURLを提示してくれるようになりました。

これにより、いままで対応できなかったあらゆるジャンルのトレンドに関する情報収集をChatGPTでできるようになりました。

②レシートの仕訳

GPT-4oの特徴ともいえる画像処理能力とGPT-4相当の性能を持っているため、画像データからの処理能力が格段に上がりました。

こちらの投稿では、レシートの仕訳ができるかテストしています。出力データを見てみると、全て完璧に読み取ることができているだけではなく、仕訳も自動で行ってくれています。

このようにGPT-4oを使えば簡単にレシート管理ができるため、うまく利用すれば経理作業が楽になるのではないでしょうか。

③商品検索

GPT-4oでは、画像処理能力とリアルタイムな情報を取得できるWEB検索機能が追加されたため、商品画像さえあれば、商品名がわからなくても検索することが可能になりました。

こちらの投稿では、一見ワインのように見えるコーヒーの画像をGPT-4oに入力し質問したところ、正確なブランドと商品名だけではなく、そのコーヒーの特徴まで回答してくれました。

しかし、必ずしも正確な回答を得られるとは限らないので出力された回答を鵜呑みにせず、必ず人間の目で最終チェックを行うようにしましょう。

④リアルタイム翻訳

GPT-4oでは、音声処理もできるようになったため、音声を認識し処理を行うことでリアルタイムに翻訳することが可能です。

この投稿にある動画はGPT-4oの公式発表の動画ですが、英語とイタリア語をしっかり認識してリアルタイムで翻訳ができています。

さらに驚くべき点は出力されている音声です。機械音声とは思えないほど違和感がなく、とても流暢に音声生成ができているので、簡単に聞き取ることが可能になりました。この機能が充実すれば他言語の国へ旅行などへ行っても言語の心配はなくなるでしょう。

⑤ミックスチェック

GPT-4oは音楽ファイルも処理できるようになったため、活用シーンが格段に増えたと言えるでしょう。

こちらの投稿では、入力した音声ファイルのミックスチェックをGPT-4oに行ってもらった結果が投稿されています。出力結果をみてみると各パートごとに細かく評価がされており、しっかりと楽器の違いなども認識出来ていることがわかります。

また、投稿者のコメントをみる限り、出力された指摘内容も的確とのことだったため、今後音楽業界でもChatGPTの導入が進んでいくことが予想されます。

⑥画像データからの文字抽出

視覚的情報を処理できるようになったGPT-4oでは、画像から文字を抽出することが可能なだけではなく、読み取りづらい文字に関しては、その他の画像データから推測して文字を抽出することが可能です。

この投稿では、山手線の路線図から各駅名を抽出していますが、画像データが荒く文字が潰れて読みづらい箇所があります。しかし、GPT-4oがこの画像を山手線と認識し、処理を行っているため、正確に文字を抽出することができています。

そのほかにも、WEB検索機能も追加されているため、特徴的なアイコンや画像であれば多少画質が荒くても、GPT-4oが認識してくれる可能性はあります。

⑦画像分析

GPT-4oを使えば、画像から状況を把握しプロンプトの指示にしたがって分析をすることができます。

こちらの投稿ではサッカーのワンシーン画像と、分析するように指示するプロンプトをGPT-4oに入力したところ、選手のポジショニングから推測した戦略的意図やシナリオを解説してくれました。

このように、スポーツ観戦においてGPT-4oを使った分析を行えば、簡単に戦略やシナリオを解説してくれるので、相手チームの傾向や弱点などを見つけるヒントとなるでしょう。

⑧アプリ開発

GPT-4oでは、コーディング能力も向上していますが、画像処理能力と組み合わせることで異次元のレベルで簡単にアプリ開発ができるようになりました。

こちらの、投稿を見ていただければわかる通り、ゲーム画像とPythonでコード化してもらうように

GPT-4oへ指示しただけで、GPT-4oがゲームの内容を理解し瞬時にコードを作成することができています。

また、生成されたコードを動かしてみると問題なくゲームとして成り立っているため、正確なコードが生成されたことがわかります。

⑨手書き画像からの処理

GPT-4oを活用すれば、手書きの文字や絵などを処理して画像化することも可能です。

こちらの投稿では、投稿者が書いたドーナツ型の絵と3Dモデルにするように指示しただけで、正確な3Dモデルが生成された事例を紹介しています。

このように、ある程度の忠実な絵とテキストプロンプトを入力すれば、希望の画像データを生成することが可能となりました。

⑩記事構成の作成

記事執筆に欠かせない記事構成案もGPT-4oを使えば簡単に作成することができます。

記事構成については、GPT-3.5やGPT-4でも作ることができますが、トレンドに沿った記事を書こうと思った時にリアルタイムの情報を取得できないため、うまく記事構成を生成することができないこともありました。

しかし、GPT-4oではWEB検索機能が追加されているため、最新情報を取り入れた記事構成を作成することが可能です。ただし、出力された情報が必ずしも正しいわけではないため、執筆する前にファクトチェックを行う必要があります。

進化が止まらないChatGPT

画像処理能力の向上や音声認識機能の追加など、今回のアップデートで驚かされる機能がたくさん追加されたChatGPT。今後はChatGPTとリアルタイムビデオを介して会話できるようになったり、読み込ませた動画の内容を音声で解説させることができる新しい音声モードのリリースも予定されています。

このように、徐々にできることが増えて回答の精度もChatGPTのリリース直後に比べれば飛躍的に向上しています。今後はさらに不可能だと思われていた新機能が追加され、誰でも簡単に利用できるようになっていくことが予想されます。そんなAI社会が来る未来に置いていかれないように、無料で利用できるChatGPTを生活に取り込んでみてはいかがでしょうか。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

WEELの生成AIへのスタンス

我々はむやみやたらにAIツールの使用をお勧めしていません。

AIツールでできることはほとんどがChatGPTやStable Diffusionなどの大元のAIサービスで行えるからです。
※国内のAIツールの多くはChatGPTだけでも完結できるソリューションを展開しています。

もし、自社で生成AIを活用したいという場合は
1. ChatGPTをフルで使えるようになる
2. 業務を生成AIに解けるタスクまで分解し、自動化する
のどちらかが良いと思います。

弊社では
1の場合、生成AIセミナーの実施や生成AIコンサルティングなどで、AI専門家による生成AI活用指導
2の場合、PoC開発やソリューション開発などで、LLMエンジニアやAIコンサルタントが御社にあったAIツールの開発を行います。

無料相談にてご相談を承っておりますので、興味がある方は以下からご連絡ください。
無料相談で話してみる

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 晋平大竹

    生成AIの登場に大きな衝撃を受けたWebライター。好きなAIツールは、ChatGPTとAdobeFirefly。AIがこれからの世界を良い方向に導いてくれると信じ、正しい&有益な情報を発信し続けています!

  • URLをコピーしました!
  • URLをコピーしました!
目次