Gemini VS サイゼの間違い探し！最強の画像認識AIに激ムズ間違い探しを解かせてみた

2023-12-122024-04-03

WEELメディア事業部LLMライターのゆうやです。

2023年ももうすぐ終わってしまいますが、今年、生成AI業界は飛躍的に進化して多くのマルチモーダルモデルが公開されました。

中でも画像を認識して、質問に答えるAIの画像認識技術は特に進化しており、2023年12月にGoogleが発表したばかりのGemini Proは、以下のツイートのように、煩雑な霞が関パワポ画像を完璧に認識して、分かりやすく解説してくれます。

GoogleのBard Gemini Pro版やばすぎ
霞が関パワポ画像読ませてみたらスラスラ解説してくる
来年更に上位のGemini Ultraが出るってどうなるんや… pic.twitter.com/Czq1DTxnLG
— ゆな先生 (@JapanTank) December 7, 2023

このGeminiは、今後さらに強化されたGemini Ultraが公開されるらしく、きっと恐ろしい程の性能を持っているはずです。

また、Geminiのようなクローズドモデルだけではなく、オープンソースモデルでもマルチモーダル機能を持ったものがいくつも公開されています。

代表的なものとして、MetaのLlama2をベースに画像認識能力を持たせたLLaVa-1.5があり、これはあのGPT-4Vと遜色ない画像認識能力を持っています。

今回は、画像認識AIのすごさに迫るため、複数のマルチモーダルモデルに間違い探しをさせて正しく間違いを発見できるか比較検証していきます。是非最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

画像認識AIの概要

画像認識とは、入力された画像に写っている人や物を認識する技術です。

近年、この画像認識能力が組み込まれたマルチモーダル大規模言語モデルが数多く構築、公開されています。

代表的なものは、2023年9月にOpenAIが公開したGPT-4Vや、2023年12月にGoogleが公開したGeminiなどがあります。

導入で、Gemini Proについてはそのすごさをお伝えしましたが、GPT-4Vについても同様に画像から情報を取得し、かなり詳細で分かりやすい説明を出力してくれます・

GPT-4Vの画像認識、グラフや図表の読み取りにも使えるので、普段の業務でもかなり使い道ありそう。 pic.twitter.com/C0zEsIfC34
— Dory │ Algomatic (@dory111111) September 27, 2023

また、このような画像認識能力を持ったマルチモーダルモデルは、クローズドモデルのみではなく、オープンソースモデルでも複数公開されています。

代表的なオープンソースマルチモーダルモデルとして、Llava1.5とCogVLMがあります。

これらは、規模が小さいかつオープンソースモデルでありながら、GPT-4Vに匹敵する画像認識能力を持っています。

今回は、これらのマルチモーダルモデルがどれほどの画像認識能力を持っているのか検証するため、間違い探しをさせて正しく間違いを発見できるか比較検証していきます。

まずは、検証で使用する各モデルの概要から説明します。

なお、画像認識に対応しているGeminiについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Google Geminiのおすすめ活用事例】GPT-4超えAIの仕事が鬼捗る使い方10選

モデルの概要

今回検証で使用するモデルは、先ほど紹介したGPT-4V、Gemini Pro、LLaVA-1.5、CogVLMです。

各モデルの概要を表にまとめます。

	GPT-4V	Gemini Pro	LLaVA-1.5	CogVLM
概要	OpenAI社が開発したGPT-4をマルチモーダル対応させたモデル	Googleが開発した最新のマルチモーダルモデル大規模言語モデル。GPT-4Vと同等の性能を持っている。	Llama2をベースに視覚エンコーダを追加することで構築されたオープンソースモデル	Vicuna-7Bをベースに視覚エンコーダを追加することで構築されたオープンソースモデル
利用料金	$20/月	無料	無料	無料
商用利用	可	可	可	可

これらは、どれもローカルにインストールする必要はなく、Web上で簡単に利用することができます。

以下に、各モデルにアクセスするためのリンクを貼り付けておきます。

GPT-4V

chat.openai.com

Gemini Pro

Google bard

※BardでGemini Proを使用するには、言語を英語にする必要があります。

LLaVA-1.5

LLaVA: Large Language and Vision Assistant

CogVLM

それでは早速検証を始めていましょう！

画像認識AIに間違い探しをやらせてみた

今回は、サイゼリヤの間違い探し、ウォーリーを探せ、激ムズ間違い探しの3通りを試して、それぞれのモデルが正解するのか比較検証していきます。

サイゼリヤ

以下の画像が、ここで解かせる間違い探しです。

この画像と以下のプロンプトを入力します。

左側と右側の画像で異なる点が10個あります。
すべて指摘してください。

正解はこちらです。

引用元：https://www.saizeriya.co.jp/entertainment/oil_answer.html

こちらは比較的簡単なので、全問正解することを期待しています。

GPT-4V

左側と右側の画像を比較して、10個の異なる点を指摘します。

1. 左上の「Kids Menu」のテキストの色が左側は赤と黄色、右側はピンクと黄色です。
2. オリーブオイルのボトルのラベルにある文字が左側の画像にはなく、右側にはあります。
3. パンの上にあるオリーブの数が左側は1つ、右側は2つです。
4. オリーブオイルのボトルの配置が異なります。左側では5本が並んでいますが、右側では6本です。
5. オーブンの中のピザの色が左側はピンクと黄色、右側は茶色と黄色です。
6. オーブンを操作している人の服の色が左側は白と黄色、右側は白とピンクです。
7. 左側の画像には船が描かれていないが、右側には船が描かれています。
8. 木を収穫しているシーンで、左側の画像では木の下に一つのオリーブが落ちていますが、右側ではオリーブはありません。
9. 左側の画像ではオリーブオイルのボトルがオーブンの上に1本ありますが、右側ではありません。
10. 一番下の段の左端にあるボトルのキャップの色が左側では緑、右側では赤です。

これらが左側と右側の画像の10個の違いです。

Gemini Pro


There are 10 points of difference between the left and right images of the olive oil making process:

1. The Japanese text in the upper left corner of the image is slightly different. The left image says "Kids Menu," while the right image says "小学生までのお子様限定メニュー" (Kids Menu for children up to elementary school age).
2. The Italian restaurant "Italian Lend" is spelled differently in the two images. The left image says "タリアンレンド," while the right image says "イタリアンレンド."
3. The arrow pointing to the olives being picked by hand is in a different position in the two images.
4. The Japanese text in the middle of the image is slightly different. The left image says "オリーブの実を手でつみとる" (Pick the olives by hand), while the right image says "オリーブの実を収穫する" (Harvest the olives).
5. The Japanese text below the olive press is slightly different. The left image says "滞った葉汁からオイルをとりだす" (Extract oil from the stagnant olive juice), while the right image says "搾り汁からオイルを抽出する" (Extract oil from the pressed juice).
6. The Japanese text below the olive mill is slightly different. The left image says "オリーブの実をすりつぶす" (Grind the olives), while the right image says "オリーブの実を粉砕する" (Crush the olives).
7. The Japanese text below the olive oil blending machine is slightly different. The left image says "オイルを調合する" (Blend the oil), while the right image says "オイルを混合する" (Mix the oil).
8. The Japanese text below the olive oil bottling machine is slightly different. The left image says "ボトル詰め" (Bottling), while the right image says "充填" (Filling).
9. The Japanese text below the olive oil container ship is slightly different. The left image says "冷蔵コンテナ船で日本に" (To Japan by refrigerated container ship), while the right image says "冷蔵コンテナ船で輸送" (Transported by refrigerated container ship).
10. The Japanese text below the plate of spaghetti is slightly different. The left image says "おいしい料理に" (For delicious dishes), while the right image says "美味しい料理に" (For delicious dishes).

I hope this is helpful!

オリーブオイルの製造工程において、左と右の画像には10の違いがある：

画像左上の日本語の文字が微妙に違う。左は「キッズメニュー」、右は「小学生までのお子様限定メニュー」。
イタリアンレストラン「イタリアンレンド」のスペルが2枚の画像で異なっている。左は “タリアンレンド”、右は “イタリアンレンド”。
手摘みされているオリーブを示す矢印の位置が2つの画像で異なっている。
画像中央の日本語の文字が微妙に違う。左の画像には「オリーブの実を手でつみとる」、右の画像には「オリーブの実を収穫する」と書かれている。
オリーブの実を収穫する」と書かれている。左は “滞った葉汁からオイルをとりだす”、右は “搾り汁からオイルを抽出する”。
オリーブミルの下の日本語の文字が少し違う。左は「オリーブの実をすりつぶす」、右は「オリーブの実を粉砕する」。
オリーブオイル調合機の下の日本語の文字が少し違う。左は “オイルを調合する”、右は “オイルを混合する”。
オリーブオイルの瓶詰め機の下にある日本語の文字が少し違う。左は “ボトル詰め”、右は “充填”。
オリーブオイルのコンテナ船の下にある日本語の文字が微妙に違う。左は「冷蔵コンテナ船で日本へ」、右は「冷蔵コンテナ船で輸送」となっている。
スパゲッティの皿の下にある日本語の文字が微妙に違う。左は「おいしい料理に」、右は「おいしい料理に」。

参考になれば幸いである！

LLaVA-1.5

The left image has a bottle of wine on the left side, while the right image has a bottle of wine on the right side.
The left image has a person on the left side, while the right image has a person on the right side.
The left image has a bowl on the left side, while the right image has a bowl on the right side.
The left image has a cup on the left side, while the right image has a cup on the right side.
The left image has a carrot on the left side, while the right image has a carrot on the right side.
The left image has a banana on the left side, while the right image has a banana on the right side.
The left image has a bottle of wine on the left side, while the right image has a bottle of wine on the right side.
The left image has a person on the left side, while the right image has a person on the right side.
The left image has a bowl on the left side, while the right image has a bowl on the right side.
The left image has a cup on the left side, while the right image has a cup on the right side.

左の画像は左側にワインのボトルがあり、右の画像は右側にワインのボトルがある。
左の画像は左側に人が写っており、右の画像は右側に人が写っている。
左の絵は左側に鉢があり、右の絵は右側に鉢がある。
左の絵は左側にコップがあり、右の絵は右側にコップがある。
左の絵は左側にニンジンがあり、右の絵は右側にニンジンがある。
左の絵の左側にはバナナがあり、右の絵の右側にはバナナがある。
左の画像は左側にワインのボトルがあり、右の画像は右側にワインのボトルがある。
左の絵は左側に人がいて、右の絵は右側に人がいる。
左の絵は左側に鉢があり、右の絵は右側に鉢がある。
左の絵は左側にコップがあり、右の絵は右側にコップがある。

CogVLM

Certainly! Here are the 10 points of difference between the left and right images:

The title 'Kids Menu' is on the left side, while it's on the right side for the 'Kids Menu'.
The illustration of the olive tree and the child picking olives is on the left. On the right, there's an illustration of a child and a dog near a tree.
The process of olive oil production starts with olives on the left, while on the right, it starts with olives being pressed.
The left image shows a child pouring olive oil into a bottle, while the right image depicts a child pouring olive oil into a bowl.
The left image has a 'Sunny' logo on a bottle, while the right image has a 'Sunny' logo on a bowl.
The left image has a 'Sunny' logo on a building, while the right image has a 'Sunny' logo on a truck.
The left image has a 'Sunny' logo on a plate, while the right image has a 'Sunny' logo on a bowl.
The left image has a 'Sunny' logo on a bottle, while the right image has a 'Sunny' logo on a bottle.
The left image has a 'Sunny' logo on a bottle, while the right image has a 'Sunny' logo on a bottle.
The left image has a 'Sunny' logo on a bottle, while the right image has a 'Sunny' logo on a bottle.

確かに！左右の画像の違いを10点挙げてみよう：

タイトルの「キッズメニュー」は左側、「キッズメニュー」は右側。
オリーブの木とオリーブを摘む子供のイラストは左側。右側にはオリーブの木の近くにいる子供と犬のイラスト。
オリーブオイルの製造工程は、左はオリーブの実から、右はオリーブの実を搾るところから始まる。
左はオリーブオイルをボトルに注ぐ子供、右はオリーブオイルをボウルに注ぐ子供。
左の画像にはボトルに「Sunny」のロゴがあり、右の画像にはボウルに「Sunny」のロゴがある。
左の画像には建物に’Sunny’のロゴがあり、右の画像にはトラックに’Sunny’のロゴがある。
左の画像は皿に’Sunny’のロゴがあり、右の画像はボウルに’Sunny’のロゴがある。
左の画像はボトルに’Sunny’のロゴがあり、右の画像はボトルに’Sunny’のロゴがある。
左の画像はボトルに’Sunny’のロゴがあり、右の画像はボトルに’Sunny’のロゴがある。
左の画像には’Sunny’のロゴがボトルに描かれているが、右の画像には’Sunny’のロゴがボトルに描かれている。

結果は、どのモデルも一つも正解を出力することができませんでした…

まさかの結果になってしまいました。

この結果から言えることは、まだAIの画像認識能力は発展段階にあり、間違い探しのような画像の細かい部分まで認識して比較するタスクは特に苦手なようです。

次は、ウォーリーを探せをやらせてみます。

ウォーリーを探せ

以下の画像とプロンプトを入力して、正しい回答が出力できるか検証します。

画像の中から、赤いボーダーの服を着たウォーリーを探してください。

正解は、左下の猫や小鳥のすぐそばにいます。

先ほどの結果を踏まえて、比較的簡単なものを持ってきたので、もしかしたら正解するモデルが出てくるかもしれません。

GPT-4V


画像には直接目を通すことができませんが、ウォーリーを見つけるというタスクは通常、「ウォーリーを探せ!」というシリーズの一部で、赤と白のストライプのシャツを着て眼鏡をかけたキャラクターを見つけることを要求します。彼は通常、人々で賑わう詳細なシーンの中に隠れていて、見つけるのが困難な場合があります。

ただし、私には画像の内容を解析する機能がないため、ウォーリーを見つけるための具体的な指示を提供することはできません。ウォーリーを見つけるには、画像を注意深く見て、赤いボーダーの服を着たキャラクターを探してください。彼は通常、帽子も赤と白のストライプで、眼鏡をかけているのが特徴です。

Gemini Pro

Wally is in the image, dressed in a red border. He is in the top right corner, standing next to a blonde woman with a ponytail. He is wearing his signature red and white striped shirt, red and white bobble hat, and glasses.

Wally is also wearing a red and white striped scarf, which is not shown in the image you sent me. However, I know this because I have seen other images from this Where's Wally? book.

Here is a more detailed description of Wally's location in the image:

He is standing to the right of a blonde woman with a ponytail.
He is wearing a red and white striped shirt, red and white bobble hat, and glasses.
He is also wearing a red and white striped scarf.
He is in the top right corner of the image.
I hope this helps!

赤いボーダーの服を着たウォーリーが写っている。彼は右上にいて、ポニーテールのブロンド女性の隣に立っている。彼の特徴である赤と白のストライプのシャツ、赤と白のボブルハット、そして眼鏡をかけている。

ウォーリーは赤と白のストライプのスカーフも巻いているが、これは送ってもらった画像には写っていない。しかし、私はこの『ウォーリーはどこだ』の他の画像を見たことがあるので、このことを知っている。

この画像に写っているウォーリーの位置をもう少し詳しく説明しよう：

彼はポニーテールのブロンド女性の右側に立っている。
赤と白のストライプのシャツ、赤と白のボブルハット、メガネをかけている。
赤と白のストライプのスカーフも巻いている。
彼は画像の右上にいる。
お役に立てれば幸いです！

LLaVA-1.5

画像の中から、赤いボーダーの服を着たウォーリーを見つけることができました。ウォーリーは、群衆の中で赤い服を着ています。
群衆は、建物の周りに集まっており、多くの人が描かれています。

CogVLM

In the image, look for a character wearing a red bordered outfit, which appears to be a cape or cloak. 
This character is located towards the center-right of the image, amidst the crowd.

画像内で、マントまたはマントのように見える、赤い縁取りの服を着ているキャラクターを探してください。このキャラクターは、画像の中央右寄り、群衆の中にいます。

こちらもすべてのモデルが不正解でした。

人間であれば、数秒で見つけることができるような画像ですが、どのモデルも違うところを回答しています。

どうやら、画像の中を解析して何かを見つけるというタスクは本当に苦手なようです。

想定していなかった結果でかなり驚いています。

最後に、正解する望みは薄いですが、人間でもわからないような難しい間違い探しをさせてみます。

激ムズ間違い探し

正直、ここまでの流れを見ると、おそらく正解するモデルはないかもしれませんが、以下の画像とプロンプト入力します。

引用元：https://www.buzzfeed.com/jp/asamitogi/machigaisagashi

左側と右側の画像で異なる点が5個あります。
すべて指摘してください。

ぱっと見どこが違うのか分からないですよね。

正解は、以下の5箇所です。

ムズすぎます…

各モデルの結果を見ていきましょう。

GPT-4V

画像を比較して、5つの異なる点を指摘します。

1. 男性の髪の一部が左側の画像では金色ですが、右側の画像では茶色です。
2. 男性の胸ポケットにあるペンのキャップの色が左側の画像では赤ですが、右側の画像では青です。
3. 男性の左（画像上では右）手の腕時計が左側の画像にはありませんが、右側の画像にはあります。
4. 男性のシャツの襟の下にあるボタンが左側の画像では見えていませんが、右側の画像では見えています。
5. 「WOW!」の吹き出し内の背景にある小さな雲の形が左側と右側で異なります。

これらが画像の左側と右側で異なる5つの点です。

Gemini Pro

Sorry, I can't help with images of people yet.

申し訳ありませんが、人物の画像についてはまだ対応できません。

LLaVA-1.5

左側と右側の画像で異なる点は以下の通りです。

左側の画像では、笑いをする男性が口を開いていますが、右側の画像では口を閉じています。
左側の画像では、男性が指を指さしていますが、右側の画像では指を使わずに笑いをするように描かれています。
左側の画像では、男性が笑いをするときに口を開いていますが、右側の画像では笑いをするときに口を閉じています。
左側の画像では、男性が笑いをするときに口を開いていますが、右側の画像では笑いをするときに口を閉じています。
左側の画像では、男性が笑いをするときに口を開いていますが、右側の画像では笑いをするときに口を閉じています。

CogVLM

The differences between the left and right images are: 
1) The man's eyes are wide open in the right image, whereas they are closed in the left. 
2) The man's mouth is wide open in the right image, whereas it is slightly open in the left. 
3) The man's tie is red in the right image, whereas it is blue in the left. 
4) The word 'WOW!' is positioned differently in the two images. 
5) The background patterns and colors are slightly varied between the two images.

左右の画像の違いは以下の通り：
1) 男性の目は、右の画像では大きく開いているが、左の画像では閉じている。
2) 男性の口は、右の画像では大きく開いているが、左の画像では少し開いている。
3) 男のネクタイは、右の画像では赤であるが、左の画像では青である。
4) 『WOW！』の文字の位置が2つの画像で異なっている。
5) 背景の模様と色が2つの画像で微妙に異なっている。

結果は、案の定全モデル全問不正解です。

この間違い探しは人間でも正解するのが難しい程の難問ですが、サイゼリヤの間違い探しとウォーリーを探せはそこまで難しくないのに、すべてのモデルが全く見当違いの回答をし、期待していた結果にはなりませんでした。

今回の検証の結果から、現在のAIの画像認識能力は、画像内の細かい部分まで解析するほどの性能は持っていないことが分かりました。

今後の研究開発で、人間を超すほどの能力を持った画像認識AIが登場することに期待しましょう。

なお、画像生成AIの活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→10分で分かるGoogle Gemini日本語版の使い方解説！最新活用事例10選も紹介

まとめ

2023年、生成AI業界は飛躍的に進化して多くのマルチモーダルモデルが公開されました。

中でも画像を認識して、質問に答えるAIの画像認識技術は特に進化しており、多くの画像認識能力を持った大規模言語モデルが公開されました。

今回は、それらの能力を検証するため、代表的な画像認識能力をもつ生成AIに間違い探しを解かせてみました。

結果は、検証したすべての画像で全モデルが不正解という予想外の結果になり、この結果から現在のAIの画像認識能力は、画像内の細かい部分まで解析するほどの性能は持っていないことが分かりました。

今回はこのような結果になりましたが、画像認識技術はかなりのスピードで進化を続けており、すぐに間違い探しを完璧に解けるほどの画像認識能力を持ったAIが登場するでしょう！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ