【CogVLM】GPT 4を超える精度のマルチモーダルAI!?サイゼリアの間違い探しをAIにやらせてみた

皆さん、CogVLMというマルチモーダルAIをご存知ですか?画像を理解できるAIで、画像の内容を文章で説明できるんです。
最近ではChatGPTも、画像をアップロードできるようになりました。これからのAIも、文章だけでなく、様々なデータを扱える「マルチモーダル」が当たり前になるでしょう。
そして、このCogVLMも、写真の説明を文章で行ったり、写真を使った検索をしたりすることができます。
それでは、CogVLMの使い方や、実際に使ってみた感想などをご紹介します。最後には、難しいことで有名なサイゼリアの間違い探しをやらせてみます。
この記事を最後まで読むと、マルチモーダルの魅力や便利さに憑りつかれるはずです!
ぜひ最後までご覧ください!
なお弊社では、生成AIツールの開発について1時間無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる
CogVLMの概要
CogVLMは、画像の内容を理解して、言語化するためのマルチモーダルAIです。具体的には、写真と文章があったとき、その写真が文章とどのように関連しているのかを理解することができます。
従来のプログラムは、言葉と画像を別々に理解することが多かったのですが、CogVLMはこれらを一緒に深く理解する新しい方法を使っています。たとえば、犬がボールを追いかける写真と「犬が遊んでいる」という文章があった場合、CogVLMはこの写真と文章が関連していることを上手く理解できます。
以下の画像を見てください。左がCogVLMの結果で、右がGPT-4Vの結果です。
この図の入力画像をよく見ると、家が4つ映っています。左の3つの家はハッキリと見えますが、右端の1軒は切れていて分かりずらいです。そのため、GPT-4Vは「画像内の家は3つ」と答えてしまいました。
しかし、CogVLMは「右端の家ははっきりと見えない」と答えながらも、ちゃんと「家は4つある」と回答しているのです。
このように、CogVLMを使うことで、AIに画像を理解させることが可能になるのです。この技術は、画像を使ったインターネット検索や、写真と文章を組み合わせた教材の作成など、さまざまな場面で役立つと考えられています。
なお、今話題のGPT-4Vについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【GPT-4V】ChatGPTがマルチモーダル対応!何がすごいかを徹底解説
CogVLMの料金体系
CogVLMはOSSであるため、無料で利用できます。
CogVLMの使い方
CogVLMを使うには、以下のWeb版のデモページで試すのが簡単です。
参考記事:CogVLMのデモページ
デモページに移動すると、以下のような画面に遷移します。
基本的には、左上の「Input Text」と「Image Prompt」を操作するだけです。
- Input Text:テキストプロンプトを入力
- Image Prompt:AIに理解させたい画像を入力
また、ローカル環境(Google Colab)で動かす場合は、以下のコードを実行しましょう。
!git clone https://github.com/THUDM/CogVLM.git
%cd CogVLM
!pip install -r requirements.txt
!pip install pyngrok
!pip install gradio
!pip install bitsandbytes
!python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
from pyngrok import conf, ngrok
conf.get_default().region = "us" # 例として、リージョンを "us" に設定
public_url = ngrok.connect(7860, "http", bind_tls=True)
print('External URL:', public_url)
このコードを実行すると、URLが出力されるので、そのURLにアクセスすると、ローカル環境でCogVLMのデモを利用できます。
ただし、有料版のGoogle Colabで動かしたところ、メモリ不足で動かなかったので、それ以上のスペックを準備する必要があります。必要なハードウェアのスペックは、以下の通りです。
- Model Inference: 1 * A100(80G) or 2 * RTX 3090(24G).
- Finetuning: 4 * A100(80G) [Recommend] or 8* RTX 3090(24G).
なお、GPT-4V超えのマルチモーダルAI「CoDi」について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【CoDi】テキストから画像、動画、音声が一発で生成できるGPT-4V超えマルチモーダルAI
CogVLMにサイゼリアの間違い探しをやらせてみた
今回は、Web版のデモページで動かしてみたいと思います。今回試すことは、以下の「サイゼリアの間違い探し」です。
結果は以下の通りです。
ここでは、プロンプトとして最初に「Look for mistakes on the left and right sides of the image.(この画像の左側と右側の間違いを探して)」と入力しました。すると、以下のように出力。
The figures on the left and right sides are quite different. On the left side, there is a cartoon figure sitting next to a table, with a fork in their hand. There is also a bottle of milk on the table. However, on the right side, there is no one sitting at the table, and instead, there is a chair without any occupant. Additionally, the fork on the right side appears to be misplaced.
(左側と右側の人物はまったく異なっている。左側には、アニメの人物がテーブルの横に座り、手にはフォークを持っている。テーブルの上にはミルクの入った瓶もある。しかし、右側にはテーブルには誰も座っておらず、代わりに誰も座っていない椅子がある。さらに、右側のフォークの位置がずれているように見える。)
この時点でいろいろ違いますね。まず「右側にはテーブルには誰も座っておらず」とありますが、ガッツリ座っているのが分かります。

【無料】2023年11月版|生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIの業務活用コンサルティング
・システム間API連携

生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
CogVLMとGPT-4Vのサイゼリアの間違い探し能力を比較してみた
先ほどの検証を、GPT-4Vでやってみます。結果は以下の通り。
以下のような答えが返ってきました。
Let’s spot the differences between the two images:
- The color of the bird’s hat on the left side is red, while on the right side, it is blue.(左側の鳥の帽子の色は赤、右側は青。)
- The boy on the left, near the table, has one stripe on his shirt, while the boy on the right has two stripes.(テーブルの近くにいる左側の少年のシャツには1本のストライプがあり、右側の少年には2本のストライプがある。)
- On the left image, the man standing at the back, behind the table, has a mole on his left cheek. The mole is absent on the man in the right image.(左の画像では、テーブルの後ろ、奥に立っている男の左頬にほくろがある。右の男性にはほくろがない。)
- The left shoe of the girl in the pink dress, who is sitting at the table, is blue on the left image and white on the right image.(テーブルに座っているピンクのドレスの少女の左の靴は、左の画像では青、右の画像では白である。)
- On the left image, the lettuce in the garden, near the white cat, has an extra leaf.(左の画像で、白い猫の近くにある庭のレタスには余分な葉がある。)
- On the right side of the cat on the left image, there’s a carrot missing when compared to the right image.(左の画像の猫の右側には、右の画像と比較するとニンジンが欠けている。)
- The cloud on the top-left corner of the left image has three bumps, whereas the same cloud on the right image has two bumps.(左画像の左上の雲には3つのコブがあるが、右画像の同じ雲には2つのコブがある)
Those are the differences I was able to spot!
これも全部間違っていますね。やはりLLMに、間違い探しをさせるのは難しいのかもしれません。
とはいえ、研究内容や実用例を見る限り、精度は高いと思うので、導入する価値は十分にあるでしょう。
ただ、ローカル環境で動かしにくいことを考えると、あまり実用的ではないのかもしれません。それらの点を考慮しても、やはりGPT-4Vが便利なんじゃないかなと、正直思います。画像の読み込みは有料ですが、ブラウザ上でサクサク動いて精度も高いので、個人的にはGPT-4Vの方が推しです。
なお、ローカル環境でも動かせるLLMのLLaVA 1.5について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【LLaVA 1.5】オープンソース版GPT4-Vの使い方~比較レビューまで
まとめ
CogVLMは、画像の内容を理解して、言語化するためのマルチモーダルAIです。たとえば、犬がボールを追いかける写真と「犬が遊んでいる」という文章があった場合、CogVLMはこの写真と文章が関連していることを上手く理解できます。
Web版のデモページが公開されているので、簡単にCogVLMを試すことができます。一応ローカル環境でも動かすことができるのですが、必要なハードウェアが揃えられない可能性もあるので、実用的ではなさそうです。
また、間違い探しをCogVLMとGPT-4Vにさせて、比較したところ、どちらも不正解という結果になりました。おそらくLLMにとって、間違い探しはまだ早いのかもしれません。
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「1時間の無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。