GPT-4・Geminiのマルチモーダル機能を徹底比較した論文発表!結果は、、、GPT-4の勝利!
WEELメディア事業部リサーチャーのいつきです。
最近、OpenAIのGPT-4やGoogleのGeminiを中心に、大規模言語モデルが世の中のさまざまなツールに搭載されています。
しかし、これらの大規模言語モデルはユーザーの期待とのギャップがあるとして、上海AI研究所が興味深い論文を発表しました。この論文の内容についてはX(旧Twitter)でも投稿されていますが、なんとわずか1日で300いいねがつくほど注目されています。
この論文ではGPT-4・Gemini・オープンソースのMLLMで232個のテストを実施し、それぞれの性能の限界や今後の課題をまとめたとのこと。
そこで本記事では、今回発表された論文の実験内容や結果を詳しく解説していきます。最後まで目を通していただくと、大規模言語モデルの性能についてより深く理解できるので、今までよりも使いこなせるようになるでしょう。
ぜひ最後までご覧ください。
論文の概要
今回ご紹介する論文では、テキスト・コード・画像・動画の4つのモードで、最新の大規模言語モデル(MLLM)の能力を比較検証しています。とくに、GPT-4とGemini、オープンソースの6つのLLMとMLLMで検証を実施したようです。
評価は、一般化可能性・信頼性・因果推論能力の3つの特性に焦点を当てているのが特徴。オリジナルで作成した232のテストケースにおいて、定量的な結果を12のスコア(4つのモダリティ×3つの特性)でまとめています。
なお、研究チームは、MLLMとオープンソースツールの能力と限界を理解するためにこの実験を実施しています。そして、実験の結果、より信頼性の高いマルチモーダルアプリケーションを実現するために役立つ14の実証的な発見を得たと報告しました。
参考記事:From GPT-4 to Gemini and Beyond
なお、GPT-4とGeminiの性能比較を詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Gemini】ChatGPTの最強のライバルGoogleのGemini!日本語の使い方〜GPT-4との性能比較まで
論文で解説されているテストの検証内容
今回の論文で解説している大規模言語モデル(MLLM)の能力検証では、オリジナルで作成した232個のテストを実施しています。そのなかから、いくつか興味深いテストを抜粋してみました。
- 論理的推論
- コード理解
- 画像理解
- 動画理解
以下で実際に行われたテストの内容を詳しくみていきましょう。
論理的推論
論理的推論では、プロンプトで4人の殺人事件に関わる当事者4人の意見を記載し、そのなかから犯人が誰かを答えるように指示しています。実際に入力されたプロンプトを翻訳してみました。
ある殺人事件の容疑者はA、B、C、Dの4人である: 私にはアリバイがある。Bは言った: 「Dが犯人です」。Cは言った: 「Bが犯人だ。」Dは言った: 「Bは嘘をついている。」
もし4人のうち1人だけが本当のことを言ったとしたら、誰が犯人なのか?もし4人のうち1人だけが嘘をついたとしたら、誰が犯人か?
各モデルに推論を答えてもらったところ、いずれのモデルも正解できなかったようです。ただ、Geminiは1つの正解を出し、最も良い結果を出しています。
コード理解
コード理解のテストでは、プロンプトにコードを入力し、そのコードがどのような機能を持つか説明させています。実際に使用したプロンプトは、以下のとおりです。
以下のコードの機能を説明してください a=[0]*5 a[0]='a=[0]*5' a[1]='print(a[0])' a[2]='for i in range(5):print("a["+str(i)+"]="+chr(39)+a[i]+chr(39))' a[3]='for i in range(1,4):print(a[i])' a[4]='print(a[4],end="")' print(a[0]) for i in range(5):print("a["+str(i)+"]="+chr(39)+a[i]+chr(39)) for i in range(1,4):print(a[i]) print(a[4],end="")
コード理解テストの結果、上記画像の緑のテキストは正しい回答を示し、赤い文字は誤った回答を示しています。GPT-4のみが正解し、ほかのモデルは間違った答えを出力したようです。
画像理解
画像理解のテストでは、漫画の1ページをアップロードして、何について描かれている漫画なのかを説明させています。
この漫画は4つの白黒漫画ページパネルです。物語は学校を中心に展開するようです 生徒や教師などのキャラクターが登場する設定。主な焦点は、女の子と男の子にあります。主人公になります。 女の子は泣いている、そして男は彼女を慰めようとしている。 男も表現してるよショックや驚き。という話のようです。2人のキャラクター間のロマンチックな相互作用。
この漫画では、女の子が友達と一緒にバスケットボールの試合を観戦しています。 女の子は興奮してチームを応援しています。 ゲームと女の子の興奮を漫画で描いています。
この漫画は劇的な緊張感のあるシーンを描いています。 上のパネルでは、2人の女性キャラクターがパネル外の何かにショックを受けているか驚いているように見え、その表情や視線の方向が示しています。 中央のパネルは、一人の女性キャラクターの顔のクローズアップに焦点を当てており、額に汗を浮かべてショックまたは恐怖の表情を示しており、激しいまたは予期せぬ状況に対する反応を示唆しています。 下のパネルには、対立または攻撃の瞬間の 2人の男性キャラクターが示されており、1人のキャラクターが非常に激しい表情で叫び声を上げたり叫んでいたりします。 彼が上げた拳と彼の周囲にある力の線は、彼が戦いの準備ができている、または口頭で強い主張をしていることを示唆しています。 テキストと吹き出しは、場面の物語に寄与する文脈や会話を提供する可能性がありますが、翻訳なしでは、会話やストーリーの詳細はわかりません。 全体として、この漫画は驚きと潜在的な紛争のシーンを描いており、登場人物は強烈な、またはおそらく脅迫的な瞬間に反応しています。
マンガの内容を説明させた結果、緑の文字は正しい回答を示し、赤い文字は間違った回答を示しています。なお、青色のテキストは、いくつかの興味深い見解を反映しているようです。
Gemini ProとQwen-VLは、マンガのストーリー内容を完全に理解できませんでした。一方、GPT-4は各コマの画像の特徴を正確に描写しています。
ちなみに、アップロードしている漫画は「スラムダンク」ですが、タイトルまでは言い当てられないようです。
動画理解
動画理解のテストでは、1本の動画をアップロードして内容を説明させています。
この画像は、霧の日に高速道路を走行する車を描いています。 車はシーンの中央に位置し、霧によって距離感が生まれ、周囲が見えにくくなります。 高速道路は空いているように見え、画像には他の車両は見えません。 車のフロントガラスも曇っており、それがシーン全体の雰囲気を高めています。
このビデオには、霧の高速道路を走行する車が映っています。 ドライバーはハイビームを使用していますが、視界は依然として非常に低いです。 ドライバーは細心の注意を払い、ゆっくりと運転する必要があります。 また、道路上の他の車両にも注意し、必要に応じて停止できるように準備しておく必要があります。
このビデオクリップは、濃霧の状況下で高速道路を運転している誰かの一人称視点を示しているようです。 霧により視界が大幅に低下し、風景が覆われ、前方の道路の視界が制限されます。 この映像は、霧の濃度がわずかに変動しているように見えるものの、一貫して長距離の視界を妨げている様子を順番に示しています。 このような状況では、運転はさらに危険になります…
それぞれのモデルに動画の内容を説明させた結果、いずれも霧の状態を正しく認識できるが、Geminiのみ「ドライバーはハイビームを使っている」と説明するなど、ハルシネーションを起こしています。
ただ、基本的に、動画の理解力はどの言語モデルでも高いことがわかりました。
大規模言語モデルの検証テストの結果
GPT-4とGemini、オープンソースのモデルを比較した結果、研究チームは14の実証的な発見を得ています。今回の論文で解説している14の発見を以下にまとめました。
- 全体的なテキストとコーディング能力はGPT-4が最も優れている
- 多言語の翻訳能力はGeminiがほかのモデルを上回っている
- 数学と推論の能力はどのモデルも近い性能
- 各分野の専門的知識ではGPT-4が唯一応用方法まで理解している
- テキストとコードの信頼性と安全性ではGemini Proがほかより劣っている
- テキストの因果関係では異なるモデルの回答に明確なパターンがある
- コードの因果関係はGPT-4の説明が優れているが要求内容を正確に認識するのに苦労している
- 画像の理解能力は正確な位置特定を必要とするタスクで改善の余地がある
- 複数画像のタスクはMLLMにとって困難
- 画像の信頼性ではGPT-4がより正確で信頼できるアプローチを示した
- 画像との因果関係ではGemini Proの性能がGPT-4よりも大きく劣っている
- 動画の生成能力ではビデオ特化型のオープンソースのMLLMがほかのモデルより優れた性能を発揮した
- 動画の信頼性ではGPT-4が詳細を解読する能力に優れている
- 動画の因果関係はどのモデルでも有効な回答を生成できなかった
今回の検証の結果、ほとんどのテストケースでは、GPT-4がほかのモデルを上回っていることがわかりました。一般的なテキスト生成やコーディング、画像や動画の生成といった特殊なタスクにおいても、GPT-4は優れた性能を示しています。
ただし、すべての検証結果において満足のいく結果を得られたわけではないので、今後改善すべき点が浮き彫りになったようです。以下では、テキスト・コード・画像・動画の4分野に分けて、それぞれの検証結果を詳しく解説していきます。
テキスト分野の検証結果
テキスト分野の検証結果では、多くのテストケースにおいてGPT-4が優れた性能を発揮しています。とくに、GPT-4は医療・経済・学問などの専門的な知識を理解する能力に長けており、専門的な分野の問題を正しく解決するために知識を応用できるようです。
ただし、数学と推論の能力はどのモデルも近い性能で、多言語の翻訳能力においてはGeminiがほかのモデルを上回っているとのことでした。とくに、慣用句のニュアンスや英語文の複雑な構造を正しく理解し、正確に翻訳できることがわかっています。
問題: 次の英語の文章を中国語に訳してください。
- Give me a bell – 私に連絡して
与我联系 – 私と連絡を取って - Have a gander – ちょっと見て
看看 – 少し見てみて - Give it a shot – 試してみて
试一试 – 一度試してみて - Don’t be a chicken – 臆病になるな
别像个胆小鬼 – 臆病者のようにならないで - Budge up – 少し動いて
靠边一点 – 少し端に寄って - Brush off – 払いのける
拂去 – 払い除ける - My hands are tied – 手が縛られている(どうにもできない)
我束手无策 – 私は手が出せない(どうにもできない) - Boss around – 人をあれこれ命令する
吆五喝六 – 人に命令を吹きかける - Beat around the bush – 遠回しに言う
拐弯抹角 – 遠回しに話す - Jerk one’s chain – からかう
捉弄 – 人をからかう - Can’t be arsed – めんどくさい(興味がわかない)
无法激起兴趣 – 興味が湧かない - Keep one’s shirt on – 冷静を保つ
保持理智 – 冷静を保つ - Sounds a bit dodge – 少し怪しい
听起来有点困难 – 少し難しいように聞こえる - Sounds wicked – かなり悪そうだ
听起来很邪恶 – とても悪いことのように聞こえる - Throwing a wobbly – キレる
发抖 – 震える - Float your boat – あなたの好きなように
随心所欲 – 自分の好きなように - Don’t get your knickers in a twist – そんなに動揺しないで
别那么紧张 – そんなに緊張しないで - Off to see a man about a dog – 犬のことである人に会いに行く(理由をぼかして言う)
去看一位关于狗的男人 – 犬に関する人に会いに行く - Bob’s your uncle – それで万事解決
人人都帮得了你 – 皆があなたを助けることができる - Her Majesty’s Pleasure – 女王陛下の機嫌次第で
女王陛下的荣幸 – 女王陛下の光栄である
- Give me a bell – 私に連絡して
给我一个铃铛 – 私に鈴を一つくれ - Have a gander – ちょっと見て
看一看 – 少し見てみる - Give it a shot – 試してみて
试一试 – 一度試してみる - Don’t be a chicken – 臆病になるな
不要当懦夫 – 臆病者にならないで - Budge up – 少し動いて
挪一挪 – 少し動いて - Brush off – 払いのける
刷掉 – 払い除ける - My hands are tied – 手が縛られている(どうにもできない)
我束手无策 – 手が出せない(どうにもできない) - Boss around – 人をあれこれ命令する
对别人发号施令 – 他人に命令を下す - Beat around the bush – 遠回しに言う
拐弯抹角 – 遠回しに話す - Jerk one’s chain – からかう
戏弄某人 – 誰かをからかう - Can’t be arsed – めんどくさい(興味がわかない)
懒得动 – 動くのが面倒 - Keep one’s shirt on – 冷静を保つ
保持冷静 – 冷静を保つ - Sounds a bit dodge – 少し怪しい
听起来有点可疑 – 少し怪しく聞こえる - Sounds wicked – かなり悪そうだ
听起来很邪恶 – とても悪いことのように聞こえる - Throwing a wobbly – キレる
发脾气 – 怒りを爆発させる - Float your boat – あなたの好きなように
让你的船漂流 – あなたの船を漂わせる - Don’t get your knickers in a twist – そんなに動揺しないで
别慌张 – 慌てないで - Off to see a man about a dog – 犬のことである人に会いに行く(理由をぼかして言う)
去找一个人谈谈狗的事情 – 犬のことについてある人と話をするために行く - Bob’s your uncle – それで万事解決
鲍勃是你叔叔 – ボブがあなたの叔父です - Her Majesty’s Pleasure – 女王陛下の機嫌次第で
陛下的喜悦 – 陛下の喜び
- Give me a bell – 私に電話して
给我一个电话 – 私に電話をして - Have a gander – ちょっと見て
来看看 – 来て見て - Give it a shot – 試してみて
试一试 – 試してみて - Don’t be a chicken – 弱くなるな
不要软弱 – 弱くならないで - Budge up – 動いて
挪动 – 動いて - Brush off – 無視する
忽略 – 無視する - My hands are tied – 手が縛られている
我的手被绑架了 – 私の手は拘束されている - Boss around – 支配する
挑战 – 挑戦する - Beat around the bush – 遠回しに話す
迂回说 – 回りくどく話す - Jerk one’s chain – 悩ます
惹不谐 – 不快を引き起こす - Can’t be arsed – めんどくさい(興味がわかない)
I apologize, but I cannot provide a translation for thephrase”Can’tbe arsed” …(consider the word impolite
申し訳ありませんが、「不快感を与えることはできません」というフレーズの翻訳を提供することはできません…(失礼な言葉だと考えてください) - Keep one’s shirt on – 落ち着いて
穿著衣服 – 服を着て - Sounds a bit dodge – 少し変だ
声音有些不寻常 – 声が少し変 - Sounds wicked – 悪そうに聞こえる
声音很邪恶 – 音が悪そう - Throwing a wobbly – キレる
发脾气 – 怒りを爆発させる - Float your boat – 船を漂わせる
您的船会漂浮 – あなたの船が漂う - Don’t get your knickers in a twist – パニックにならないで
不要让你的内衣缠绕 – 下着を絡ませないで - Off to see a man about a dog – 犬に関する人に会いに行く
去看一个人关于一只狗 – 犬についてある人に会いに行く - Bob’s your uncle – ボブがあなたの叔父さんだ
布朗是你的叔叔 – ブラウンはあなたの叔父です - Her Majesty’s Pleasure – 女王陛下のご意志
女王陛下的旨意 – 女王陛下の意向
一方、GPT-4やオープンソースのモデルは、上記の画像が示しているように、直訳的な意味のみを翻訳することが多いようです。
コード分野の検証結果
コーディング能力では、GeminiがGPT-4よりはるかに劣っているものの、オープンソースのLlama-2-70B-ChatやMixtral-8x7B-Instruct-v0.1よりは優れていることがわかりました。
ただし、安全性や信頼性という観点ではGeminiがほかのモデルよりも劣っており、とくに差別・ステレオタイプ・違法行為などを識別するのに苦労するようです。
Gemini Proも強力なコード生成能力を持っているものの、テストプロンプトの安全リスクを特定することが難しく、社会倫理違反や安全上の極端なリスクを抱えてしまいます。
画像分野の検証結果
画像の理解能力の検証結果では、どのモデルも画像の主要な内容を理解することに熟達した能力を持っていることがわかりました。ただし、検出のような正確な位置特定を必要とするタスクにおいては、改善の余地が残されているようです。
また、複雑な推論を伴う複数画像のタスクを処理する能力はいずれのモデルも低く、依然として課題に直面していることがわかっています。とくに、空間的な想像力を必要とする以下の画像のようなタスクはMLLMにとって困難とのことです。
上記画像の青枠で囲んだプロンプトを日本語に翻訳してみました。
Question:あなたは、ロボットアームとグリッパーが付いた環境に置かれます。言語で書かれたゴール(タスク記述)とRGB画像とが与えられた。段階的にサブタスクに分解することが要求される。段階的に分解して、最終的に達成できるようにすること。あなたはサブタスクで私に答えるべきです。
タスクを完了するために、サブタスクのリストを段階的に計画してください。タスクの目標を達成するために、段階的にサブタスクのリストを計画すべきである。あなたは、画像内の同じカテゴリのオブジェクトに注目し画像内の同じカテゴリーのオブジェクトに注目し、その属性を詳細に記述することで、それらを区別する。
色、形、大きさなどの属性を詳しく説明すること、形、大きさなど。さらに、いくつかのタスクは異なるシーンで実行されます。シーンが出力に影響を与えるかどうかシーンが出力に影響を与えるかどうかに注意する。サブタスクに影響を与えるかどうかに注意する。タスクの説明 プールボールを打つ。
正直、人間の力でも理解することが難しい命令分ですが、大規模言語モデルの力をもってしても理解できなかったようです。複数画像のタスク処理に関して、今後改善することを期待しましょう!
動画分野の検証結果
動画生成の能力では、動画生成に特化したオープンソースモデルがGPT-4とGeminiの性能を上回っています。ただ、動画コンテンツの理解力においてはGPT-4がGeminiを上回っており、将来の出来事を予測するではGeminiの性能が際立っていたようです。
一方、動画の信頼性テストでは、GPT-4が詳細を解読する能力に優れていることがわかりました。GPT-4は余計な推論を控え、あいまいな情報に対する対処能力が高いようです。
また、GPT-4は、不適切なプロンプトを即座に認識して拒否する能力も高く、安全性が高いことも判明しています。
ただ、動画の因果関係を説明するテストでは、どのモデルも有効な回答を生成できませんでした。動画の因果関係を説明する能力においては、今後改善の余地があるとのことです。
なお、生成AIの法人利用方法が詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIの法人利用方法10選!法人向け生成AIツールや実際の事例も解説
大規模の言語モデルの今後に期待しよう!
今回の論文に記載されていた実験内容や結果を参照したところ、筆者も改めてGPT-4の性能の高さを再確認できました。
ただ、用途によってはGeminiやオープンソースのMLLMが優れていることもあるので、今回のテスト結果を踏まえて使用するモデルを使い分けるとさらにタスクを円滑に処理できます。
また、テストによっては、どの言語モデルでも解決できなかった問題があったため、該当した部分については今後の課題と認識しています。
これまでもGPT-4を中心に、大規模言語モデルは進化を繰り返してきたので、今後のアップデートで改善されることを期待しましょう!
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。