【GAIA】LLM専用のIQテストでGemini、ChatGPT、Claude 2の性能を比較してみた

GAIA LLM Gemini ChatGPT Claude-2

GAIAは、MetaやHugging Faceの研究者らが新しく開発した、人間にとって日常的で簡単なタスクを大規模言語モデル(LLM)がどれほどこなせるか評価するためのベンチマークです。

このベンチマークは、従来のベンチマークは人間にとって困難なタスクをAIに解かせるものばかりで、果たしてそれで得られた結果は、本当に人間のニーズに合ったLLMを正確に評価しているのか?という疑問から開発されました。

GAIAを用いれば、まさに映画「マトリックス」で主人公たちが主人公たちがAIによって支配された仮想世界の真実を理解し、行動を選択するように、AIの真の性能を理解して、最適な選択ができるようになります。

しかし、このベンチマークを使った結果は、人間が92%正解できたのに対して、プラグインを追加したGPT-4でなんと15%程の正解率に留まるという意外な結果になっています。

今回は、GAIAの概要や実際にタスクをピックアップしていくつかのLLMに解かせてみた結果などをご紹介します。

是非最後までご覧ください!

なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

目次

GAIAの概要

GAIAは、MetaやHugging Faceの研究者らが新しく開発した、人間にとって日常的で簡単なタスクを大規模言語モデル(LLM)がどれほどこなせるか評価するためのベンチマークです。

このベンチマークは、従来のベンチマークは人間にとって困難なタスクをAIに解かせるものばかりで、果たしてそれで得られた結果は、本当に人間のニーズに合ったLLMを正確に評価しているのか?という疑問から開発されました。

そんなGAIAには、466の質問とその解答が含まれており、3段階の難易度で構成されています。

これらの質問は基本的にはテキストベースであり、人間にとっては日常的に起こり得るタスクのため、質問は短く、一つの答えを求めるように設計されており、検証が容易という特徴があります。

GAIAには、以下のような問題があります。

レベル1
もし、エリウド・キプチョゲがマラソンの記録更新ペースを無限に維持できたとしたら、地球と月が最も接近する距離を走るのに何千時間かかるでしょうか?計算の際には、ウィキペディアの月のページにある近地点の最小値を使用してください。計算結果は1000時間単位で四捨五入し、カンマ区切りは使わないでください。
回答:17

レベル3
1959年7月2日、脱水と記載された加工果物、野菜、その他特定の製品の等級に関する米国規格では、「乾燥・脱水セクション」に特に脱水と記載された品目と、「冷凍・冷蔵セクション」に品目名全体が記載された品目を考慮するが、「冷蔵」と記載されている場合は考慮しない。2023年8月現在、1959年の規格に記載された日付以降に新版に置き換えられた規格の割合は(パーセント単位で)何パーセントですか?
回答:86

このように、人間ならweb等で検索して計算すれば普通に解けそうなレベルの問題になっています。

しかし、実際にGAIAを使用して行われたベンチマークの結果は、人間が92%正解できたのに対して、プラグインを追加したGPT-4でなんと15%程の正解率に留まるという意外な結果になっています。

GPT-4 Turboの結果はさらに悪く、正答率9.7%になっていて、OpenAIのモデルは全てレベル3の問題の正答率が0%という衝撃的な結果になっています。

人間にはかなり難しいタスクでは高い性能を示す一方、人間が日常的に接するような比較的簡単なタスクでは極端に性能が低くなるという傾向が見られます。

ここからは、GPT-4 TurboとGemini ProとClaude 2.1という代表的な高性能LLMでGAIAの問題を解かせてみて、どのような回答を出力するのか検証します。

なお、Claude2.1について詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Claude 2.1】ChatGPTを超えるAIとなるか?Claude 2の最新モデルをGPT4と比較レビューしてみた

GAIAの使い方

GAIAは、Hugging Faceで公開されており、含まれている問題と回答を確認することができるので、問題をコピペしてLLMに解かせるのが一番シンプルな方法です。

gaia-benchmark/GAIA

それでは早速検証していきましょう!

GAIAを実際に使ってみた

実際にGAIAに含まれている以下のレベル1の問題をGPT4 Turboに解かせてみます。

In Series 9, Episode 11 of Doctor Who, the Doctor is trapped inside an ever-shifting maze. 
What is this location called in the official script for the episode? 
Give the setting exactly as it appears in the first scene heading.

ドクター・フー』のシリーズ9、第11話で、ドクターは絶えず変化する迷路の中に閉じ込められた。このエピソードの公式台本では、この場所は何と呼ばれていますか?最初の場面の見出しに登場するように、設定を正確に述べなさい。

答えは「THE CASTLE」です。

結果は以下のようになりました。


In Series 9, Episode 11 of Doctor Who, titled "Heaven Sent," the location in which the Doctor is trapped is not specifically named in the first scene heading of the official script. 
The script begins with a monologue by the Doctor rather than a description of the setting. 
You can view the full script for more details on the Subs Like Script website: Heaven Sent Script​​.

ドクター・フー』のシリーズ9、エピソード11、タイトルは “Heaven Sent”(天国の使者)で、公式脚本の最初の場面の見出しには、ドクターが閉じ込められた場所の名前は特に書かれていません。脚本は舞台の説明ではなく、ドクターの独白で始まります。詳しくはSubs Like Scriptのサイトで脚本全文を見ることができます: ヘブン・セントの脚本

このように、GPT-4 Turboは「ドクターが閉じ込められた場所の名前は特に書かれていません。」と回答しており、不正解です。

人間であれば、調べればすぐに正解できるような問題ですが、不正解でした。

どうやらLLMだと極端に正答率が悪くなるという特徴は本当のようです。

では、GPT-4以外のLLMではどうなのでしょうか?

ここからは、GPT-4 Tirboに加えて、同等程度の性能をもつGemini ProとClaude2.1にもGAIAの問題をいくつか解かせてみて、どのような結果になるのか検証します。

GAIAは本当にLLMの正答率が低いのか検証してみた

GAIAの問題をレベル別にピックアップして各LLMに解かせてみたいと思います。

レベル1

以下の問題に回答してもらいます。

How many studio albums were published by Mercedes Sosa between 2000 and 2009 (included)? 
You can use the latest 2022 version of english wikipedia.

メルセデス・ソーサが2000年から2009年の間に発表したスタジオ・アルバムの枚数は?最新の2022年版英語版ウィキペディアをご利用ください。

答え:3枚

GPT-4 Turbo


Between 2000 and 2009, Mercedes Sosa released three studio albums. 
These were "Corazón Libre" in 2005, "Cantora 1" in 2009, and "Cantora 2" also in 2009

2000年から2009年にかけて、メルセデス・ソーサは3枚のスタジオ・アルバムをリリースした。2005年の『Corazón Libre』、2009年の『Cantora 1』、そして同じく2009年の『Cantora 2』である。

Gemini Pro


According to Wikipedia, Mercedes Sosa published 5 studio albums between 2000 and 2009 (included):

Corazón Libre (2005)
Cantora 1 (w/various artists) (2009)
Cantora 2 (w/various artists) (2009)
Censurada (2011)
Lucerito (2015)

ウィキペディアによると、メルセデス・ソーサは2000年から2009年の間に5枚のスタジオ・アルバムを発表した(含む):

コラソン・リブレ(2005年)
カントーラ1(様々なアーティストと共演)(2009年)
カントーラ2(様々なアーティストと共演)(2009年)
センスラーダ(2011年)
ルセリート(2015)

Claude2.1

You're right, Mercedes Sosa released three studio albums between 2000-2009:

"Corazón Libre" in 2005
"Cantora 1" in 2009
"Cantora 2" in 2009

She released the albums "Corazón Libre" and the two-volume "Cantora" series in the 2000s. "Corazón Libre" came out in 2005, while "Cantora 1" and "Cantora 2" were both released in 2009. 
So that's three total studio albums from Mercedes Sosa during that decade.

その通り、メルセデス・ソーサは2000年から2009年にかけて3枚のスタジオ・アルバムをリリースしている:

「2005年の “Corazón Libre
「2009年「カントーラ1
「2009年「カントーラ2

彼女は2000年代にアルバム “Corazón Libre “と2巻の “Cantora “シリーズをリリースした。「Corazón Libre』は2005年、『Cantora 1』と『Cantora 2』は2009年にリリースされた。つまり、この10年間にメルセデス・ソーサが発表したスタジオ・アルバムは全部で3枚ということになる。

結果は、GPT-4 TurboとClaude2.1は正解で、Gemini Proは2015年のものまで出力してしまってるので、間違いです。

Gemini Proも、アルバムの名前は合っているので、Wikipediaから参照できているようですが、指示を理解しきれていないようです。

レベル2

以下の問題に回答してもらいます。

Given $x_0 = -5$ and $f(x) = x^3 + 4x^2 - 3x + 8$, what is the smallest $n$ where using Newton's Method $n = n+1$ after rounding to four decimal places?

$x_0 = -5$ および $f(x) = x^3 4x^2 – 3x 8$ の場合、小数点以下 4 桁に四捨五入した後のニュートン法 $n = n 1$ を使用した場合の最小の $n$ はいくらですか?

答え:2

GPT-4 Turbo

Using Newton's Method with the initial guess \( x_0 = -5 \) for the function \( f(x) = x^3 + 4x^2 - 3x + 8 \), the smallest \( n \) for which the method converges to a solution after rounding to four decimal places is 2 iterations. 
The solution found is approximately \(-309711/62744\).

関数(f(x) = x^3 + 4x^2 – 3x + 8 ㎟)に対して、初期推測値(㎟( x_0 = -5 ㎟))を用いたニュートン法で、小数点以下4桁に丸めた後、解に収束する最小の㎟( n ㎟) は2回である。求めた解は約 (-309711/62744) である。

Gemini Pro

The smallest n is 2.

Python
def f(x):
  return x**3 + 4*x**2 - 3*x + 8

def df(x):
  return 3*x**2 + 8*x - 3

x = -5
n = 0
while abs(f(x)) > 0.0001:
  x = x - f(x) / df(x)
  n += 1

print(n)

最小の n は 2 です。

Python
def f(x):
return x3 + 4x2 – 3x + 8

def df(x):
return 3x2 + 8x – 3

x = -5
n = 0
while abs(f(x)) > 0.0001:
x = x – f(x) / df(x)
n += 1

print(n)

Claude2.1

Okay, let's go through this step-by-step:
$x_0$ is given as -5.
$f(x)$ is the function $f(x) = x^3 + 4x^2 - 3x + 8$.

We're using Newton's Method to find the roots of $f(x)$, where the iteration formula is:
$x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}$
Where $f'(x)$ is the derivative of $f(x)$. Computing this:
$f'(x) = 3x^2 + 8x - 3$

Starting with $n=0$ and $x_0 = -5$:
$x_1 = x_0 - \frac{f(x_0)}{f'(x_0)} = -5 - \frac{(-125+100+15+8)}{-75} = -2$

$x_2 = x_1 - \frac{f(x_1)}{f'(x_1)} = -2 - \frac{(-8+32-6+8)}{12} = \boxed{-1}$

Rounding $x_2$ to 4 decimal places gives -1.0000.

Therefore, the smallest $n$ where $x_n$ is constant to 4 decimal places is $n=2$.

さて、これを段階的に見てみましょう: $x_0$ は -5 として与えられます。 $f(x)$ は関数 $f(x) = x^3 4x^2 – 3x 8$ です。 ニュートン法を使用して $f(x)$ の根を求めます。反復公式は次のとおりです: $x_{n 1} = x_n – \frac{f(x_n)}{f'(x_n)}$ $f'(x)$ は $f(x)$ の導関数です。 これを計算します: $f'(x) = 3x^2 8x – 3$ $n=0$ および $x_0 = -5$ から始めます: $x_1 = x_0 – \frac{f(x_0)}{f'(x_0 )} = -5 – \frac{(-125 100 15 8)}{-75} = -2$ $x_2 = x_1 – \frac{f(x_1)}{f'(x_1)} = -2 – \ frac{(-8 32-6 8)}{12} = \boxed{-1}$ $x_2$ を小数点以下 4 桁に四捨五入すると、-1.0000 になります。 したがって、$x_n$ が小数点第 4 位まで定数である最小の $n$ は、$n=2$ になります。

レベル2なだけあり、かなり難しい問題でしたが、やはりこの手のLLMは計算は得意なのか、全モデル正解しています。

最後は、GPT-4の正答率が0%だったレベル3の問題を解かせてみます。

レベル3

以下の問題に回答してもらいます。

The Latin root of the Yola word "gimlie" shares a spelling with a Spanish word. What is the Google translation of the source title for the 1994 example sentence for that word in the Collins Spanish-to-English dictionary online? 
Answer in plain text, without punctuation.

ヨラ語のラテン語の語源「ギムリエ」はスペイン語と綴りが似ています。 コリンズのスペイン語から英語へのオンライン辞書にあるその単語の 1994 年の例文のソース タイトルの Google 翻訳は何ですか? 句読点のないプレーンテキストで回答してください。

答え:The World of the Twenty First Century

GPT-4 Turbo

I was unable to access the Collins Spanish-to-English dictionary online to find the 1994 example sentence for the word "gimlie." 
If you have access to this dictionary or can provide the sentence, I can assist further with translating the source title. 
Alternatively, you might directly search the Collins dictionary if you have access.

コリンズのスペイン語から英語へのオンライン辞書にアクセスして、「ギムリー」という単語の 1994 年の例文を見つけることができませんでした。
この辞書にアクセスできる場合、またはその文を提供していただければ、ソースタイトルの翻訳をさらにお手伝いできます。
アクセスできる場合は、コリンズ辞書を直接検索することもできます。

Gemini Pro

Unfortunately, I don't have enough information to answer this question. I need more context, such as:

What is the Google translation of the source title?
What is the 1994 example sentence for the Yola word "gimlie"?
What is the Spanish word that shares a spelling with the Latin root of "gimlie"?

Please provide me with the missing information so I can help you find the answer.

残念ながら、この質問に答えるのに十分な情報がありません。 次のような追加のコンテキストが必要です。

ソースタイトルのGoogle翻訳は何ですか?
ヨーラ語の「ギムリー」という 1994 年の例文は何ですか?
ラテン語の語源「gimlie」と綴りを共有するスペイン語の単語は何ですか?

答えを見つけるお手伝いをさせていただきますので、不足している情報をお知らせください。

Claude2.1

Unfortunately I do not have enough information to definitively state the Google translation of the source title for the 1994 example sentence from the Collins Spanish-to-English dictionary that shares a spelling with the Latin root of the Yola word "gimlie".  
Yola is an extinct language formerly spoken in parts of Ireland, and without more context on the specific Latin root of "gimlie" and the corresponding Spanish word it shares a spelling with, I cannot reliably identify the relevant dictionary example sentence and source title.  
I searched online for connections between Yola language words, Latin roots, and Spanish vocabulary but did not find information to make a confident match. Without additional details to clarify the linkage you have in mind, I am unable to provide a reliable translation of the requested dictionary source title. Please let me know if you can provide any clarifying details; 
otherwise I apologize that I do not have sufficient information to determine the answer.

残念ながら、ヨラ語のラテン語根「gimlie」と綴りを共有するコリンズのスペイン語-英語辞典の1994年の例文のソースタイトルのGoogle翻訳を明確に述べるのに十分な情報がありません。 ヨーラ語は、かつてアイルランドの一部で話されていた絶滅した言語であり、「ギムリー」の特定のラテン語の語源と、それに対応する綴りを共有するスペイン語の単語についての詳しい文脈がなければ、関連する辞書の例文とソースのタイトルを確実に特定することはできません。 ヨラ語の単語、ラテン語の語源、スペイン語の語彙の間の関連性をオンラインで検索しましたが、確実に一致する情報は見つかりませんでした。 あなたが念頭に置いているつながりを明確にする追加の詳細がなければ、要求された辞書ソースのタイトルの信頼できる翻訳を提供することができません。 明確な詳細を提供できる場合はお知らせください。 それ以外の場合は、回答を決定するのに十分な情報がないことをお詫び申し上げます。

結果は、どれも情報を見つけてくることができず回答できませんでした。

この情報はネットで調べればちゃんと出てくるので、この問題からも人間が簡単にできるタスクがLLMにはできないことが分かります。

今回の検証の結果をまとめると、このベンチマークにある問題は、ネットで調べれば答えが出てくるようなものばかりですが、LLMは間違ったことを出力したり、回答できなかったりしました。

一方、計算問題についてはやはりLLMにとっては得意分野なようで、今回検証した計算問題は全モデル正しい出力をしました。

この結果から言えることは、GAIAはLLMが日常的なタスクへの対応力に欠けていることを示しており、今後はこのベンチマークがLLMの性能を測るうえで主流になると思います。

最後に今回の比較結果を表にまとめます。

GAIAレベルGPT-4 TurboGemini ProClaude2.1
レベル1正しい回答が出力された正しい回答を含んでいるが、指定した範囲を超えていた正しい回答が出力された
レベル2正しい回答が出力された正しい回答が出力された正しい回答が出力された
レベル3回答できなかった回答できなかった回答できなかった

なお、Gemini Proについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Gemini】GPT-4の最大の対抗馬GoogleのGemini!使い方〜GPT-4との性能比較まで

まとめ

GAIAは、MetaやHugging Faceの研究者らが新しく開発した、人間にとって日常的で簡単なタスクを大規模言語モデル(LLM)がどれほどこなせるか評価するためのベンチマークです。

このベンチマークは、従来のベンチマークは人間にとって困難なタスクをAIに解かせるものばかりで、果たしてそれで得られた結果は、本当に人間のニーズに合ったLLMを正確に評価しているのか?という疑問から開発されました。

実際に使ってみた感想は、確かに人間であれば調べればすぐに答えられそうな問題も、検索しても答えられなかったり、間違った解答を出力してしまっており、今後のLLM開発において重要なベンチマークになると感じました。

このベンチマークを使えば、AIの真の性能を理解して、最適な選択ができるようになりそうです。

サービス紹介資料

【無料】2023年2月版生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIの業務活用コンサルティング

・システム間API連携

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • ゆうや

    ロボット工学専攻。 大学時代は、対話ロボットのための画像キャプションの自動生成について研究。 趣味は、サウナとドライブ。

  • URLをコピーしました!
  • URLをコピーしました!
目次