【Gemini Ultra 1.0 VS GPT-4】史上最強LLMの性能を比較したら普通にGPT-4の方がすごかった件

AI応用編

2024-02-152024-07-06

WEELメディア事業部LLMライターのゆうやです。

みなさん、ついにGoogleの「Gemini Ultra 1.0」が使用できるようになりました！

月額19.99ドルで利用できる「Gemini Advanced」に登録することで使用でき、ChatGPT Plusよりも少し安くなっています。

当記事では早速、Gemini AdvancedのGemini Ultra 1.0とChatGPT PlusのGPT-4の性能を比較していきます。

Gemini Advancedの概要や詳しい機能については、こちらの記事をご覧ください。
是非最後までご覧ください！

なお弊社では、ChatGPT / Geminiの社内活用についての無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Gemini Ultra 1.0の概要

Gemini Ultra 1.0は、Googleが開発したマルチモーダル生成AI（MLLM）「Gemini」シリーズの最高峰モデルで、現時点で最高クラスの性能を持つマルチモーダル生成AIであることは間違いないです。

Gemini Ultra — 非常に複雑なタスクに対応する、高性能かつ最大のモデル
Gemini Pro — 幅広いタスクに対応する最良のモデル（次期型は1.5 pro）
Gemini Nano — デバイス上のタスクに最も効率的なモデル

そんなGemini Ultra 1.0は、あのGPT-4すら上回る性能を有しているとされ、以下の画像のようにほとんどのベンチマークでGPT-4を上回るスコアを獲得しています。

引用元：https://japan.googleblog.com/2023/12/gemini.html

具体的には、性能比較全32項目のうち30項目で、GPT-4に勝利し、理数&人文で全57科目の問題集「MMLU」では、専門家にも勝利するほどのスコアを獲得しています。

参考記事：最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに

このように圧倒的な性能を持っているGemini Ultra 1.0ですが、ベンチマークではなく、実際に使った時の性能はどうなのか気になりませんか？

そこで、今回はGemini Ultra 1.0とGPT-4に同じプロンプトを入力して、得られる結果を比較して、本当に高性能なのはどちらか検証していきます。

なお、Gemini Ultraは英語に最適化されて構築されていますが、対応していれば他の言語（日本語にも対応）でも問題なく使用できます。

まずは、Gemini Ultra 1.0で使える便利機能である、Google MapやGoogleスプレッドシートなどのGoogle サービスとの連携機能をご紹介します！

なお、Gemini ProとGPT-4の比較した詳しく結果を知りたい方は、下記の記事を合わせてご確認ください。
→【Google Gemini VS OpenAI ChatGPT】史上最強のLLMの違いや性能を徹底比較

Gemini Ultra 1.0とGoogleサービスの連携

Gemini Ultra 1.0は、高性能なだけでなく、各Googleサービスとの連携ができることが大きな強みです。

実際にこの機能を使用したユーザーからは驚嘆の声が上がっています！

Gemini Advanced 、Google Mapと連携してえげつない性能になっている pic.twitter.com/wvuAOrE4KP
— あるふ (@alfredplpl) February 8, 2024

これらの連携機能をいくつかピックアップして紹介します。

なお、連携機能を使用するにはテキストボックスで“@”を入力します。

Google Map

まずは、東京で一番おすすめの観光スポットを紹介してもらいます。

東京で一番おすすめのすし屋の住所を教えて

すると、このようにGoogleマップの評価が4.0以上のすし屋をいくつか紹介して、その住所をGoogleマップでピン付けしてくれました。

この機能はGoogleだからできることであり、ChatGPTなどのどれだけ高性能なAIもできない非常に便利な機能ですよね！

Google スプレッドシート

次に、日本の都市人口ランキング上位10都市を表にして、スプレッドシートに出力してもらいます。

日本の都市人口ランキング上位10都市を表にして、スプレッドシートに出力して

結果はこのように、直接スプレッドシートを作成して出力してはくれませんでしたが、表をクリックすることで作成できます。

今後も様々なGoogleサービスとの連携が進むそうなので、さらに便利になりそうですね！

アップデートが待ち遠しいです。

Gemini Ultra 1.0の使い方

Gemini Ultra 1.0は、現在Gemini Advancedという生成AIサービスの中に組み込まれていますが、Gemini Advancedを使用するにはGoogle Oneの有料プラン「AI Premium」への登録が必要になります。

この「AI Premium」の料金は以下の通りです。

	詳細
料金	¥2900/月（$19.99/month）
特典	初回2ヶ月無料
支払い方法	・クレジットカード（American Express / Visa / Mastercard / JCB）・PayPal ・PayPay ・Google Play ギフトコード

Gemini Ultra 1.0は、以下のリンクにアクセスして、「AI Premium」にアップグレードすることで使用できます。

Gemini Advanced

それでは早速GPT-4との比較検証を行っていきましょう！

なお、Geminiの活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Google Gemini Bardのおすすめ活用事例】GPT-4超えAIの仕事が鬼捗る使い方10選

Google Gemini Ultra 1.0とOpenAI GPT-4の性能を比較してみた！

ここからは、Gemini Advancedで使用できるGemini Ultra 1.0と、ChatGPT Plusで使用できるGPT-4を以下の項目で比較していきます。

コード生成
東京大学の理系数学入試問題
画像生成
画像認識
論文の検索と要約
出力の精度

Gemini Ultraは、特にコーディングや計算能力がGPT-4を上回るとされているのでどのような結果になるのか楽しみですね！

コード生成

以下のプロンプトを入力して、Gemini UltraとGPT-4のコーディング能力を比較します。

じゃんけんゲームのプログラムをPythonで生成して

結果はこのようになりました。

Gemini Ultra 1.0

Geminiは、以下のようにrandomモジュールを使用したコードを生成してくれました。

import random

# 手のリスト
hands = ["グー", "チョキ", "パー"]

# コンピュータの手をランダムに生成
computer_hand = random.randint(0, 2)

# プレイヤーの手を入力
while True:
  player_hand = input("あなたの出す手を選んでください (0:グー, 1:チョキ, 2:パー): ")
  try:
    player_hand = int(player_hand)
    if 0 <= player_hand <= 2:
      break
  except ValueError:
    pass
  print("無効な入力です。 0から2までの数字を入力してください。")

# 勝敗判定
result = (player_hand - computer_hand) % 3

# 結果表示
print("コンピュータの手は {} です。".format(hands[computer_hand]))
if result == 0:
  print("あいこです！")
elif result == 1:
  print("あなたの勝ちです！")
else:
  print("あなたの負けです…")

このコードを実行すると…

ちゃんとじゃんけんをすることができました！

特に、グー、チョキ、パーに数字を割り振って入力しやすくしてくれているところが非常にいいですね！

GPT-4

GPT-4もGeminiと同様に、randomモジュールを使用したコードを生成してくれました。

import random

# じゃんけんの手の選択肢
choices = ["グー", "チョキ", "パー"]

# ユーザーの入力
user_choice = input("グー、チョキ、パーから選んでください: ")

# コンピュータの選択
computer_choice = random.choice(choices)

print(f"あなたの選択: {user_choice}, コンピュータの選択: {computer_choice}")

# 勝敗の決定
if user_choice == computer_choice:
    print("引き分けです！")
elif (user_choice == "グー" and computer_choice == "チョキ") or \
     (user_choice == "チョキ" and computer_choice == "パー") or \
     (user_choice == "パー" and computer_choice == "グー"):
    print("あなたの勝ちです！")
else:
    print("あなたの負けです。")

これも実行してみると…

こちらもちゃんとじゃんけんをすることができました！

ただ、GPT-4のものではグー、チョキ、パーと入力しないといけないので、その点はGeminiの方がユーザー目線でコードを生成してくれていると感じました。

東京大学の理系数学入試問題

続いて、以下の東京大学の理系数学入試問題を解かせてみようと思います。

黒玉3個、赤玉4個、白玉5個が入っている袋から玉を1個ずつ取り出し、取り出した玉を順に横一列に12個並べる。ただし、袋から個々の玉が取り出される確率は等しいものとする。

(1) どの赤玉も隣り合わない確率pを求めよ。

この問題の解答です。

引用元：https://math.nakaken88.com/problem/tokyo-u-r-2023-2/

そこまで難しくはなさそうですが、果たしてGemini UltraとGPT-4は正しく回答できるのでしょうか。

結果を見ていきましょう。

Gemini Ultra 1.0

Geminiは、以下のような回答を出力しました。

計算過程も細かく出力してくれていますが、最終的な回答は18144/39600となっており、不正解です。

正直このくらいの難易度の問題であればすんなり解けると思っていたので、この結果は意外でした。

GPT-4

GPT-4は、以下のような回答を出力しました。

GPT-4は正しい解答を出力してくれました！

Geminiと同様、詳細な計算過程を示してくれており、文句なしです。

この比較では、GPT-4の方がGemini ultraに比べて計算能力が高いという結果になりました。予想していなかった結果なので、少し驚きです。

画像生成

次に、以下のプロンプトを入力して画像を生成してもらいます。

なお、Gemini Ultraの画像生成は日本語のプロンプトに未対応ですので、今回は両方とも英語のプロンプトを入力します。

Generating images of a magical fairy tale land, where there is a castle among trees with fantastic light and and flowers

幻想的な光とと花のある木々の間に城がある、魔法のおとぎ話の国のイメージを生成して

結果を見ていきましょう。

Gemini Ultra 1.0

以下のように、4枚の画像を生成してくれました。

一番私のイメージに近い画像は左上の画像でした。

今回出力された画像はすべて絵画風になっており、おとぎ話感を演出するようにしているようです。

Geminiのように、複数枚の画像を生成してくれれば、一番自分のイメージに合ったものを選べるので素晴らしいですね！

GPT-4

GPT-4は以下の画像を生成してくれました。

Geminiとは違い1枚の画像しか生成しませんでしたが、プロンプトを忠実に再現して、最も私のイメージに近い高精細な画像を生成してくれました。

この検証の結果は、どちらも優劣つけ難く両者ともに素晴らしい画像生成能力を持っていることが分かりました。

画像認識

次は、以下の画像を入力して、正しく画像を認識して簡単な謎解きができるか検証します。

引用元：https://web.quizknock.com/kyoicih-eigo-83

この謎解きの答えはPlane – e + t = Plantです。

そこまで難しくないですが、正しく解答することができるでしょうか。

Gemini Ultra 1.0

結果は、不正解でした…


The answer is "jet".

The illustration shows an airplane. The word "airplane" can be expressed as "plane". If we add "e" and "t" to "plane", we get "jet".

Therefore, the answer is "jet".

答えは「jet」。

イラストにはairplaneが描かれている。「airplane」は「plane」と表現できる。plane “に “e “と “t “をつけると “jet “になる。

よって、答えは「jet」。

イラストをplaneと認識するところまではよかったのですが、最後にplaneにeとtをつけるとjetになるという意味不明なことをしてしまっています。

正直期待外れで少し残念といった印象です。

GPT-4

GPT-4は、以下のように正しく問題を認識して正しい解答を出力しました！

この画像は、飛行機のイラストから「e」を引き、そして「t」を加えることによって、ある英単語を表すパズルです。

飛行機の英語は "plane" です。そこから「e」を取り除き、「t」を加えると、新しい単語ができます。

"plane" - "e" + "t" = "plant"

答えは "plant"、つまり「植物」という英単語になります。

文句なしの完璧な解答ですね！

この検証では、GPT-4の方が画像内の問題を正しく認識して、解答してくれました。

論文の検索と要約

次に、論文の検索と検索した論文の要約ができるか検証します。

以下のプロンプトを入力します。

LLMがテーマの論文を一つ検索して、その論文を要約して

果たしてどのような結果になるでしょうか。

Gemini Ultra 1.0

このように、実在するLLMに関する論文の要約を出力してくれました！

非常に分かりやすい要約で、LLMというテーマの指定もしっかり守っています。

GPT-4

GPT-4は、なぜか英語で出力されただけでなく、3つの論文の要約が出力されました。

大規模言語モデル（Large Language Model：LLM）の様々な側面を掘り下げた研究論文をいくつか見つけたので紹介したい。

最初の論文は、”Topics, Authors, and Networks in Large Language Model Research： 17KのarXiv論文の調査から得られた傾向」と題された最初の論文は、arXivにおけるLLMに関連する出版パターンの包括的な分析を行っている。LLM論文の割合が急速に増加しており、2023年にはLLMに関連するコンピュータ科学と統計学の論文の割合が大幅に増加することが明らかになった。論文では、この分野で急成長している研究トピックを特定し、自然言語処理のためのニューラルネットワーク、マルチモーダル学習、ナレッジグラフ、質問応答、会話システムに焦点を当てた論文が特に大きく増加していることを指摘している。また、信頼できるAIの重要性や、プライバシーを保護する連合学習、AIの公正性・倫理性・解釈可能性といったトピックへの関心の高まりについても触れている。

つ目の論文「大規模言語モデルの包括的な概要」では、LLMの技術的な詳細に踏み込み、トークン化、注意メカニズム、位置エンコーディングなどの側面について論じている。また、自己注意や交差注意など、LLMで使用される様々なタイプの注意や、LLMの訓練や性能に影響を与える様々な正規化技術についても触れている。この論文では、活性化関数、レイヤーの正規化、分散LLMトレーニングの課題について詳しく述べている。

最後に、「BloombergGPT：金融のための大規模言語モデル “では、金融業界向けにカスタマイズされた500億パラメータモデルの開発について詳述している。BloombergGPTは、汎用的な機能だけに特化するのではなく、またドメイン固有のタスクだけに特化するのでもなく、一般的なNLPベンチマークで競争力を維持しながら、金融ベンチマークで卓越することを目指しています。また、この論文では、BloombergGPTの幅広い研究コミュニティへの貢献についても議論し、このモデルがドメイン固有のタスクに与えた影響、その学習データの独自性、LLM評価メトリクスの進化に焦点を当てています。

これらの要約により、LLM研究の現状を垣間見ることができ、この分野で探求されているトピックの幅広さと技術革新の深さの両方が示される。

LLMというテーマはあっていますが、3つ出力され、その分要約もGeminiのものより簡素になってしまっているので、この検証ではGemini Ultra 1.0の方がよい結果になりました。

出力の精度

最後に、入力したプロンプトについて正しい情報を提供してくれるか検証します。

なお、英語のプロンプトの方が精度の高い出力をしてくれる可能性が高そうなので、この検証は英語で行います。

以下のプロンプトを入力します。

Give me a ranking of the top 5 mountain elevations in Japan.

日本の山の標高ランキングTOP5を教えて

この質問は、一見簡単に答えられそうに思えますが、これまで多くのLLMにこの質問をしてきましたが、ほとんどのモデルが誤った情報を出力しています。

GPT-4も、1世代前のgpt-4-0613では誤った情報を出力しました。

ちなみに、日本の山の正しい標高ランキングTOP5は、

富士山（3,776m）
北岳（3,193m）
奥穂高岳（3,190m）
間ノ岳（3.190m）
槍ヶ岳（3,180m）

です。

果たして結果はどうなるのでしょうか。

見ていきましょう！

Gemini Ultra

なぜか英語のプロンプトでは、以下の画像のように「私は単なる言語モデルであり、理解して応答する能力がないため、それについてはお手伝いできません。」と返答しました。

そこで、日本語プロンプトを入力してみました。

すると、このように情報を提供してくれました。

はい、日本の山の標高ランキングTOP5は以下の通りです。

富士山（ふじさん）: 3,776m
北岳（きただけ）: 3,193m
奥穂高岳（おくほたかだけ）: 3,190m
間ノ岳（あいのだけ）: 3,189m
槍ヶ岳（やりがたけ）: 3,180m

富士山は日本一高い山として有名ですが、北岳、奥穂高岳、間ノ岳、槍ヶ岳も3,000mを超える標高を持つ、日本屈指の高峰です。これらの山々は登山家にとって憧れの存在であり、毎年多くの人が登頂を目指しています。

これらの山について、もう少し詳しくご紹介します。

富士山

富士山は、静岡県と山梨県の間に位置する火山です。標高3,776mは日本一高く、古くから日本人の心の拠り所として親しまれています。2013年には世界文化遺産にも登録されました。

北岳

北岳は、山梨県にある南アルプスの主峰です。標高3,193mは日本第二位の高峰で、南アルプスの最高峰でもあります。登山道は整備されていますが、3,000mを超える高山であるため、登山には十分な準備が必要です。

奥穂高岳

奥穂高岳は、長野県と岐阜県にある北アルプスの主峰です。標高3,190mは日本第三位の高峰で、北アルプスの最高峰でもあります。穂高岳の山頂には、奥穂高岳、北穂高岳、涸沢岳の3つの峰があります。

間ノ岳

間ノ岳は、山梨県と静岡県にある南アルプスの山です。標高3,189mは日本第四位の高峰で、北岳の南に位置しています。山頂からは、富士山や南アルプスの山々を望むことができます。

槍ヶ岳

槍ヶ岳は、長野県と岐阜県にある北アルプスの山です。標高3,180mは日本第五位の高峰で、穂高岳の北に位置しています。山頂からは、穂高岳や北アルプスの山々を望むことができます。

これらの山々は、いずれも登山シーズンには多くの登山者が訪れる人気の山です。登山には十分な準備をして、安全に登頂を目指してください。

間ノ岳の標高が3,189mになっており、非常に惜しいですが誤りです…

間ノ岳は、標高が3,189mという情報もありますが、国土地理院のデータベースには3,190mで登録されています。

その他の情報は全て正しいので、非常に高い精度で情報を提供してくれていると言えるでしょう。

なぜ英語だと出力できなかったのかは謎です。

GPT-4

なんと、GPT-4でもGemini Ultraと全く同じ間ノ岳の標高の部分が3,189mとして出力されてしまいました。

Japan is renowned for its mountainous terrain, offering some of the highest and most picturesque peaks in the world. The top five mountains in Japan by elevation are:

Mount Fuji (富士山, Fujisan) - Standing at 3,776 meters (12,389 feet), Mount Fuji is not only the highest peak in Japan but also an iconic symbol of the country. This active stratovolcano, located on Honshu Island, is a popular destination for both sightseers and climbers.

Mount Kita (北岳, Kitadake) - With an elevation of 3,193 meters (10,475 feet), Mount Kita is the second-highest mountain in Japan. It is part of the Akaishi Mountains in the Southern Alps, located in the Yamanashi Prefecture.

Mount Hotaka (穂高岳, Hotakadake) - This mountain, or rather a group of peaks, is located in the Northern Japan Alps. The highest peak in this range, Okuhotaka-dake, reaches 3,190 meters (10,466 feet), making it the third highest in Japan. It lies on the border between the Nagano and Gifu prefectures.

Mount Ainodake (間ノ岳, Ainodake) - At 3,189 meters (10,463 feet), Mount Ainodake is the fourth highest mountain in Japan. It is also part of the Akaishi Mountains in the Southern Alps, close to Mount Kita.

Mount Yari (槍ヶ岳, Yarigatake) - Known for its distinctive spear-like shape, Mount Yari has an elevation of 3,180 meters (10,433 feet) and ranks as the fifth highest peak in Japan. It is located in the Northern Alps, within the Nagano Prefecture.

These mountains are not only significant for their elevations but also for their cultural and spiritual significance, biodiversity, and the recreational opportunities they offer.

日本は山岳地帯が多いことで有名で、世界で最も標高が高く、最も絵になる山がいくつかある。日本の標高上位5つの山は以下の通り：

富士山 – 標高3,776メートルの富士山は、日本の最高峰であるだけでなく、日本を象徴する山でもある。本州にあるこの活発な成層火山は、観光客にも登山者にも人気のある場所だ。

北岳 – 標高3,193メートル（10,475フィート）の北岳は、日本で2番目に高い山である。山梨県にある南アルプス赤石山脈の一部である。

穂高岳（ほたかだけ） – 北アルプスにある山。最高峰の奥穂高岳は標高3,190メートルで、日本で3番目に高い。長野県と岐阜県の県境にある。

間ノ岳（アイノダケ） – 標高3,189メートル（10,463フィート）で、日本で4番目に高い山。南アルプス赤石山脈の一部でもあり、北岳に近い。

槍ヶ岳 – 槍のような特徴的な山容で知られる槍ヶ岳は標高3,180メートル（10,433フィート）で、日本で5番目に高い山である。長野県内の北アルプスに位置する。

これらの山々は、その標高だけでなく、文化的・精神的意義、生物多様性、レクリエーションの機会などにおいても重要である。

その他の情報は、全て正しい情報で、それぞれの山の情報についてもGemini Ultraと同等の内容になっています。

また、プロンプトを日本語にして実行してみましたが、結果は同じでした。

どちらも基本的には正しい情報を提供してくれるようですが、まだ誤った情報を出す可能性はあり、提供された情報は検証する必要がありそうです。

この比較検証結果は引き分けです。

なお、GPT-4について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→GPT-4とは？GPT-4の使い方や料金体系、GPT-3.5との違い、API、画像入力の方法を解説！

Gemini Ultra 1.0 VS GPT-4の比較検証結果は…

今回は5項目に分けて検証を行いましたが、結果はこのようになりました。

コード生成：引き分け（Geminiの方がユーザー目線）
東京大学の理系数学入試問題：GPT-4の勝利
画像生成：引き分け
画像認識：GPT-4の勝利
論文の検索と要約：Geminiの勝利
出力の精度：引き分け

結果は、Geminiが1勝2敗3分けで、GPT-4の方が優れた結果を示しましました。

残念ながら今回の検証では、Gemini Ultra 1.0はGPT-4より多くの質問に誤った回答をしてしまいました。
また、比較的簡単なタスクでも誤った回答をしてしまっており、ベンチマークで示されていたほどの性能があるのか疑問が残ります。

実際、Gemini Ultraのハルネーションが酷いと感じたユーザーはいるようで、以下のポストのようにそれについて苦情を言ったらマジギレされてしまったユーザーもいるようです…笑

Gemini Ultra、ちょいちょいハルシネーションが酷いので、苦情を言って煽ったら、マジギレしてきて草 pic.twitter.com/FG00AdvmvQ
— あるふ (@alfredplpl) February 9, 2024

ただ、現時点で使えるのはGemini Ultra 1.0であり、今後も継続してアップデートが繰り返され、性能が向上していくようなので、ゆくゆくは各Googleサービスとの連携機能も相まって、GPT-4を超す最強のAIとして君臨することを期待しましょう！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ