GoogleのGemini 2.0 Flash Thinkingを徹底検証！思考プロセスが生む推論力とは？

Google LLM 生成AIずかん

2024-12-202024-12-23

押さえておきたいポイント

ChatGPTの高性能モデル「OpenAI o1」と同様のポジション・思考プロセスを持つLLM
回答時に「思考プロセス（Thinking Process）」を生成し、結論までの思考過程を示す
コーディング、数学問題、パズル、科学や設計を得意とする

WEELメディア事業部AIライターの2scです。

みなさん！GoogleのLLM「Gemini 2.0 Flash」に、派生モデル「Gemini 2.0 Flash Thinking」が早速仲間入りしています。

ChatGPTのハイエンドモデルOpenAI o1と同様のポジションと思考プロセスを備えたLLM。なんと、Googleのスンダー・ピチャイCEOが直々に「Google史上、最も思慮深いモデル」として紹介しています。

Our most thoughtful model yet:) https://t.co/xIz3w5dtGJ
— Sundar Pichai (@sundarpichai) December 19, 2024

当記事では、そんなGemini 2.0 Flash Thinkingの特徴や使い方を紹介！さらには、ライバルにあたるOpenAI o1との比較・検証も行なっていきます。

完読いただくと、「Googleの生成AI開発の今」がわかるかも。ぜひぜひ、最後までお読みくださいね。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Gemini 2.0 Flash Thinkingの概要

日本時間の2024年12月20日、GoogleがGoogle版OpenAI o1ともいえる新作LLM「Gemini 2.0 Flash Thinking」をリリースしました！こちらは同月12日に登場したばかりのGemini 2.0 Flashの派生モデルで、以下のような仕様となっています。

Gemini 2.0 Flash Thinkingの仕様

Google AI StudioとGemini APIに試験運用版モデルとして登場
回答時に「思考プロセス（thinking process）」を生成、ベースモデルよりも高度な推論が可能
Google AI Studioからは無料で利用可能
利用制限は下記のとおり
- 入力はテキスト・画像のみで、32,000トークンまで
- 出力はテキストのみで、8,000トークンまで
- 検索やコード実行などの組み込みツールの使用は不可

このGemini 2.0 Flash Thinkingはライバルのo1同様、コーディングやパズルが得意。開発関係者らのXアカウントからはそれを裏付けする、「4つの数字を四則演算で組み合わせて30を作る問題」や「コイントスの確率の計算」、「電子光子相互作用の計算」などのデモが公開されています。

なお、Gemini 2.0 Flashについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Gemini2.0 Flash】生成速度2倍！？無料で使えるGoogleのAI概要とマルチモーダル性能を実践検証 | WEEL Gemini2.0を徹底検証！取引先へのメール作成や敬語修正などの実務応用から、マルチモーダル機能やGoogle AI Studioでの操作性まで評価。高速応答や高性能が際立つ一方で、…

Gemini 2.0 Flash Thinkingの特徴

まずは、Gemini 2.0 Flash Thinkingの特徴・すごいところを2点ご紹介します。以下、ベースモデルの実力からご覧あれ！

Googleの次世代LLM「Gemini 2.0」の派生モデル

Gemini 2.0 Flash Thinkingは、Gemini 1.5 Flash 002の後継にあたる「Gemini 2.0 Flash」をベースとしています。

そもそも、このGemini 2.0 Flashからなかなかに高性能。先代の最速モデル・Gemini 1.5 Flash 002の2倍の速さで、先代のハイエンドモデル・Gemini 1.5 Pro 002を超えるクオリティの回答が生成できてしまうんです。（詳細は下記）

ベースモデルのGemini 2.0 Flashのすごさ

回答速度は先代の最速モデル・Gemini 1.5 Flash 002の2倍
さまざまなタスク（下記）で先代のハイエンドモデルGemini 1.5 Pro 002を凌駕
- MMLU-Pro（知識・言語理解全般）
- LiveCodeBench（Pythonのタスク）
- HiddenMath（競技数学）
- GPQA diamond（理系科目）
- MMMU（マルチモーダル能力）
- …etc.
トレーニングと推論には、Googleの次世代TPU「Trillium」を100%使用

Gemini 2.0 Flash ThinkingはそんなGemini 2.0 Flashをベースに、後述の新技術を採用した派生モデル。Google史上最も思考力に優れたモデルとなっています。

回答時に「思考プロセス」を生成

Gemini 2.0 Flash Thinkingには、新技術「思考プロセス（thinking process）」が採用されています。こちらは、ライバルであるOpenAI o1の推論トークンと似た技術で、「回答毎に思考過程を繰り返し生成して結論に至る」というしくみです。

Gemini 2.0 Flash Thinkingの使い方

続いては、Gemini 2.0 Flash Thinkingの使い方を画像付きで紹介。Google AI StudioとGemini APIでの操作手順をそれぞれお見せします。まずは、完全無料のGoogle AI Studioでの使い方から、詳細をどうぞ！

Google AI Studio

Gemini 2.0 Flash Thinkingは、開発者向けプラットフォーム「Google AI Studio」から、完全無料&ノーコードで使えちゃいます。では早速、使い方をみていきましょう！

まずは、下記リンクからGoogle AI Studioにアクセスして、Googleアカウントでログインしてみてください。

Gemini API

続いては、Gemini APIにおけるGemini 2.0 Flash Thinkingの使い方 & Pythonコードを紹介。API料金の支払い設定を済ませたGoogleアカウントをお持ちの方はぜひ、お試しください！

まずは、先ほど同様にGoogle AI Studioにアクセスしましょう。

Gemini 2.0 Flash ThinkingとOpenAI o1を比較してみた！

ここからは、登場したばかりのGemini 2.0 Flash ThinkingとそのライバルOpenAI o1を徹底比較。以下4つの項目について、両者の実力差を検証していきます。

東大入試の数学の問題
化学の問題
軽トラキャンピングカーの設計
回答速度の比較

まずは、両者が得意とする「数学」から、比較を始めましょう！

東大入試の数学の問題

手始めに、Gemini 2.0 Flash ThinkingとOpenAI o1の得意分野である「数学」について、両者に東大入試の過去問を渡してみたいと思います。

東洋経済オンライン

東大入試で出題｢じゃんけんグリコ｣必勝法の衝撃みなさんは、以前東大の入試問題で「じゃんけんグリコで勝つ必勝法を計算しなさい」という問題が出題されたのを知っていますか？じゃんけんグリコは、みんなで「じゃんけん…

#命令
あなたは最強最高の天才数学者です。
以下のルールの競技について、問題の解を説明してください。

#競技
– じゃんけんを何回も繰り返し，獲得点数を競う
– グーで勝てば3点，チョキで勝てば5点，パーで勝てば6点もらえる
– 自分が負けても失点はしないが、相手が点を得てしまう
– 二人以上なら何人でも遊べるが，ここでは二人の場合のみ考える

#問題
相手がグー・チョキ・パーをランダムな確率（それぞれ1/3）で出す時、自分が取るべき最適戦略を求めよ。

こちらの正解は下表のとおりで、「常にチョキを出す」です。

	勝ちで増える得点差	負けで減る得点差	得点の期待値（相手はランダム行動）
グー	+3	-6	-1
チョキ（最適）	+5	-3	+2/3
パー	+6	-5	+1/3

果たして、Gemini 2.0 Flash ThinkingとOpenAI o1は正解にたどり着けるのでしょうか？結果をどうぞ！

Gemini 2.0 Flash Thinkingの回答はこちら

OpenAI o1の回答はこちら

残念、両者共に不正解でした。ただ、両者のつまずきポイントは違っていて……

Gemini 2.0 Flash Thinking：計算式の設定が間違っている
OpenAI o1：相手が勝った場合の想定を忘れている

こんな感じ。プロンプトをよく読む「Gemini 2.0 Flash Thinking」と計算が丁寧な「OpenAI o1」という違いがみえてきました。

化学の問題

続いては、「化学の知識」と「順序立てる思考力」について、Gemini 2.0 Flash ThinkingとOpenAI o1を比較していきます。ここで使用するプロンプトは下記のとおりで、その正解は「ジフェニルアミン」です。

軽トラキャンピングカーの設計

さて、今度は気を取り直して「マルチモーダルでの処理能力」と「設計の腕前」を、Gemini 2.0 Flash ThinkingとOpenAI o1の両方でみていきます。ここで両者に渡すプロンプトと画像は以下のとおりです。

#命令
あなたは最強最高のキャンピングカービルダーです。以下の法律と軽トラの寸法を参考に、画像中のキャンパーシェルのA・B・C・D・Eの長さを法律を満たすようにして設計してください。ちなみにAはシェルの前方張り出し部分の高さ、Bは前方張り出し部分の長さ、Cは箱部分の長さ、B+Cはシェルの全長、Dはシェルの全高、Eはシェルの全幅です。

#法律
・車の全高は積載物も込みで2.5mまで
・積載物の全長は車の全長の120%まで
・積載物の全幅は車の全幅の120%まで
・積載物の前へのはみ出しは車の全長の10%まで
・積載物の後ろへのはみ出しは車の全長の10%まで

#軽トラ全体の寸法（mm）
全長：3395
全高：1,885
全幅：1,475

#軽トラの荷台の寸法（mm）
荷台の奥行き：1940
地面から荷台までの高さ：660
荷台の幅：1410

それでは、両者の回答と実際の最大値を比べていきましょう！

Gemini 2.0 Flash Thinkingの回答はこちら

OpenAI o1の回答はこちら

一見すると両者はともにまともな回答を返しているように見えます。

ただ、よくみてみるとGemini 2.0 Flash Thinkingは画像を読み間違えているうえ、計算をサボっています。そして両者が出した値は……

スクロールできます

	Gemini 2.0 Flash Thinkingの計算値	OpenAI o1の計算値	法定上の上限値
A	150mm	600mm	615mm
B	300mm	500mm	1116.7mm
C	1900mm	2240mm	2279.5mm
D	600mm（物理的に不可能）	1840mm	1840mm
E	1400mm	1770mm	1770mm

以上のとおり。OpenAI o1がリアリティのある適切な値を出せているのに対し、Gemini 2.0 Flash Thinkingの値は現実的とはいえませんでした。

回答速度の比較

最後に、Gemini 2.0 Flash ThinkingとOpenAI o1の回答速度についても比較していきます。先ほどの設計タスクについて、両者が回答にかける時間をみてみると……

以上のとおりその差は歴然。速さだけなら、Gemini 2.0 Flash Thinkingの圧勝です。

なお、OpenAI o1の実力について詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【OpenAI o1 VS o1 pro mode】違い・活用法・使い勝手を実際の検証で徹底比較！ | WEEL OpenAIの最新モデルo1とChatGPT Pro限定のo1 pro modeを徹底比較！スペックや性能の違いを解説し、どちらを選ぶべきか判断の参考に。ChatGPT Pro加入を検討中の方必見！

まとめ

当記事では、Gemini 2.0 Flashの思慮深い派生モデル「Gemini 2.0 Flash Thinking」についてご紹介しました。こちらはOpenAI o1と似たポジションのLLMで、以下のようなことが可能です。

コーディング
数学の問題解決
パズルの問題解決

両者の実際の比較結果は残念ながら、OpenAI o1の方が優っていたようです。

ただ、ハイエンドモデル（Gemini 2.0 Pro Thinking）が今後登場するかもしれません。続報を待ちましょう！

参考記事

最後に

いかがだったでしょうか？

LLMを活用した生成AI導入で、ビジネスプロセスの最適化を実現。新たな価値創出や競争力強化につながる具体的な方法をご提案します。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル（LLM）比較レポート