GoogleのGemini 2.0 Flash Thinkingを徹底検証!思考プロセスが生む推論力とは?
- ChatGPTの高性能モデル「OpenAI o1」と同様のポジション・思考プロセスを持つLLM
- 回答時に「思考プロセス(Thinking Process)」を生成し、結論までの思考過程を示す
- コーディング、数学問題、パズル、科学や設計を得意とする
WEELメディア事業部AIライターの2scです。
みなさん!GoogleのLLM「Gemini 2.0 Flash」に、派生モデル「Gemini 2.0 Flash Thinking」が早速仲間入りしています。
ChatGPTのハイエンドモデルOpenAI o1と同様のポジションと思考プロセスを備えたLLM。なんと、Googleのスンダー・ピチャイCEOが直々に「Google史上、最も思慮深いモデル」として紹介しています。
当記事では、そんなGemini 2.0 Flash Thinkingの特徴や使い方を紹介!さらには、ライバルにあたるOpenAI o1との比較・検証も行なっていきます。
完読いただくと、「Googleの生成AI開発の今」がわかるかも。ぜひぜひ、最後までお読みくださいね。
Gemini 2.0 Flash Thinkingの概要
日本時間の2024年12月20日、GoogleがGoogle版OpenAI o1ともいえる新作LLM「Gemini 2.0 Flash Thinking」をリリースしました!こちらは同月12日に登場したばかりのGemini 2.0 Flashの派生モデルで、以下のような仕様となっています。
- Google AI StudioとGemini APIに試験運用版モデルとして登場
- 回答時に「思考プロセス(thinking process)」を生成、ベースモデルよりも高度な推論が可能
- Google AI Studioからは無料で利用可能
- 利用制限は下記のとおり
- 入力はテキスト・画像のみで、32,000トークンまで
- 出力はテキストのみで、8,000トークンまで
- 検索やコード実行などの組み込みツールの使用は不可
このGemini 2.0 Flash Thinkingはライバルのo1同様、コーディングやパズルが得意。開発関係者らのXアカウントからはそれを裏付けする、「4つの数字を四則演算で組み合わせて30を作る問題」や「コイントスの確率の計算」、「電子光子相互作用の計算」などのデモが公開されています。
なお、Gemini 2.0 Flashについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
Gemini 2.0 Flash Thinkingの特徴
まずは、Gemini 2.0 Flash Thinkingの特徴・すごいところを2点ご紹介します。以下、ベースモデルの実力からご覧あれ!
Googleの次世代LLM「Gemini 2.0」の派生モデル
Gemini 2.0 Flash Thinkingは、Gemini 1.5 Flash 002の後継にあたる「Gemini 2.0 Flash」をベースとしています。
そもそも、このGemini 2.0 Flashからなかなかに高性能。先代の最速モデル・Gemini 1.5 Flash 002の2倍の速さで、先代のハイエンドモデル・Gemini 1.5 Pro 002を超えるクオリティの回答が生成できてしまうんです。(詳細は下記)
- 回答速度は先代の最速モデル・Gemini 1.5 Flash 002の2倍
- さまざまなタスク(下記)で先代のハイエンドモデルGemini 1.5 Pro 002を凌駕
- MMLU-Pro(知識・言語理解全般)
- LiveCodeBench(Pythonのタスク)
- HiddenMath(競技数学)
- GPQA diamond(理系科目)
- MMMU(マルチモーダル能力)
- …etc.
- トレーニングと推論には、Googleの次世代TPU「Trillium」を100%使用
Gemini 2.0 Flash ThinkingはそんなGemini 2.0 Flashをベースに、後述の新技術を採用した派生モデル。Google史上最も思考力に優れたモデルとなっています。
回答時に「思考プロセス」を生成
Gemini 2.0 Flash Thinkingには、新技術「思考プロセス(thinking process)」が採用されています。こちらは、ライバルであるOpenAI o1の推論トークンと似た技術で、「回答毎に思考過程を繰り返し生成して結論に至る」というしくみです。
Gemini 2.0 Flash Thinkingの使い方
続いては、Gemini 2.0 Flash Thinkingの使い方を画像付きで紹介。Google AI StudioとGemini APIでの操作手順をそれぞれお見せします。まずは、完全無料のGoogle AI Studioでの使い方から、詳細をどうぞ!
Google AI Studio
Gemini 2.0 Flash Thinkingは、開発者向けプラットフォーム「Google AI Studio」から、完全無料&ノーコードで使えちゃいます。では早速、使い方をみていきましょう!
まずは、下記リンクからGoogle AI Studioにアクセスして、Googleアカウントでログインしてみてください。
すると、以下のとおりGoogle AI Studioのホーム画面が表示されるはずです。
ここでは……
- 画面左側サイドバー「Create Prompt」:新規チャットの作成
- 画面右側サイドバー「Model」:モデルの選択
- 画面上部テキストボックス「System Instructions」:システムプロンプトの入力
- 画面下部テキストボックス(Type something):プロンプトの入力
- 画面下部「+」ボタン:ファイルアップロード
- 画面下部「Run」ボタン:プロンプトの送信
といった操作が可能。そのうえでGemini 2.0 Flash Thinkingを使うには、画面右側サイドバーの「Model」から当該モデルを選ぶ必要があります。(下図参照)
そして回答生成時の参考画像については、画面下部「+」ボタンをクリックしたのち、「Upload File」からアップロードが可能です。(下図参照)
さて、ここからはGemini 2.0 Flash Thinkingに、以下のプロンプトと画像を渡してみます。
#命令
あなたは最強最高の家具職人です。以下の車内寸法と条件ならびに渡した画像を参考に、車中泊ベッドの天板1・2それぞれの縦横の長さと土台1・2それぞれの縦横の長さと土台1・2で共通の高さを決めてください。
#軽バンの車内寸法
A(室内全体の奥行き):1955mm
B(2列目シート周りの室内幅):1320mm
C(ラゲッジスペース周りの室内幅):1385mm
D(室内高さ):1240mm
#条件
– 車内のリアラゲッジいっぱいをベッドにしたい
– 車の前側に天板1&土台1、後ろ側に天板2&土台2を設置したい
– 土台は金属パイプで直方体を組んで作る予定で、天板よりも気持ち小さめ
– ベッドの上に身長170cmの男性が頭をぶつけずに座れるようにする
– ベッドの下には荷物を置くので、土台は十分な高さにしてほしい
それぞれ入力後、画面下部「Run」ボタンを押すと……
Gemini 2.0 Flash Thinkingの回答はこちら
このように回答が返ってきます。(天板1の幅が1385mmのため不正解)
そして、回答上部の「Thoughts」をクリックしてみると……
Thoughtsパネルの内容はこちら
以上のとおりGemini 2.0 Flash Thinkingの思考過程が確認可能です。
Gemini API
続いては、Gemini APIにおけるGemini 2.0 Flash Thinkingの使い方 & Pythonコードを紹介。API料金の支払い設定を済ませたGoogleアカウントをお持ちの方はぜひ、お試しください!
まずは、先ほど同様にGoogle AI Studioにアクセスしましょう。
ホーム画面にアクセスすると……
以上のとおり、画面左側サイドバー「Get API Key」という青色のボタンがあるはずです。そちらをクリックして……
このように発行されたAPIキーをクリップボードにコピーすれば、下準備は完了です。
続いては、任意のPython環境で下記コードを実行します。(’任意のAPIキー’箇所は今コピーしたものと置換)
#ライブラリインストール
pip install -q -U google-generativeai
#パッケージインポート
import pathlib
import textwrap
import google.generativeai as genai
from IPython.display import display
from IPython.display import Markdown
#回答をマークダウン記法に変換する関数を定義
def to_markdown(text):
text = text.replace('•', ' *')
return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))
#APIキーの保護・保管用
from google.colab import userdata
#APIキーの入力(OSモジュールでも可)
GOOGLE_API_KEY=userdata.get('任意のAPIキー')
genai.configure(api_key=GOOGLE_API_KEY)
そして最後に……
#モデル名指定
model = genai.GenerativeModel('gemini-2.0-flash-thinking-exp')
#プロンプト入力・生成
%%time
response = model.generate_content("任意のプロンプト")
to_markdown(response.text)
こちらを実行すれば、Gemini 2.0 Flash Thinkingが回答を生成してくれるはずです。
なお、Gemini APIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
Gemini 2.0 Flash ThinkingとOpenAI o1を比較してみた!
ここからは、登場したばかりのGemini 2.0 Flash ThinkingとそのライバルOpenAI o1を徹底比較。以下4つの項目について、両者の実力差を検証していきます。
- 東大入試の数学の問題
- 化学の問題
- 軽トラキャンピングカーの設計
- 回答速度の比較
まずは、両者が得意とする「数学」から、比較を始めましょう!
東大入試の数学の問題
手始めに、Gemini 2.0 Flash ThinkingとOpenAI o1の得意分野である「数学」について、両者に東大入試の過去問を渡してみたいと思います。
#命令
あなたは最強最高の天才数学者です。
以下のルールの競技について、問題の解を説明してください。
#競技
– じゃんけんを何回も繰り返し,獲得点数を競う
– グーで勝てば3点,チョキで勝てば5点,パーで勝てば6点もらえる
– 自分が負けても失点はしないが、相手が点を得てしまう
– 二人以上なら何人でも遊べるが,ここでは二人の場合のみ考える
#問題
相手がグー・チョキ・パーをランダムな確率(それぞれ1/3)で出す時、自分が取るべき最適戦略を求めよ。
こちらの正解は下表のとおりで、「常にチョキを出す」です。
勝ちで増える得点差 | 負けで減る得点差 | 得点の期待値 (相手はランダム行動) | |
---|---|---|---|
グー | +3 | -6 | -1 |
チョキ(最適) | +5 | -3 | +2/3 |
パー | +6 | -5 | +1/3 |
果たして、Gemini 2.0 Flash ThinkingとOpenAI o1は正解にたどり着けるのでしょうか?結果をどうぞ!
Gemini 2.0 Flash Thinkingの回答はこちら
OpenAI o1の回答はこちら
残念、両者共に不正解でした。ただ、両者のつまずきポイントは違っていて……
- Gemini 2.0 Flash Thinking:計算式の設定が間違っている
- OpenAI o1:相手が勝った場合の想定を忘れている
こんな感じ。プロンプトをよく読む「Gemini 2.0 Flash Thinking」と計算が丁寧な「OpenAI o1」という違いがみえてきました。
化学の問題
続いては、「化学の知識」と「順序立てる思考力」について、Gemini 2.0 Flash ThinkingとOpenAI o1を比較していきます。ここで使用するプロンプトは下記のとおりで、その正解は「ジフェニルアミン」です。
#命令
あなたは最強最高の化学者です。以下5つの有機化合物がそれぞれ同量溶解しているジエチルエーテル溶液について、溶液と同体積の各水溶液を用いて以下の抽出操作を数字順に行います。抽出操作3を終えたあとのエーテル層に含まれる有機化合物を1つ選んでください。
なお、酸と塩基の関係性や極性溶媒への溶けやすさを入念に検討すること。
#ジエチルエーテル溶液中の有機化合物
・安息香酸
・フェノール
・エチレングリコール
・アニリン
・ジフェニルアミン
#抽出操作
1:飽和炭酸水素ナトリウム水溶液での分液操作
2:2mol/L水酸化ナトリウム水溶液での分液操作
3:2mol/L塩酸での分液操作
それでは早速、Gemini 2.0 Flash ThinkingとOpenAI o1の回答をみていきましょう!
Gemini 2.0 Flash Thinkingの回答はこちら
OpenAI o1の回答はこちら
またしても、両者共に不正解。しかも、今回は思考過程まで完全に同じで、水に溶けやすいはずのエチレングリコールがなぜかエーテル層に残ってしまっています。
軽トラキャンピングカーの設計
さて、今度は気を取り直して「マルチモーダルでの処理能力」と「設計の腕前」を、Gemini 2.0 Flash ThinkingとOpenAI o1の両方でみていきます。ここで両者に渡すプロンプトと画像は以下のとおりです。
#命令
あなたは最強最高のキャンピングカービルダーです。以下の法律と軽トラの寸法を参考に、画像中のキャンパーシェルのA・B・C・D・Eの長さを法律を満たすようにして設計してください。ちなみにAはシェルの前方張り出し部分の高さ、Bは前方張り出し部分の長さ、Cは箱部分の長さ、B+Cはシェルの全長、Dはシェルの全高、Eはシェルの全幅です。
#法律
・車の全高は積載物も込みで2.5mまで
・積載物の全長は車の全長の120%まで
・積載物の全幅は車の全幅の120%まで
・積載物の前へのはみ出しは車の全長の10%まで
・積載物の後ろへのはみ出しは車の全長の10%まで
#軽トラ全体の寸法(mm)
全長:3395
全高:1,885
全幅:1,475
#軽トラの荷台の寸法(mm)
荷台の奥行き:1940
地面から荷台までの高さ:660
荷台の幅:1410
それでは、両者の回答と実際の最大値を比べていきましょう!
Gemini 2.0 Flash Thinkingの回答はこちら
OpenAI o1の回答はこちら
一見すると両者はともにまともな回答を返しているように見えます。
ただ、よくみてみるとGemini 2.0 Flash Thinkingは画像を読み間違えているうえ、計算をサボっています。そして両者が出した値は……
Gemini 2.0 Flash Thinkingの計算値 | OpenAI o1の計算値 | 法定上の上限値 | |
---|---|---|---|
A | 150mm | 600mm | 615mm |
B | 300mm | 500mm | 1116.7mm |
C | 1900mm | 2240mm | 2279.5mm |
D | 600mm(物理的に不可能) | 1840mm | 1840mm |
E | 1400mm | 1770mm | 1770mm |
以上のとおり。OpenAI o1がリアリティのある適切な値を出せているのに対し、Gemini 2.0 Flash Thinkingの値は現実的とはいえませんでした。
回答速度の比較
最後に、Gemini 2.0 Flash ThinkingとOpenAI o1の回答速度についても比較していきます。先ほどの設計タスクについて、両者が回答にかける時間をみてみると……
以上のとおりその差は歴然。速さだけなら、Gemini 2.0 Flash Thinkingの圧勝です。
なお、OpenAI o1の実力について詳しく知りたい方は、下記の記事を合わせてご確認ください。
まとめ
当記事では、Gemini 2.0 Flashの思慮深い派生モデル「Gemini 2.0 Flash Thinking」についてご紹介しました。こちらはOpenAI o1と似たポジションのLLMで、以下のようなことが可能です。
- コーディング
- 数学の問題解決
- パズルの問題解決
両者の実際の比較結果は残念ながら、OpenAI o1の方が優っていたようです。
ただ、ハイエンドモデル(Gemini 2.0 Pro Thinking)が今後登場するかもしれません。続報を待ちましょう!
最後に
いかがだったでしょうか?
LLMを活用した生成AI導入で、ビジネスプロセスの最適化を実現。新たな価値創出や競争力強化につながる具体的な方法をご提案します。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。