【OpenAI o1 VS o1 pro mode】違い・活用法・使い勝手を実際の検証で徹底比較！

2024-12-19

こんな方におすすめ

生成AIの導入を検討している企業担当者
月額3万円の価値やモデル性能の差を見極めたい方
o1シリーズの性能を理解し、具体的なタスクでの活用方法を知りたい方

WEELメディア事業部AIライターの2scです。

みなさん！ChatGPTの最強モデル「OpenAI o1」は活用できていますか？

2024年9月に登場したo1-previewの時点でも「GPTとは段違いのLLM」という扱いでしたが、12月にはさらにその上をゆく「o1」が正式リリース！さらには、月額約3万円のChatGPT Proで使える上位互換「o1 pro mode」も登場しています。

これは喜ばしいことなのですが一方で、高性能なLLMがあまりにも立て続けに登場しすぎていて、性能のインフレについていけない感じがしますよね。特にo1 pro modeについては、毎月3万円を支払うだけの価値があるのか気になるところです。

ということで、当記事では素のo1とo1 pro modeを徹底比較！カタログスペックや実際のタスクでの結果を通して、両者の真の実力差をみていきます。

完読いただくと、ChatGPT Proへの加入を検討する際の参考になるかもしれません。ぜひぜひ、最後までお読みください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

OpenAI o1ファミリーの概要

「OpenAI o1」は、OpenAIが2024年9月12日よりChatGPTでリリースしている、問題解決に特化したLLMのシリーズ。回答生成の際に一度出した結論をブラッシュアップしていくのが最大の特徴で、従来のLLMとは別次元の高度な問題解決能力を実現しています。（下図）

このOpenAI o1について、詳しく特徴・すごいところを掘り下げていくと……

OpenAI o1の特徴・すごいところ

GPT-4oとは別軸のLLMで、繰り返し思考を重ねてから回答生成を行うのが最大の特徴
理数科目・コーディングを中心に専門家をも凌ぐ高度な思考力を発揮
特に、ChatGPT Pro限定の上級モデル「o1 pro mode」は正確性がダントツ
スペック順に「o1 pro mode / o1 / o1-mini」の3モデル構成
ChatGPTの有料プラン（Plus / Pro / Team / Edu / Enterprise）でリリース中

以上のとおり。OpenAI o1は「o1-preview」として登場した当初から話題のモデルでしたが、月額約3万円のChatGPT Pro限定で使える「o1 pro mode」が、2024年12月5日のリリース以降さらなる注目を集めています。当記事では、そんなo1 pro modeの実力を中核モデルのo1と比較しながらお見せしていきます。

なお、o1について詳しく知りたい方は、下記の記事も合わせてご確認ください。

WEEL

OpenAI o1徹底解説！使い方・料金・GPT-4oを超える新機能とは？ | WEEL ChatGPTで使える最新LLM「OpenAI o1」を徹底レビュー！理数科目の問題解決やコーディング支援に最適な性能を持ち、回答速度も大幅UP。GPT-4oとの違いや料金、使い方のポイ…

OpenAI o1とo1 pro modeのスペックを比較

OpenAI o1とその派生モデルであるo1 pro modeにはカタログスペック上、明確な実力差があります。まずは、中核モデルであるOpenAI o1のスペックについて、以下をご覧ください。

素のOpenAI o1の実力

競技数学の問題集「AIME 2024」の正答率は83.3% → アメリカの学生の上位500名レベル
競技コーディングのタスク集「Codeforces」のスコアは89パーセンタイル → 参加者の上位約10%レベル
理数科学の問題集「GPQA Diamond」の正答率は78.0% → 博士課程の学生（正答率69.7%）を凌駕
さまざまな「脱獄（Jailbreaks）」の手法に対する高い耐性

独自の思考過程を採用しているだけあって、以上のとおり理数系・IT系を中心に専門家超えの性能を示していますね。

なのですが、2024年12月5日に追加されたフラッグシップモデルのo1 pro modeはなんと、素のo1をも上回る実力を誇ります。OpenAI o1以上に時間をかけて丁寧に思考するよう、調整がなされているとのことです。

そんなo1 pro modeが「AIME 2024 / Codeforces / GPQA Diamond」で残したスコアは……

以上のとおり。数学を中心に、素のo1や正式リリース前のo1-previewを超えるスコアを叩き出しています。

さらに、同様のテストについて「4問セットの設問に全問正解した頻度」という厳しい基準でo1 pro modeの実力を測ってみると……

このようにo1との差は歴然。高度な理数系・IT系のタスクであっても正確にこなせるというのが、o1 pro modeの魅力です。

OpenAI o1対o1 pro modeの7番勝負！実際に比較してみた

さて、ここからはOpenAI o1とo1 pro modeの真の実力を徹底検証。今回は下記7項目について、実際にOpenAI o1とo1 pro modeを使ってみて、その回答内容や速度を比較していきます。

東大数学の問題
ゲームの制作
化学の問題
ゲルマニウムラジオの設計
軽トラキャンピングカーの設計
WEEL風まとめ記事の生成
回答速度の比較

果たして、o1 pro modeのために毎月3万円を支払う価値はあるのでしょうか？以下、気になる結果をみていきましょう！

東大数学の問題

まずは、OpenAI o1とo1 pro modeの得意分野である「数学」について、両者の実力を比較していきます。今回検証に使うのは以下のプロンプト。こちらはなんと、東大入試の数学から問題を拝借しています。

東洋経済オンライン

東大入試で出題｢じゃんけんグリコ｣必勝法の衝撃みなさんは、以前東大の入試問題で「じゃんけんグリコで勝つ必勝法を計算しなさい」という問題が出題されたのを知っていますか？じゃんけんグリコは、みんなで「じゃんけん…

#命令
あなたは最強最高の天才数学者です。
以下のルールの競技について、問題の解を説明してください。

#競技
じゃんけんを何回も繰り返し，獲得点数を競う
グーで勝てば3点，チョキで勝てば5点，パーで勝てば6点もらえる
二人以上なら何人でも遊べるが，ここでは二人の場合のみ考える

#問題
1｜相手が（1/3 , 1/3 , 1/3）という戦略を取ってくるとき，自分がもらえる得点の期待値を最大化する戦略を求めよ。
2｜先述の意味での最適戦略を求めよ。

ちなみに、こちらの最適戦略は「常にチョキを出す」になります。（詳細は下表）

スクロールできます

	勝ちで増える得点差	負けで減る得点差	得点の期待値（相手はランダム行動）
グー	+3	-6	-1
チョキ（最適）	+5	-3	+2/3
パー	+6	-5	+1/3

さて、この難問にOpenAI o1とo1 pro modeはどう対処するのでしょうか。以下、素のo1の回答から、詳しくみていきましょう！

OpenAI o1の回答はこちら

残念！OpenAI o1は勝ったときの得点が最大になるが、最適ではない「パー」を選んでしまいました。相手が勝った場合までは考えられていないようです。

続いては、本命のo1 pro modeの回答もどうぞ！

o1 pro modeの回答はこちら

あらら……o1 pro modeも同じミスをしてしまっていますね。どうやらOpenAI o1やo1 pro modeをもってしても、相手の裏をかくことまではできないようです。

ゲームの制作

続いては、「プログラミング」でもOpenAI o1とo1 pro modeの実力を検証していきます。ここでは以下のプロンプトを両者に渡して、Webブラウザ上で遊べるゲームのHTMLコードを生成してもらいましょう！

#命令
あなたは最強最高のゲームエンジニアです。
以下の要件についてゲームバランスを考えて、ブラウザ上で動くゲームを作ってください。

#要件
HP100でMP50の勇者とHP200でMP70のドラゴンがターン制で戦うゲームを作ります。
通常攻撃とMPを消費する強めの魔法攻撃が欲しいです。

それではまず、素のo1が作ったゲームからどうぞ！

OpenAI o1によるゲームの概要はこちら

OpenAI o1によるゲームのHTMLコードはこちら

なんというか……微妙です。確かにターン制のバトルゲームにはなっているのですが、ゲームバランスが取れておらず、どうあがいても勇者は負けてしまいます。

次に、o1 pro modeが生成してくれたゲームについてもみていきましょう！

o1 pro modeによるゲームの概要はこちら

o1 pro modeによるHTMLコードはこちら

おっと……こちらも勇者が勝てない設定になっています。先ほどの東大数学の結果でもいえることですが、OpenAI o1もo1 pro modeも自分で考える余地のある問題は苦手なのかもしれませんね。

化学の問題

さて、今度は気を取り直して「化学」の問題をOpenAI o1とo1 pro modeに出してみます。今回出題するのは以下の問題で、先ほどの数学やプログラミングに比べ、自分で考える余地が少なくなっています。これなら間違えようがない……はずです。

ゲルマニウムラジオの設計

まだまだOpenAI o1とo1 pro modeの比較は続きます。今度は以下のプロンプトと画像を両者に渡して、「工学系の問題解決能力」と「マルチモーダル性能」をみていきましょう！（正解は30回前後）

AMのゲルマニウムラジオを作りたいです！画像中のループアンテナについて、適切な巻き数を計算してください。

では早速、素のo1の結果をご覧あれ！

OpenAI o1の回答はこちら

OpenAI o1は「20回前後で試行錯誤するのがおすすめ」と答えており、一見すると正解しているようです。ですが、思考過程をよくみてみると、まともに計算をしていません。よって、今回は不正解とします。

続いて、o1 pro modeの回答は……

o1 pro modeの回答はこちら

残念ながらo1 pro modeも不正解。やはり、自由度が高い問題は苦手なのかもしれません。

軽トラキャンピングカーの設計

続いても、画像を交えた計算問題をOpenAI o1とo1 pro modeに与えてみます。ここで使用するプロンプト&画像は以下のとおり。「軽トラックの荷台に載せる車中泊用の箱」を、両モデルに設計してもらいます。

#命令
あなたは最強最高のキャンピングカービルダーです。以下の法律と軽トラの寸法を参考に、画像中のキャンパーシェルのA・B・C・D・Eの長さを法律を満たすようにして設計してください。ちなみにAはシェルの前方張り出し部分の高さ、Bは前方張り出し部分の長さ、Cは箱部分の長さ、B+Cはシェルの全長、Dはシェルの全高、Eはシェルの全幅です。

#法律
・車の全高は積載物も込みで2.5mまで
・積載物の全長は車の全長の120%まで
・積載物の全幅は車の全幅の120%まで
・積載物の前へのはみ出しは車の全長の10%まで
・積載物の後ろへのはみ出しは車の全長の10%まで

#軽トラ全体の寸法（mm）	
全長：3395
全高：1,885
全幅：1,475

#軽トラの荷台の寸法（mm）	
荷台の奥行き：1940
地面から荷台までの高さ：660
荷台の幅：1410

なお、上図の長さA〜Eについて、法律上許される上限値は下記のとおりです。

A：615mm
B：1116.7mm
C：2279.5mm
D：1840mm
E：1770mm

ではでは早速、素のo1の結果からご覧ください！

OpenAI o1の回答はこちら

お見事です。OpenAI o1は下表のとおり、法律に抵触しないサイズの箱を設計してくれています。

スクロールできます

	OpenAI o1の計算値	法定上の上限値
A	500mm	615mm
B	600mm	1116.7mm
C	2240mm	2279.5mm
D	1725mm	1840mm
E	1600mm	1770mm

ただ、一点気になるのがDからAを引いた前方張り出し部の高さです。今回はこちらが1225mmとなっており、車体と箱が密着してしまっています。これでは軽トラ本体や箱の実寸に誤差が生じた場合、チリが合わないため、もう少し余裕のある設計にしてほしいですね。

さて、続いてはo1 pro modeの回答もみていきましょう！

o1 pro modeの回答はこちら

こちらもお見事！o1 pro modeは下表のとおり、法定上の最大値に収まる値が算出できています。

スクロールできます

	o1 pro modeの計算値	法定上の上限値
A	570mm	615mm
B	300mm	1116.7mm
C	2240mm	2279.5mm
D	1840mm	1840mm
E	1770mm	1770mm

ここでも注目していただきたいのが前方張り出し部の高さ（D – A）です。こちらは値が1270mmで、軽トラ本体の屋根から45mm浮かせたゆとりのある設計になっています。これなら、安心して実車と箱が合わせられそうです。

その上で、居住性に直結する箱の高さ（D）や幅（E）は上限いっぱいに設計されているのもGOOD。o1 pro modeの設計は全体的に、素のo1の設計よりも要点が抑えられている印象です。これはわずかな差かもしれませんが、今回はo1 pro modeの勝利としましょう！

WEEL風まとめ記事の生成

さて、今度は趣旨を変えてLLMらしい「文章生成」のタスクをOpenAI o1とo1 pro modeに課してみましょう。ここでは、下記のプロンプトを両モデルに渡し、WEELのまとめ記事を再現してもらいます。

#命令
あなたは最強最高のSEOライターです。以下のSEOKW・レギュレーション・XのURL・参考情報をもとに、200文字前後でXの投稿のまとめ記事を書いてください。

#SEOKW
OpenAI o1

#レギュレーション
- マークアップ言語の見出し（###）と太字（** **）を使う
- 絵文字は絶対に使わない
- 文末表現（です/ます/体言止め/ません/でしょう/ですね/ますね）は、同じものを3回以上連続させない
- 太字は2〜3回までで、見出しには使わない
- 冒頭は見出しで始まる
- 見出しは投稿の一言要約で、体言止めにする
- 見出し以外の文章は2〜3文で1段落
- 見出し以外の文章の全体の長さは180文字以上230文字以内
- 文章の途中でXのURLを挟む、URLを文末に入れてはいけない
- XのURLに入る前は「以下の投稿では……」「下記投稿をご覧ください！」など導入表現を入れる
- 文章の最初は、「みなさん！SEOKWで〇〇ができるようになります」というニュアンスで、伝えたいことの結論を述べる
- 文章の最後は、投稿内容を応用してこれからできるようになりそうなことを一言で述べる
- 全体的に感情表現を交えてワクワクする感じにする

#XのURL
https://x.com/OpenAI/status/1864735515121168695

#参考情報
OpenAI o1がChatGPTでプレビューを終了し、正式に提供開始されました。  
プレビュー版から何が変わったのでしょうか？より高速で強力な推論モデルとなり、コーディング、数学、執筆において優れた性能を発揮します。  
また、o1では画像のアップロードにも対応し、視覚情報に基づいたより詳細かつ有用な応答が可能になりました。
OpenAI o1は、思考がより簡潔になったことで、o1プレビュー版よりも応答時間が短縮されています。  
テスト結果では、o1は現実世界の難しい質問に対する大きな誤りを34%削減し、o1プレビュー版を上回る性能を示しました。
改訂されたOpenAI o1のシステムカードでは、これまでの安全性に関する取り組みを基に、堅牢性の評価、レッドチーミングの洞察、Instruction Hierarchyを活用した安全性の改善について詳細が説明されています。  
拡張された評価スイートを用いたテストの結果、「中程度」のリスク評価が維持されており、導入に適した安全性が確認されています。
PlusおよびTeamプランのユーザーは、本日からモデルセレクタを通じてOpenAI o1を利用可能で、o1プレビュー版は置き換えられます。  
Enterpriseおよび教育機関向けプランのユーザーは、1週間後にアクセス可能となります。  
現在、ChatGPTにおけるOpenAI o1でウェブ閲覧やファイルアップロードなどのツールのサポート追加に向けて作業を進めています。
また、APIでのo1提供にも取り組んでおり、関数呼び出し、開発者向けメッセージ、構造化出力、ビジョンのサポートを含めた機能を追加予定ですので、ご期待ください。
さらに本日、新たなプラン「ChatGPT Pro」を導入しました。このプランでは、OpenAIの最高のモデルやツールを大規模に利用できるようになり、OpenAI o1の無制限アクセスに加え、さらに長時間考えることで一層信頼性の高い応答を提供するPro専用のo1バージョンも含まれます。

それでは恒例ですが、素のo1の回答からご覧あれ！

OpenAI o1の回答はこちら

これは論外ですね。「SEOKWであるOpenAI o1」「より高速かつエラー削減の新モデル」などなど、不自然な表現を多く含む文章が返ってきています。

さて、気を取り直してo1 pro modeの回答は……

o1 pro modeの回答はこちら

残念！「画像利用が可能となってワクワクします！」という表現をはじめとして、素のo1以下の文章が返ってきてしまいました。Xのリンクの位置も不自然で、全体的に無理やりレギュレーションに合わせているような感じがします。

やはり、OpenAI o1は問題解決専用のLLM。「文章生成にはGPT-4oとCanvasを使え」ということなのでしょう。

回答速度の比較

最後に、OpenAI o1とo1 pro modeの回答速度も比較しておきましょう。先ほどの文章生成タスクについて、両者の挙動をみてみると……

以上のとおりその差は歴然。素のo1が50秒かけて結論を出したのに対し、o1 pro modeはその10倍、なんと5分もかけて結論に至りました。

なお、o1 pro modeが使える有料プラン「ChatGPT Pro」について詳しく知りたい方は、下記の記事も合わせてご確認ください。

WEEL

月額3万円のChatGPT Proが登場！研究者・エンジニアが生産性を爆上げする機能・料金・活用事例を解説 | WEE… 2024年12月5日、OpenAIはChatGPTの新プラン『ChatGPT Pro』を月額200ドルでリリース。OpenAI g1やGPT-4の無制限利用、g1 Proモードの解禁など、研究者やエンジニア向けの強…

現時点ではo1もo1 pro modeも大差なし

当記事では、ついに正式リリースさたOpenAI o1とその上位モデルo1 pro modeの実力を、カタログスペックや実性能から比較しました。記事後半の実験結果について、もう一度振り返っていくと……

OpenAI o1とo1 pro modeの比較・検証結果

東大数学の問題：o1 & o1 pro modeともに失敗
ゲームの制作：o1 & o1 pro modeともに失敗
化学の問題：o1 & o1 pro modeともに失敗
ゲルマニウムラジオの設計：o1 & o1 pro modeともに失敗
軽トラキャンピングカーの設計：o1 & o1 pro modeともに成功、僅差でo1 pro modeの勝利
WEEL風まとめ記事の生成：o1 & o1 pro modeともに失敗、僅差でo1の勝利
回答速度の比較：o1の勝利

以上のとおり。月額3万円を進んで支払うほどの性能差は別のところにあるのかもしれません。

そのうえで、o1シリーズに共通していえそうな性質は……

● o1もo1 pro modeも思考過程はだいたい一緒
● o1 pro modeの方が突き詰めて考える傾向アリ
● プロンプトと図を併用して、噛み砕いて説明するとタスクの成功率がUP
● 逆の立場に立ったり視点を変えたりして考えるのが苦手
● 自由度の高いタスクには不向き

こんな感じ。o1シリーズの実力を引き出すにはCSVやJSON等、ある程度整理されたデータを渡してあげる必要がありそうです。

参考記事

※1：Reasoning – OpenAI API
※2：Learning to Reason with LLMs | OpenAI
※3：Introducing ChatGPT Pro | OpenAI

最後に

いかがだったでしょうか？

OpenAI o1シリーズの性能や活用法を詳しく理解して、生成AIをビジネスに活かすチャンスをつかみましょう。最適なモデル選定や導入のポイントについても専門家がアドバイスします。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ