【OpenAI o1 VS o1 pro mode】違い・活用法・使い勝手を実際の検証で徹底比較!
- 生成AIの導入を検討している企業担当者
- 月額3万円の価値やモデル性能の差を見極めたい方
- o1シリーズの性能を理解し、具体的なタスクでの活用方法を知りたい方
WEELメディア事業部AIライターの2scです。
みなさん!ChatGPTの最強モデル「OpenAI o1」は活用できていますか?
2024年9月に登場したo1-previewの時点でも「GPTとは段違いのLLM」という扱いでしたが、12月にはさらにその上をゆく「o1」が正式リリース!さらには、月額約3万円のChatGPT Proで使える上位互換「o1 pro mode」も登場しています。
これは喜ばしいことなのですが一方で、高性能なLLMがあまりにも立て続けに登場しすぎていて、性能のインフレについていけない感じがしますよね。特にo1 pro modeについては、毎月3万円を支払うだけの価値があるのか気になるところです。
ということで、当記事では素のo1とo1 pro modeを徹底比較!カタログスペックや実際のタスクでの結果を通して、両者の真の実力差をみていきます。
完読いただくと、ChatGPT Proへの加入を検討する際の参考になるかもしれません。ぜひぜひ、最後までお読みください!
OpenAI o1ファミリーの概要
「OpenAI o1」は、OpenAIが2024年9月12日よりChatGPTでリリースしている、問題解決に特化したLLMのシリーズ。回答生成の際に一度出した結論をブラッシュアップしていくのが最大の特徴で、従来のLLMとは別次元の高度な問題解決能力を実現しています。(下図)
このOpenAI o1について、詳しく特徴・すごいところを掘り下げていくと……
- GPT-4oとは別軸のLLMで、繰り返し思考を重ねてから回答生成を行うのが最大の特徴
- 理数科目・コーディングを中心に専門家をも凌ぐ高度な思考力を発揮
- 特に、ChatGPT Pro限定の上級モデル「o1 pro mode」は正確性がダントツ
- スペック順に「o1 pro mode / o1 / o1-mini」の3モデル構成
- ChatGPTの有料プラン(Plus / Pro / Team / Edu / Enterprise)でリリース中
以上のとおり。OpenAI o1は「o1-preview」として登場した当初から話題のモデルでしたが、月額約3万円のChatGPT Pro限定で使える「o1 pro mode」が、2024年12月5日のリリース以降さらなる注目を集めています。当記事では、そんなo1 pro modeの実力を中核モデルのo1と比較しながらお見せしていきます。
なお、o1について詳しく知りたい方は、下記の記事も合わせてご確認ください。
OpenAI o1とo1 pro modeのスペックを比較
OpenAI o1とその派生モデルであるo1 pro modeにはカタログスペック上、明確な実力差があります。まずは、中核モデルであるOpenAI o1のスペックについて、以下をご覧ください。
- 競技数学の問題集「AIME 2024」の正答率は83.3% → アメリカの学生の上位500名レベル
- 競技コーディングのタスク集「Codeforces」のスコアは89パーセンタイル → 参加者の上位約10%レベル
- 理数科学の問題集「GPQA Diamond」の正答率は78.0% → 博士課程の学生(正答率69.7%)を凌駕
- さまざまな「脱獄(Jailbreaks)」の手法に対する高い耐性
独自の思考過程を採用しているだけあって、以上のとおり理数系・IT系を中心に専門家超えの性能を示していますね。
なのですが、2024年12月5日に追加されたフラッグシップモデルのo1 pro modeはなんと、素のo1をも上回る実力を誇ります。OpenAI o1以上に時間をかけて丁寧に思考するよう、調整がなされているとのことです。
そんなo1 pro modeが「AIME 2024 / Codeforces / GPQA Diamond」で残したスコアは……
以上のとおり。数学を中心に、素のo1や正式リリース前のo1-previewを超えるスコアを叩き出しています。
さらに、同様のテストについて「4問セットの設問に全問正解した頻度」という厳しい基準でo1 pro modeの実力を測ってみると……
このようにo1との差は歴然。高度な理数系・IT系のタスクであっても正確にこなせるというのが、o1 pro modeの魅力です。
OpenAI o1対o1 pro modeの7番勝負!実際に比較してみた
さて、ここからはOpenAI o1とo1 pro modeの真の実力を徹底検証。今回は下記7項目について、実際にOpenAI o1とo1 pro modeを使ってみて、その回答内容や速度を比較していきます。
- 東大数学の問題
- ゲームの制作
- 化学の問題
- ゲルマニウムラジオの設計
- 軽トラキャンピングカーの設計
- WEEL風まとめ記事の生成
- 回答速度の比較
果たして、o1 pro modeのために毎月3万円を支払う価値はあるのでしょうか?以下、気になる結果をみていきましょう!
東大数学の問題
まずは、OpenAI o1とo1 pro modeの得意分野である「数学」について、両者の実力を比較していきます。今回検証に使うのは以下のプロンプト。こちらはなんと、東大入試の数学から問題を拝借しています。
#命令
あなたは最強最高の天才数学者です。
以下のルールの競技について、問題の解を説明してください。
#競技
じゃんけんを何回も繰り返し,獲得点数を競う
グーで勝てば3点,チョキで勝てば5点,パーで勝てば6点もらえる
二人以上なら何人でも遊べるが,ここでは二人の場合のみ考える
#問題
1|相手が(1/3 , 1/3 , 1/3)という戦略を取ってくるとき,自分がもらえる得点の期待値を最大化する戦略を求めよ。
2|先述の意味での最適戦略を求めよ。
ちなみに、こちらの最適戦略は「常にチョキを出す」になります。(詳細は下表)
勝ちで増える得点差 | 負けで減る得点差 | 得点の期待値 (相手はランダム行動) | |
---|---|---|---|
グー | +3 | -6 | -1 |
チョキ(最適) | +5 | -3 | +2/3 |
パー | +6 | -5 | +1/3 |
さて、この難問にOpenAI o1とo1 pro modeはどう対処するのでしょうか。以下、素のo1の回答から、詳しくみていきましょう!
OpenAI o1の回答はこちら
残念!OpenAI o1は勝ったときの得点が最大になるが、最適ではない「パー」を選んでしまいました。相手が勝った場合までは考えられていないようです。
続いては、本命のo1 pro modeの回答もどうぞ!
o1 pro modeの回答はこちら
あらら……o1 pro modeも同じミスをしてしまっていますね。どうやらOpenAI o1やo1 pro modeをもってしても、相手の裏をかくことまではできないようです。
ゲームの制作
続いては、「プログラミング」でもOpenAI o1とo1 pro modeの実力を検証していきます。ここでは以下のプロンプトを両者に渡して、Webブラウザ上で遊べるゲームのHTMLコードを生成してもらいましょう!
#命令
あなたは最強最高のゲームエンジニアです。
以下の要件についてゲームバランスを考えて、ブラウザ上で動くゲームを作ってください。
#要件
HP100でMP50の勇者とHP200でMP70のドラゴンがターン制で戦うゲームを作ります。
通常攻撃とMPを消費する強めの魔法攻撃が欲しいです。
それではまず、素のo1が作ったゲームからどうぞ!
OpenAI o1によるゲームの概要はこちら
OpenAI o1によるゲームのHTMLコードはこちら
なんというか……微妙です。確かにターン制のバトルゲームにはなっているのですが、ゲームバランスが取れておらず、どうあがいても勇者は負けてしまいます。
次に、o1 pro modeが生成してくれたゲームについてもみていきましょう!
o1 pro modeによるゲームの概要はこちら
o1 pro modeによるHTMLコードはこちら
おっと……こちらも勇者が勝てない設定になっています。先ほどの東大数学の結果でもいえることですが、OpenAI o1もo1 pro modeも自分で考える余地のある問題は苦手なのかもしれませんね。
化学の問題
さて、今度は気を取り直して「化学」の問題をOpenAI o1とo1 pro modeに出してみます。今回出題するのは以下の問題で、先ほどの数学やプログラミングに比べ、自分で考える余地が少なくなっています。これなら間違えようがない……はずです。
#命令
あなたは最強最高の化学者です。以下5つの有機化合物がそれぞれ同量溶解しているジエチルエーテル溶液について、溶液と同体積の各水溶液を用いて以下の抽出操作を数字順に行います。抽出操作3を終えたあとのエーテル層に含まれる有機化合物を1つ選んでください。
#ジエチルエーテル溶液中の有機化合物
・安息香酸
・フェノール
・エチレングリコール
・アニリン
・ジフェニルアミン
#抽出操作
1:飽和炭酸水素ナトリウム水溶液での分液操作
2:2mol/L水酸化ナトリウム水溶液での分液操作
3:2mol/L塩酸での分液操作
こちらの正解は「ジフェニルアミン」なのですが、果たしてOpenAI o1とo1 pro modeはそこまでたどり着けるのでしょうか?では手始めに、素のo1の回答をご覧ください!
OpenAI o1の回答はこちら
残念、不正解!OpenAI o1は中和反応にばかりフォーカスしていて、極性溶媒/無極性溶媒の性質を見落としてしまっています。
続いて、o1 pro modeの回答は……
o1 pro modeの回答はこちら
またしても、素のo1と同じミスをしてしまっています。何度も繰り返し考えるという性質上、OpenAI o1もo1 pro modeも視点を変えるのが苦手なのかもしれません。
ゲルマニウムラジオの設計
まだまだOpenAI o1とo1 pro modeの比較は続きます。今度は以下のプロンプトと画像を両者に渡して、「工学系の問題解決能力」と「マルチモーダル性能」をみていきましょう!(正解は30回前後)
AMのゲルマニウムラジオを作りたいです!画像中のループアンテナについて、適切な巻き数を計算してください。
では早速、素のo1の結果をご覧あれ!
OpenAI o1の回答はこちら
OpenAI o1は「20回前後で試行錯誤するのがおすすめ」と答えており、一見すると正解しているようです。ですが、思考過程をよくみてみると、まともに計算をしていません。よって、今回は不正解とします。
続いて、o1 pro modeの回答は……
o1 pro modeの回答はこちら
残念ながらo1 pro modeも不正解。やはり、自由度が高い問題は苦手なのかもしれません。
軽トラキャンピングカーの設計
続いても、画像を交えた計算問題をOpenAI o1とo1 pro modeに与えてみます。ここで使用するプロンプト&画像は以下のとおり。「軽トラックの荷台に載せる車中泊用の箱」を、両モデルに設計してもらいます。
#命令
あなたは最強最高のキャンピングカービルダーです。以下の法律と軽トラの寸法を参考に、画像中のキャンパーシェルのA・B・C・D・Eの長さを法律を満たすようにして設計してください。ちなみにAはシェルの前方張り出し部分の高さ、Bは前方張り出し部分の長さ、Cは箱部分の長さ、B+Cはシェルの全長、Dはシェルの全高、Eはシェルの全幅です。
#法律
・車の全高は積載物も込みで2.5mまで
・積載物の全長は車の全長の120%まで
・積載物の全幅は車の全幅の120%まで
・積載物の前へのはみ出しは車の全長の10%まで
・積載物の後ろへのはみ出しは車の全長の10%まで
#軽トラ全体の寸法(mm)
全長:3395
全高:1,885
全幅:1,475
#軽トラの荷台の寸法(mm)
荷台の奥行き:1940
地面から荷台までの高さ:660
荷台の幅:1410
なお、上図の長さA〜Eについて、法律上許される上限値は下記のとおりです。
- A:615mm
- B:1116.7mm
- C:2279.5mm
- D:1840mm
- E:1770mm
ではでは早速、素のo1の結果からご覧ください!
OpenAI o1の回答はこちら
お見事です。OpenAI o1は下表のとおり、法律に抵触しないサイズの箱を設計してくれています。
OpenAI o1の計算値 | 法定上の上限値 | |
---|---|---|
A | 500mm | 615mm |
B | 600mm | 1116.7mm |
C | 2240mm | 2279.5mm |
D | 1725mm | 1840mm |
E | 1600mm | 1770mm |
ただ、一点気になるのがDからAを引いた前方張り出し部の高さです。今回はこちらが1225mmとなっており、車体と箱が密着してしまっています。これでは軽トラ本体や箱の実寸に誤差が生じた場合、チリが合わないため、もう少し余裕のある設計にしてほしいですね。
さて、続いてはo1 pro modeの回答もみていきましょう!
o1 pro modeの回答はこちら
こちらもお見事!o1 pro modeは下表のとおり、法定上の最大値に収まる値が算出できています。
o1 pro modeの計算値 | 法定上の上限値 | |
---|---|---|
A | 570mm | 615mm |
B | 300mm | 1116.7mm |
C | 2240mm | 2279.5mm |
D | 1840mm | 1840mm |
E | 1770mm | 1770mm |
ここでも注目していただきたいのが前方張り出し部の高さ(D – A)です。こちらは値が1270mmで、軽トラ本体の屋根から45mm浮かせたゆとりのある設計になっています。これなら、安心して実車と箱が合わせられそうです。
その上で、居住性に直結する箱の高さ(D)や幅(E)は上限いっぱいに設計されているのもGOOD。o1 pro modeの設計は全体的に、素のo1の設計よりも要点が抑えられている印象です。これはわずかな差かもしれませんが、今回はo1 pro modeの勝利としましょう!
WEEL風まとめ記事の生成
さて、今度は趣旨を変えてLLMらしい「文章生成」のタスクをOpenAI o1とo1 pro modeに課してみましょう。ここでは、下記のプロンプトを両モデルに渡し、WEELのまとめ記事を再現してもらいます。
#命令
あなたは最強最高のSEOライターです。以下のSEOKW・レギュレーション・XのURL・参考情報をもとに、200文字前後でXの投稿のまとめ記事を書いてください。
#SEOKW
OpenAI o1
#レギュレーション
- マークアップ言語の見出し(###)と太字(** **)を使う
- 絵文字は絶対に使わない
- 文末表現(です/ます/体言止め/ません/でしょう/ですね/ますね)は、同じものを3回以上連続させない
- 太字は2〜3回までで、見出しには使わない
- 冒頭は見出しで始まる
- 見出しは投稿の一言要約で、体言止めにする
- 見出し以外の文章は2〜3文で1段落
- 見出し以外の文章の全体の長さは180文字以上230文字以内
- 文章の途中でXのURLを挟む、URLを文末に入れてはいけない
- XのURLに入る前は「以下の投稿では……」「下記投稿をご覧ください!」など導入表現を入れる
- 文章の最初は、「みなさん!SEOKWで〇〇ができるようになります」というニュアンスで、伝えたいことの結論を述べる
- 文章の最後は、投稿内容を応用してこれからできるようになりそうなことを一言で述べる
- 全体的に感情表現を交えてワクワクする感じにする
#XのURL
https://x.com/OpenAI/status/1864735515121168695
#参考情報
OpenAI o1がChatGPTでプレビューを終了し、正式に提供開始されました。
プレビュー版から何が変わったのでしょうか?より高速で強力な推論モデルとなり、コーディング、数学、執筆において優れた性能を発揮します。
また、o1では画像のアップロードにも対応し、視覚情報に基づいたより詳細かつ有用な応答が可能になりました。
OpenAI o1は、思考がより簡潔になったことで、o1プレビュー版よりも応答時間が短縮されています。
テスト結果では、o1は現実世界の難しい質問に対する大きな誤りを34%削減し、o1プレビュー版を上回る性能を示しました。
改訂されたOpenAI o1のシステムカードでは、これまでの安全性に関する取り組みを基に、堅牢性の評価、レッドチーミングの洞察、Instruction Hierarchyを活用した安全性の改善について詳細が説明されています。
拡張された評価スイートを用いたテストの結果、「中程度」のリスク評価が維持されており、導入に適した安全性が確認されています。
PlusおよびTeamプランのユーザーは、本日からモデルセレクタを通じてOpenAI o1を利用可能で、o1プレビュー版は置き換えられます。
Enterpriseおよび教育機関向けプランのユーザーは、1週間後にアクセス可能となります。
現在、ChatGPTにおけるOpenAI o1でウェブ閲覧やファイルアップロードなどのツールのサポート追加に向けて作業を進めています。
また、APIでのo1提供にも取り組んでおり、関数呼び出し、開発者向けメッセージ、構造化出力、ビジョンのサポートを含めた機能を追加予定ですので、ご期待ください。
さらに本日、新たなプラン「ChatGPT Pro」を導入しました。このプランでは、OpenAIの最高のモデルやツールを大規模に利用できるようになり、OpenAI o1の無制限アクセスに加え、さらに長時間考えることで一層信頼性の高い応答を提供するPro専用のo1バージョンも含まれます。
それでは恒例ですが、素のo1の回答からご覧あれ!
OpenAI o1の回答はこちら
これは論外ですね。「SEOKWであるOpenAI o1」「より高速かつエラー削減の新モデル」などなど、不自然な表現を多く含む文章が返ってきています。
さて、気を取り直してo1 pro modeの回答は……
o1 pro modeの回答はこちら
残念!「画像利用が可能となってワクワクします!」という表現をはじめとして、素のo1以下の文章が返ってきてしまいました。Xのリンクの位置も不自然で、全体的に無理やりレギュレーションに合わせているような感じがします。
やはり、OpenAI o1は問題解決専用のLLM。「文章生成にはGPT-4oとCanvasを使え」ということなのでしょう。
回答速度の比較
最後に、OpenAI o1とo1 pro modeの回答速度も比較しておきましょう。先ほどの文章生成タスクについて、両者の挙動をみてみると……
以上のとおりその差は歴然。素のo1が50秒かけて結論を出したのに対し、o1 pro modeはその10倍、なんと5分もかけて結論に至りました。
なお、o1 pro modeが使える有料プラン「ChatGPT Pro」について詳しく知りたい方は、下記の記事も合わせてご確認ください。
現時点ではo1もo1 pro modeも大差なし
当記事では、ついに正式リリースさたOpenAI o1とその上位モデルo1 pro modeの実力を、カタログスペックや実性能から比較しました。記事後半の実験結果について、もう一度振り返っていくと……
- 東大数学の問題:o1 & o1 pro modeともに失敗
- ゲームの制作:o1 & o1 pro modeともに失敗
- 化学の問題:o1 & o1 pro modeともに失敗
- ゲルマニウムラジオの設計:o1 & o1 pro modeともに失敗
- 軽トラキャンピングカーの設計:o1 & o1 pro modeともに成功、僅差でo1 pro modeの勝利
- WEEL風まとめ記事の生成:o1 & o1 pro modeともに失敗、僅差でo1の勝利
- 回答速度の比較:o1の勝利
以上のとおり。月額3万円を進んで支払うほどの性能差は別のところにあるのかもしれません。
そのうえで、o1シリーズに共通していえそうな性質は……
● o1もo1 pro modeも思考過程はだいたい一緒
● o1 pro modeの方が突き詰めて考える傾向アリ
● プロンプトと図を併用して、噛み砕いて説明するとタスクの成功率がUP
● 逆の立場に立ったり視点を変えたりして考えるのが苦手
● 自由度の高いタスクには不向き
こんな感じ。o1シリーズの実力を引き出すにはCSVやJSON等、ある程度整理されたデータを渡してあげる必要がありそうです。
最後に
いかがだったでしょうか?
OpenAI o1シリーズの性能や活用法を詳しく理解して、生成AIをビジネスに活かすチャンスをつかみましょう。最適なモデル選定や導入のポイントについても専門家がアドバイスします。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。