AGIに最も近いOpenAI o3が登場！数学とコーディングに強い次世代LLMの全貌

2024-12-21

WEELメディア事業部AIライターの2scです。

みなさん！米国時間の2024年12月20日、OpenAIが衝撃的な新作LLM「OpenAI o3」を発表しました。

OpenAI o1の直接的な後継にあたるこのo3は、従来のLLM群が5年間解けなかった問題集「ARC-AGI」を攻略した……とか。AGI（汎用人工知能）の登場まで秒読みです。

New verified ARC-AGI-Pub SoTA!@OpenAI o3 has scored a breakthrough 75.7% on the ARC-AGI Semi-Private Evaluation.

And a high-compute o3 configuration (not eligible for ARC-AGI-Pub) scored 87.5% on the Semi-Private Eval.

1/4 pic.twitter.com/uQA47JWkl6
— ARC Prize (@arcprize) December 20, 2024

当記事では、そんなOpenAI o3の基本的な仕様を紹介。完読いただくと、次世代LLMのヤバさがみえてきます。

ぜひぜひ、最後までお読みください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

OpenAI o3の概要

「OpenAI o3」は米国時間の2024年12月20日、12 Days of OpenAIの最終日に登場がアナウンスされたOpenAIの最新LLM。正式にリリースされたばかりであるOpenAI o1の後継（o2は欠番）で、独自の「推論」によって熟考して回答を出せるのが特徴です。

このOpenAI o3は、同社が開発を急ぐ「AGI（汎用人工知能）」に史上最も近いLLMになります。具体的には……

「OpenAI o3」の概要（※2、3）

「o3 / o1-mini」の2モデル構成で、2025年初頭にリリース予定
回答をブラッシュアップして結論に至るしくみ「推論」を引き続き採用
o3はAGIへの指標「ARC-AGI」をLLM史上初めてクリア
o3は「EpochAI Frontier Math」でLLM史上初の数学力を発揮
o3はその他、コーディング / 数学 / 科学でo1超えの性能を発揮
o3-miniはo1並の性能をより高速かつ安価に実現
o3-miniは推論の量をHigh / Medium / Lowの3段階で調整可能
新技術「Deliberative alignment」により脱獄耐性も大幅UP

このように、多方面で大きな快挙を達成しています。OpenAI曰く、人間的な直感が必要なタスクや初めて解く問題についても、このOpenAI o3なら可能とのことです。

OpenAI o3では、2024年12月20日から2025年1月10日まで、一部のテストユーザー向けに早期アクセスの募集がなされています。気になった方は、OpenAI o3の早期アクセス応募フォームを要チェックです！（※5）

なお、先代のo1について詳しく知りたい方は、下記の記事も合わせてご確認ください。

WEEL

OpenAI o1徹底解説！使い方・料金・GPT-4oを超える新機能とは？ | WEEL ChatGPTで使える最新LLM「OpenAI o1」を徹底レビュー！理数科目の問題解決やコーディング支援に最適な性能を持ち、回答速度も大幅UP。GPT-4oとの違いや料金、使い方のポイ…

OpenAI o3の特徴・すごいところ

まずは、今最もAGIに近いLLMであるOpenAI o3の特徴・すごいところを4点ご紹介します。以下、LLM史上初の大快挙から詳しくみていきましょう！

LLM史上初、「ARC-AGI」をクリア！

OpenAI o3は現在、ライバルと大差をつけて、最もAGI（汎用人工知能）に近いLLM。非営利団体のARC Prizeが2019年から5年間公開してきたAGIへの達成度テスト「ARC-AGI」を史上初めて、クリアしています。（※4）

そんなARC-AGIでのo3ファミリー（推論量HighとLow）のスコアは……

以上のとおり、先代o1と比べて圧倒的に高得点！特に、o3のLowは理系出身のエリート（STEM GRAD）にも迫る76%ものスコアを、ほぼ同等のコストで叩き出しています。

ちなみに今回、OpenAI o3がクリアした問題の例は……

以上のとおり。「与えられた3例から左右の画像の法則性を求め、空白を埋める」というものになっていて、人間的な直感・機転が求められる難問です。これらが解けるOpenAI o3については、初めて与えられた問題・タスクもある程度解決できるとのことでした。

OpenAI o3は依然として、人間なら簡単なタスクで一部失敗するそう。OpenAI o3と人間の知能は、根本的に違っているとのことです。

「EpochAI Frontier Math」での数学力UP

OpenAI o3の実力とくに数学力は、従来のベンチマークの範囲を逸脱しつつあります。

そこで開発陣は、OpenAI o3に新たな数学のテスト「EpochAI Frontier Math」を課しました。こちらは従来のLLMで、スコアがたったの2%しか出ない超難問。なのですが……

参考：https://www.youtube.com/watch?v=SKBG1sqdyIU

OpenAI o3はなんと、25.2%という圧倒的なスコアを叩き出しています！

その他ベンチマークでも大躍進

OpenAI o3はその他、コーディング / 数学 / 科学の定番ベンチマークでも、先代o1に大差をつけて圧勝しています。（※2）具体的には……

スクロールできます

	内容	OpenAI o1のスコア	OpenAI o3のスコア
SWE-bench Verified	実務レベルのプログラミングタスク集	48.9%	71.7%
Codeforces	競技プログラミングの問題集	1891点（参加者の上位約10%並）	2727点（OpenAI在籍のプログラマー並）
AIME 2024	アメリカ数学オリンピックの問題集	83.3% （アメリカの学生の上位500名並）	96.7%
GPQA Diamond	博士卒（Ph.D.）レベルの科学知識の問題集	78% （博士課程の学生超え）	87.7%

以上のとおり。OpenAI o3は各方面で、着実に成長を遂げています。

コスト・速度に優れた「o3-mini」も登場

OpenAI o3と同時に、コスト・速度に優れた派生モデル「OpenAI o3-mini」も発表されました。（※2）こちらはプログラミング能力に長けており、先代o1と同等以上のCodeforcesスコアを1/5程度のコスト&速度で叩き出しています。（下図）

さらに、GPQA Diamondやその他指示への従いやすさにおいても……

以上のとおりo3-miniは優れた成績を残しています。

また、o3-miniには考える量（Reasoning Effort）をHigh / Medium / Lowの3段階で切り替える機能が搭載予定とのこと。タスクごとに最適なスペックとコストパフォーマンスが選べるそうです。

「Deliberative alignment」で脱獄耐性UP

OpenAI o3に今後適用されるかもしれないセキュリティ対策に、「Deliberative alignment」という新技術があります。こちらはo1やo3の緻密な推論能力を不正検出に応用したもので、対策がイタチごっこになっていた暗号風の脱獄プロンプトをも未然に検閲できるそうです。（※3）

このDeliberative alignmentを適用した先代o1の検閲の正確性（縦軸）と脱獄耐性（横軸）は……

参考：https://openai.com/index/deliberative-alignment/

以上のとおりで、グラフの右上を高い検閲の正確性&脱獄耐性を示したo1ファミリーが占めています。今後Deliberative alignmentがOpenAI o3 / o3-miniに実装されれば、安全性の高いAIエージェントが開発できるかもしれませんね。

なお、先代のo1とo1 pro modeの比較ついて詳しく知りたい方は、下記の記事も合わせてご確認ください。

WEEL

【OpenAI o1 VS o1 pro mode】違い・活用法・使い勝手を実際の検証で徹底比較！ | WEEL OpenAIの最新モデルo1とChatGPT Pro限定のo1 pro modeを徹底比較！スペックや性能の違いを解説し、どちらを選ぶべきか判断の参考に。ChatGPT Pro加入を検討中の方必見！

AGIに大きく一歩近づいた「OpenAI o3」

当記事では、OpenAI o1の後継にあたるLLM「OpenAI o3」についてご紹介しました。以下にてもう一度、OpenAI o3が達成したことを振り返っていきましょう！

OpenAI o3が達成したこと

AGIへの指標「ARC-AGI」をLLM史上初めてクリア
「EpochAI Frontier Math」でLLM史上初の数学力を発揮
o1並の性能をより高速かつ安価に実現（o3-mini）
新技術「Deliberative alignment」により脱獄耐性も大幅UP

以上のとおり、OpenAI o3の性能は他のLLMの追随を許しません。回答をブラッシュアップする「推論」を極めた結果、人間的な直感が求められるタスクや初めて解く問題についても、ある程度対応ができるようになっています。

この調子でLLMの進歩が続けば、近い将来AGI（汎用人工知能）が登場してもおかしくない……かも。引き続きWEELで、生成AI業界の動向をキャッチアップしていきましょう！

参考記事

最後に

いかがだったでしょうか？

LLMは高度な推論や分析を活用し、業務効率化だけでなく、新たなサービスの創出や意思決定の迅速化を支援することが可能です。貴社の競争力向上に直結する具体的な導入アイデアを見つけませんか？

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ