AGIに最も近いOpenAI o3が登場!数学とコーディングに強い次世代LLMの全貌
WEELメディア事業部AIライターの2scです。
みなさん!米国時間の2024年12月20日、OpenAIが衝撃的な新作LLM「OpenAI o3」を発表しました。
OpenAI o1の直接的な後継にあたるこのo3は、従来のLLM群が5年間解けなかった問題集「ARC-AGI」を攻略した……とか。AGI(汎用人工知能)の登場まで秒読みです。
当記事では、そんなOpenAI o3の基本的な仕様を紹介。完読いただくと、次世代LLMのヤバさがみえてきます。
ぜひぜひ、最後までお読みください。
OpenAI o3の概要
「OpenAI o3」は米国時間の2024年12月20日、12 Days of OpenAIの最終日に登場がアナウンスされたOpenAIの最新LLM。正式にリリースされたばかりであるOpenAI o1の後継(o2は欠番)で、独自の「推論」によって熟考して回答を出せるのが特徴です。
このOpenAI o3は、同社が開発を急ぐ「AGI(汎用人工知能)」に史上最も近いLLMになります。具体的には……
- 「o3 / o1-mini」の2モデル構成で、2025年初頭にリリース予定
- 回答をブラッシュアップして結論に至るしくみ「推論」を引き続き採用
- o3はAGIへの指標「ARC-AGI」をLLM史上初めてクリア
- o3は「EpochAI Frontier Math」でLLM史上初の数学力を発揮
- o3はその他、コーディング / 数学 / 科学でo1超えの性能を発揮
- o3-miniはo1並の性能をより高速かつ安価に実現
- o3-miniは推論の量をHigh / Medium / Lowの3段階で調整可能
- 新技術「Deliberative alignment」により脱獄耐性も大幅UP
このように、多方面で大きな快挙を達成しています。OpenAI曰く、人間的な直感が必要なタスクや初めて解く問題についても、このOpenAI o3なら可能とのことです。
なお、先代のo1について詳しく知りたい方は、下記の記事も合わせてご確認ください。
OpenAI o3の特徴・すごいところ
まずは、今最もAGIに近いLLMであるOpenAI o3の特徴・すごいところを4点ご紹介します。以下、LLM史上初の大快挙から詳しくみていきましょう!
LLM史上初、「ARC-AGI」をクリア!
OpenAI o3は現在、ライバルと大差をつけて、最もAGI(汎用人工知能)に近いLLM。非営利団体のARC Prizeが2019年から5年間公開してきたAGIへの達成度テスト「ARC-AGI」を史上初めて、クリアしています。(※4)
そんなARC-AGIでのo3ファミリー(推論量HighとLow)のスコアは……
以上のとおり、先代o1と比べて圧倒的に高得点!特に、o3のLowは理系出身のエリート(STEM GRAD)にも迫る76%ものスコアを、ほぼ同等のコストで叩き出しています。
ちなみに今回、OpenAI o3がクリアした問題の例は……
以上のとおり。「与えられた3例から左右の画像の法則性を求め、空白を埋める」というものになっていて、人間的な直感・機転が求められる難問です。これらが解けるOpenAI o3については、初めて与えられた問題・タスクもある程度解決できるとのことでした。
「EpochAI Frontier Math」での数学力UP
OpenAI o3の実力とくに数学力は、従来のベンチマークの範囲を逸脱しつつあります。
そこで開発陣は、OpenAI o3に新たな数学のテスト「EpochAI Frontier Math」を課しました。こちらは従来のLLMで、スコアがたったの2%しか出ない超難問。なのですが……
OpenAI o3はなんと、25.2%という圧倒的なスコアを叩き出しています!
その他ベンチマークでも大躍進
OpenAI o3はその他、コーディング / 数学 / 科学の定番ベンチマークでも、先代o1に大差をつけて圧勝しています。(※2)具体的には……
内容 | OpenAI o1のスコア | OpenAI o3のスコア | |
---|---|---|---|
SWE-bench Verified | 実務レベルのプログラミングタスク集 | 48.9% | 71.7% |
Codeforces | 競技プログラミングの問題集 | 1891点 (参加者の上位約10%並) | 2727点 (OpenAI在籍のプログラマー並) |
AIME 2024 | アメリカ数学オリンピックの問題集 | 83.3% (アメリカの学生の上位500名並) | 96.7% |
GPQA Diamond | 博士卒(Ph.D.)レベルの科学知識の問題集 | 78% (博士課程の学生超え) | 87.7% |
以上のとおり。OpenAI o3は各方面で、着実に成長を遂げています。
コスト・速度に優れた「o3-mini」も登場
OpenAI o3と同時に、コスト・速度に優れた派生モデル「OpenAI o3-mini」も発表されました。(※2)こちらはプログラミング能力に長けており、先代o1と同等以上のCodeforcesスコアを1/5程度のコスト&速度で叩き出しています。(下図)
さらに、GPQA Diamondやその他指示への従いやすさにおいても……
以上のとおりo3-miniは優れた成績を残しています。
また、o3-miniには考える量(Reasoning Effort)をHigh / Medium / Lowの3段階で切り替える機能が搭載予定とのこと。タスクごとに最適なスペックとコストパフォーマンスが選べるそうです。
「Deliberative alignment」で脱獄耐性UP
OpenAI o3に今後適用されるかもしれないセキュリティ対策に、「Deliberative alignment」という新技術があります。こちらはo1やo3の緻密な推論能力を不正検出に応用したもので、対策がイタチごっこになっていた暗号風の脱獄プロンプトをも未然に検閲できるそうです。(※3)
このDeliberative alignmentを適用した先代o1の検閲の正確性(縦軸)と脱獄耐性(横軸)は……
以上のとおりで、グラフの右上を高い検閲の正確性&脱獄耐性を示したo1ファミリーが占めています。今後Deliberative alignmentがOpenAI o3 / o3-miniに実装されれば、安全性の高いAIエージェントが開発できるかもしれませんね。
なお、先代のo1とo1 pro modeの比較ついて詳しく知りたい方は、下記の記事も合わせてご確認ください。
AGIに大きく一歩近づいた「OpenAI o3」
当記事では、OpenAI o1の後継にあたるLLM「OpenAI o3」についてご紹介しました。以下にてもう一度、OpenAI o3が達成したことを振り返っていきましょう!
- AGIへの指標「ARC-AGI」をLLM史上初めてクリア
- 「EpochAI Frontier Math」でLLM史上初の数学力を発揮
- o1並の性能をより高速かつ安価に実現(o3-mini)
- 新技術「Deliberative alignment」により脱獄耐性も大幅UP
以上のとおり、OpenAI o3の性能は他のLLMの追随を許しません。回答をブラッシュアップする「推論」を極めた結果、人間的な直感が求められるタスクや初めて解く問題についても、ある程度対応ができるようになっています。
この調子でLLMの進歩が続けば、近い将来AGI(汎用人工知能)が登場してもおかしくない……かも。引き続きWEELで、生成AI業界の動向をキャッチアップしていきましょう!
最後に
いかがだったでしょうか?
LLMは高度な推論や分析を活用し、業務効率化だけでなく、新たなサービスの創出や意思決定の迅速化を支援することが可能です。貴社の競争力向上に直結する具体的な導入アイデアを見つけませんか?
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。