AGI終末時計

Doomsday Clock

AGIとは、汎用型人工知能のことで、人間と同じように思考して、

人間が実現可能なあらゆる知的作業を理解・学習・実行することが可能な人工知能のことです。

AGIとは、汎用型人工知能のことで、人間と同じように思考して、人間が実現可能なあらゆる知的作業を理解・学習・実行することが可能な人工知能のことです。

00Days

00Hours

00Minutes

00Seconds

We’re less than 3 years from AGI – Elon Musk
AGI could be developed in the “reasonably close-ish future.” – Sam Altman

※残り日数は、イーロンマスクやサムアルトマンの発言を元に2027年にAGIが到来すると仮定したもの

※残り日数は、イーロンマスクやサムアルトマンの発言を元に

2027年にAGIが到来すると仮定したもの

※残り日数は、イーロンマスクやサムアルトマンの発言を元に2027年にAGIが到来すると仮定したもの

AGI終末時計は、
生成AI業界を牽引する著名人の予測をもとに作成いたしました。
今後は、皆様からのご意見を元に客観的な視点をもって随時更新されていきます。

AGIの誕生まで残り──３年。

「AGI終末時計」は、現在のAIの進歩を可視化することで、

AGIの到来にどこまで近づいているかをお伝えします。

それまでの過程で私達の働き方がどのように変わり、
AIに置き換わっていくのでしょうか？

カウントダウンするだけでは意味がない。

今私たちに必要なことは──未来に追いつくこと。

AGI終末時計では、AIによる仕事の置き換えやAIを使った働き方について、
業務別
業界別(未実装)
職業別(未実装)
といった観点から表示していきます。

AGI終末時計は、

生成AI業界を牽引する著名人の予測をもとに作成いたしました。

今後は、皆様からのご意見を元に客観的な視点をもって随時更新されていきます。

AGIの誕生まで残り──３年。

「AGI終末時計」は、現在のAIの進歩を可視化することで、

AGIの到来にどこまで近づいているかをお伝えします。

それまでの過程で私達の働き方がどのように変わり、

AIに置き換わっていくのでしょうか？

カウントダウンするだけでは意味がない。

今私たちに必要なことは──未来に追いつくこと。

AGI終末時計では、AIによる仕事の置き換えやAIを使った働き方について、

業務別、業界別(未実装)、職業別(未実装)、

といった観点から表示していきます。

AGI到達レベル

AIビックテックのAGI到達レベルは、2023年11月に発表されたGoogle Deepmindの「Levels of AGI: Operationalizing Progress on the Path to AGI」という論文内に記載されていた、Levels of AGIという表を参考に作成しています。

弊社ではレベル4をAGI達成と解釈し、それを100%とした時の現在の数値を記載しています。

Google Deepmind Levels of AGI（2024年6月時点）

Scroll

パフォーマンス×一般性	狭義(明確に範囲が定められたタスク)	広義(身体を伴わないタスク)
レベル0：AIでない	狭義の非AI: 電卓ソフトウェアコンパイラ	広義の非AI: 人間参加型計算例： Amazon Mechanical Turk
レベル1：発展途上未熟な人間と同等かそれよりも若干優れている	発展途上の狭義のAI: GOFAI (Boden, 2014) simple rule-based systems e.g. SHRDLU (Winograd, 1971)	発展途上のAGI ChatGPT(OpenAI, 2023) Bard(Anil et al., 2023) Llama2(Touvron et al,2023) Gemini(Pichai and Hassabis, 2023)
レベル2：有能熟練者の内、少なくともその中央値に達している	有能な狭義のAI: 有害性検出器例： Jigsaw (Das et al., 2022) スマートスピーカー例： Siri (Apple), Alexa (Amazon) Googleアシスタント (Google) VQAシステム例： PaLI (Chen et al, 2023) Watson (IBM) 特定のタスクのための最先端LLMS 例：短いエッセイの執筆シンプルなコーディング	有能なAGI: 未達成
レベル3：専門家熟練者の内、少なくともその上位10%に達している	専門家レベルの狭義のAI: スペリング文法チェッカー例： Grammarly (Grammarly, 2023) 画像生成モデル例： Imagen (Saharia et al., 2022) DALL-E 2 (Ramesh et al., 2022)	専門家レベルのAGI: 未達成
レベル4：名人熟練者の内、少なくともその上位1%に達している	名人レベルの狭義AI: Deep Blue (Campbell et al., 2002), AlphaGo (Silver et al., 2016, 2017)	名人レベルのAGI: 未達成
レベル5：超人全人類より優れている	超人レベルの狭義AI: AlphaFold (Jumper et al., 2021) AlphaZero (Silver et al., 2018) StockFish (Stockfish, 2023)	人工超知能 (ASI): 未達成

AIビックテックのAGI到達レベル

（2025年6月30日更新）

AIビックテックのAGI到達レベル変遷

更新日	概要
2025年6月25日	Googleは最新の大規模言語モデルGemini 2.5 Proを直接呼び出せるツール「Gemini CLI」を公開。 VS Code拡張のGemini Code Assistと同じエージェント基盤でありながら、より軽量かつスクリプトからも自在に呼び出せる点が特徴。
2025年6月18日	2025年6月18日、「Gemini 2.5 Flash-Lite」が登場。 Gemini 2.5モデルの中で最も高速に動作し、最もコストに優れたモデル。最大100万トークンの長文入力に対応し、テキスト・画像・音声・動画といったマルチモーダルにも対応。
2025年6月11日	2025年6月11日、OpenAIは推論特化型モデル「o3」の最上位版となる 「o3‑pro」 をリリース！ 200 kトークンという巨大なコンテキストを保持しながら、数理・科学・コーディング領域で従来モデルを上回る精度を実現。 OpenAIは「最も信頼できる汎用AI」と位置付けており、教育・研究・ビジネスの現場で“考える作業”そのものを肩代わりする存在として注目を集めている。	変遷
2025年6月6日	2025年6月6日、Alibabaから新たなAIモデル「Qwen3-Embedding」が登場！テキスト埋め込みモデルで、多言語対応。従来のLLMと異なり、明示的なタスク記述に対応したLLM。
2025年6月3日	2025年6月3日、Googleから「Gemini Fullstack LangGraph」が公開！ Geminiモデルの高精度な推論力とLangGraphの柔軟なエージェント制御が可能で検索クエリの自動生成からウェブ調査、ギャップ分析、回答生成までを一気通貫で実装しているのが特徴。　公開からわずか数日でGitHub 2,000star超えを記録しており、LLMエンジニアの間で話題を呼んでいる。	変遷
2025年5月23日	Anthropicから「Claude Opus 4」が登場！コーディング性能が高いLLMであり、さらに複雑な問題解決に優れており、複数のエージェントに採用されている。 Cursor社や楽天が高い評価をしている。	変遷
	同日「Claude Sonnet 4」が登場！「高速性」と「深い推論力」のバランスを兼ね備えたモデル。前世代のSonnet 3.7の「ハイブリッド推論」をさらに発展させ、用途に応じて即座に高速レスポンスを返したり、じっくりと思考を深めたりと自在に調整可能。
2025年5月21日	AI技術を中心に多数の新機能が発表された。 Gemini 2.5 Proの強化や、対話型検索が可能な「Google検索のAIモード」などが注目を集めたほか、新たなLLMやAIアシスタント機能の進化も披露された。
	「Gemma 3n」が登場。軽量・高性能なオープンソースAIモデルであり、スマートフォンやタブレットなどのオンデバイス実行に最適化。 Gemini Nanoと同じ基盤技術を使用し、「日常のデバイス上で動作するリアルタイムAI体験の実現」を目指して設計されたAIモデル。
	Gemini Diffusionという「テキスト用拡散モデル」という新機軸を採用した研究モデルが公開。従来の大規模言語モデル（LLM）がトークンを一語ずつ逐次的に出力するのに対し、 Gemini Diffusionは、“ノイズを洗練させる”拡散過程を経て、複数トークンをブロック単位で同時に生成する。
	動画生成AIのVeo3が登場！音声付きの動画がプロンプト1つで生成できるように進化していて、編集・リップシンク不要で会話調のショート動画などが作成可能に。
	コーディング用AIエージェント「Jules」がリリース。ソースコードの生成からデバッグ、プルリクエストまでの高度な自動化が可能。 OpenAIが繰り出す「Codex」の直接的なライバル。
2025年5月17日	2025年5月17日、OpenAIから「Codex」が登場！ ChatGPTのサイドバーやターミナル、API経由で動作し、コード生成からテスト、自動リファクタリングまでを一気通貫でサポート。従来のコード補完ツールと異なり、仮想マシン内でコマンドを実行しながら結果を説明してくれるため、開発プロセスの透明性と安全性が大幅に向上。	変遷
2025年5月2日	Claudeに新機能「Integrations」を実装。 Web版&デスクトップ版Claudeと外部ツールを「MCPサーバーのインストールなし」で実現してくれるように。 Claudeと外部ツールをシームレスに連携することが可能。	変遷
2025年4月30日	Alibaba Cloudから最新大規模言語モデルファミリー「Qwen 3」がリリース！前世代のQwen 2.5の推論・多言語性能に加え、思考プロセスを“見せる／隠す”モードを自在に切り替えられるハイブリッド設計を採用し、パフォーマンスとコスト効率を大幅に向上。
	Microsoftから新たなSLM「Phi-4-reasoning」が登場。推論に特化したSLM (Small Language Model) であり、特に数学、科学推論、アルゴリズムの問題解決、コーディングといった分野で高い性能を発揮。大規模言語モデルに匹敵する性能を軽量な構成で実現することを目的にしている。
2025年4月18日	Googleから新たな大規模言語モデル「Gemini 2.5 Flash」がリリース。速応答とコスト効率を維持しつつ高度な推論能力を備えた「ハイブリッド推論モデル」で、従来モデル（Gemini 2.0 Flash）の優れた基盤の上に構築されており、初めて「思考（thinking）」モードをオン/オフできる設計が採用。	変遷
2025年4月17日	OpenAIから「o3」が登場。 GPT-4までの従来モデルと比べ、「より長く考えてから回答する」ことを特徴とする「oシリーズ」の第3世代モデル。 ChatGPT環境において、ツールのフル活用が可能で、ウェブ検索・コード実行（Python）・ファイルや画像の解析・画像生成といったあらゆるツールを自律的に組み合わせて問題解決ができるように。
	同日、推論能力やコスト効率にも優れたハイバランスモデル「o4-mini」が公開。軽量でありながらも、推論能力が向上しているモデル。軽量ながらもマルチモーダル対応であり、手書きの文字や画像内の情報も理解可能。
	ターミナル上からコマンドラインで操作することができる、コーディングエージェント「Codex CLI」も公開。マルチモーダル対応であり、スクリーンショットや手書きのUIスケッチからコードが生成でき、すべての処理はユーザーのローカル環境内で行われる。
2025年4月9日	Googleが、Agent2Agentというオープンプロトコルを発表。異なるベンダーやフレームワークで構成されたAIエージェント同士をシームレスに連携し、一括で作業を行えるようにするプロトコル。 50社以上のテクノロジーパートナー主要なサービスプロバイダーが参加しており、今後更なる機能の拡大が期待されている。	変遷
2025年3月26日	Googleから試験版の「Gemini 2.5 Pro」が公開。これまでで最も知的と位置づけられた次世代モデルであり、回答生成前に内部で「思考」する能力を備えた大規模言語モデル。前モデルのGemini 1.5やGemini 2.0 Proから大幅に進化しており、数学・科学・コードの各種ベンチマークで競合を凌駕する結果に。	変遷
2025年3月24日	Microsoftから「Playwright MCP」が登場。 LLMがWebブラウザを操作できるようにするためのツール。高速かつ軽量で従来のスクリーンショットに頼らない新たな手法を用いているとのこと。
2025年3月21日	2025年3月21日、OpenAIが次世代音声認識モデル「GPT-4o Transcribe」「GPT-4o Mini Transcribe」を公開。「GPT-4o Transcribe」は、従来のWhisperモデルを上回る性能を持ち、テキストベースのAIエージェントを音声対話へと拡張するような仕組み。「GPT-4o Mini Transcribe」はGPT-4o Transcribeの軽量高速版であり、モデルサイズを小型化し、推論速度を向上させている。	変遷
	同日、OpenAIから新たな音声合成モデル「GPT-4o Mini TTS」も公開。従来の音声合成モデルに比べ、テキストをより自然な音声に変換するための軽量かつ高性能モデル。話し方を指示できるのが大きな特徴で、音声出力の対応言語は多言語対応になっており、英語はもちろん、スペイン語や日本語、フランス語、中国語などに対応している。
2025年3月12日	2025年3月12日、OpenAIから新たなマルチエージェントワークフロー「Agents SDK」と従来の「Chat Completions API」と「Assistants API」の統合「Responses API」が登場。 Agents SDKは、「swarm」をベースに改良されたAIエージェント開発フレームワークで、高度なAIエージェント構築の支援、複雑なタスクの自動化を容易にすることを目的としている。 Webサーチやファイルサーチ、コンピューター操作といったツールも組み込まれ、誰でも標準利用可能に。	変遷
	2025年3月12日、Googleから「Gemma 3」が公開された。リリースされたモデルは1B、4B、12B、27Bの4モデルで、1B以外はマルチモーダル対応(画像)。 Gemma 2と比べると、全てのベンチマークでスコアが向上しているが、 Gemini 2.0 FlashとProで比較してみると、性能がやや劣るよう。
2025年2月27日	2025年2月27日、OpenAIはGPT-4oの後継にあたる「GPT-4.5」を公開。思考力と会話の自然さが向上したGPT-4.5では、従来モデルよりもわかりやすく、適切な回答が行えるようになった。	変遷
	2025年2月27日、Microsoftから新しい言語モデル「Phi-4-mini」が公開。 Phi-4-miniは3.8億パラメータを持つコンパクトなモデル。従来の大型モデルに匹敵する性能を発揮。小型かつ高速なモデル設計のため、エッジデバイスやオンデバイス実行での利用が可能に。
	2025年2月27日、Microsoftから新しい言語モデル「Phi-4-multimodal」が公開。 Phi-4-multimodalはテキストのみならず画像や音声などの入力が可能なマルチモーダルモデル。テキストだけではなく、画像や音声などの組み合わせによる推論が可能になっていて、音声+テキストや画像+音声などといった推論が可能に。
2025年2月20日	2025年2月20日、「PaliGemma 2」をベースとした「PaliGemma 2 mix」を公開。追加の学習なしで汎用的な画像と言語の処理能力を発揮する実用的なモデルであり、マルチモーダル入力も可能。物体検出やOCRに活用できる。
2025年2月25日	2025年2月25日、AnthropicからClaudeの新たなモデル「Claude 3.7 Sonnet」が公開。安全性と性能を兼ね備えたハイブリッド型の推論モデル。従来のモデルにはない新たな「拡張思考モード」を搭載し、複雑な問題に対しても回答できるように。
2025年2月6日	2025年2月6日、Googleは「Gemini 2.0シリーズ」を拡張。 Gemini 2.0に「Pro」モデルと「Flash-Lite」モデルが追加された。 Gemini 2.0 Proは、これまでのモデルに比べコーディング性能が向上。 200万トークンのコンテキストウィンドウをもち、大量の情報を一度に処理することも可能に。 Gemini 2.0 Flash-Liteは低コスト版として開発され、処理コストは100万トークンあたり約0.019ドル。	変遷
2025年2月2日	2025年2月2日、ChatGPTの新機能であるdeep researchを公開。検索、分析し、高精度なレポートを自動生成するエージェント機能を搭載。	変遷
2025年1月31日	2025年1月31日OpenAIから「o3-mini」が登場。従来の「o1-mini」と比較して応答速度が24%向上し、より正確な回答を提供。推論モデルと検索機能が統合された初期のモデルとなった。	変遷
2025年1月29日	2025年1月29日、QwenグループからVLM「Qwen2.5-Max」が登場。3日連続のリリースとなった。事前トレーニングは20兆トークンで、 DeepSeek V3、GPT-4o、Claude-3.5-SonnetなどのLLMと比較し、 DeepSeek V3を上回る性能を発揮。	変遷
2025年1月28日	2025年1月28日、QwenグループからVLM「Qwen2.5-VL」が公開された。画像とテキストだけではなく1時間を超える動画を解析し、特定のイベントを識別することが可能。エージェント機能が搭載され、AndroidのUI操作やタスク実行ができるようになった。
2025年1月27日	2025年1月27日、Qwenグループから「Qwen2.5-1M」が登場。他の大規模言語モデルと比較して、同等またはそれ以上の性能を持ちながら、計算コストが低く、効率的に動作するように。	変遷
2025年1月23日	2025年1月23日、OpenAIからWebブラウザを直接操作してタスクをこなすことができるAIエージェントが公開。画面に表示されるボタンやメニュー、テキストなどのGUIで操作できるように。	変遷
2025年1月21日	ソフトバンク、OpenAI、オラクル、MGX、Arm、Microsoft、NVIDIAなど大手企業を中心に全世界に莫大な経済的利益をもたらす取り組み。 AI技術の安全性と倫理的側面への配慮は不可欠であり、これらの企業は透明性のある運用で、新しい時代を築いていくことが期待されている。
2025年1月14日	OpenAIは、2025年1月14日に、リマインダー機能である「タスク」を有料プラン加入ユーザー向けにベータ版として提供開始。指定した時間に指定したタスクをこなすことができるので、 ChatGPTを使って毎日繰り返し行う作業や、時間になったら最新のニュースを通知してくれる様に。
2024年12月20日	2024年12月19日、macOSアプリ版ChatGPTが大幅アップデート。連携できるコーディングアプリが追加され、連携できるノートアプリも追加。 Advanced Voiceからの外部アプリ操作も実現。 2025年明けからは、Windowアプリや無料版でもリリース予定。	変遷
	Googleが2024年12月20日に「Gemini 2.0 Flash Thinking」を公開。ライバルであるOpenAI o1の推論トークンと似た技術で「回答毎に思考過程を繰り返し生成して結論に至る」という仕組み。実際に検証したところ、o1の方が優れているという結果になったが、生成スピードはGemini 2.0 Flash Thinkingの方が上だった。 61→64に変更。	変遷
2024年12月19日	2024年12月19日、macOSアプリ版ChatGPTが大幅アップデート。連携できるコーディングアプリが追加され、連携できるノートアプリも追加。 Advanced Voiceからの外部アプリ操作も実現。 2025年明けからは、Windowアプリや無料版でもリリース予定。
2024年12月18日	2024年12月18日、ChatGPT用の電話番号「1-800-ChatGPT（1-800-242-8478）」が登場。米国限定だが、アカウント&利用料なしで、毎月15分まで通話可能。 WhatsAppによるメッセージのやり取りにも対応。
2024年12月17日	2024年12月17日、API版のOpenAI o1が新機能とともにTier 5以上の開発者向け限定でリリース。 Advanced Voice ModeのAPI版、Realtime APIがアップデート。さらに新手法「Preference Fine-Tuning（選考性ファインチューニング）」が登場。
2024年12月16日	2024年12月16日、ChatGPT search無料プランでも使用可能に。 Advanced Voice Modeにも対応し、音声会話での検索ができるように。スマホアプリ版にも地図機能が実装、地元のレストランや施設もできる。
2024年12月13日	2024年12月13日、MicrosoftからPhi-4が発表。 140億パラメータでありながらもGPT-4oと同等な性能を持つとされ、数学タスクではLLMをも凌駕するとのこと。14→18へ。	変遷
	2024年12月13日にChatGPTでの作業を助ける新機能「プロジェクト（Projects）」が実装。チャット・ファイル・カスタム指示の一括管理ができる機能で、より便利に。66→67に変更。
2024年12月12日	Googleが2024年12月12日に「Gemini2.0 Flash」を公開。情報を処理するだけでなく、ユーザーのニーズや背景を理解し、その情報を基に「次に何が必要か」を考え、さらにその計画に従って行動できるモデルとして設計されている。 57→61に変更。	変遷
	2024年12月12日、Advanced Voice Modeに、端末のカメラを使ったビデオ通話&画面共有の機能「Advanced voice with video」が追加。カメラや画面の内容をリアルタイムで共有できるように。64→66に変更。	変遷
	2024年12月12日、Grok2がxのすべてのユーザーに公開。 8月にリリースしたものより3倍ほど高速で、精度の向上もされた。23→24に。	変遷
2024年12月11日	2024年12月11日、Apple IntelligenceとChatGPTが連携。 Siriのように必要に応じてChatGPTが質問に回答してくれ、カメラとの連携やMac上での補助ができるように。	変遷
2024年12月10日	2024年12月10日、ChatGPTユーザー全員全員にCanvas機能が利用できるように。 2024年10月に有料プランで先行公開された機能。 Canvasだけで文書作成やコーディングが完結させられるように。
2024年12月9日	Googleが2024年12月9日にリリースした最新の実験段階LLM「gemini-exp-1206」 200万トークン超のコンテキストウィンドウを持ち、マルチモーダルに機能を搭載。総合性能（Overall）で1位を獲得し、さまざまなタスクで高い性能を発揮。55→57に。	変遷
	2024年12月9日にxAIのGrokから画像生成機能が公開。より人間のアイディアに沿った画像が生成でき、xのすべてのユーザーで利用可能に。20→23に変更。	変遷
	2024年12月9日、OpenAIがSoraを公開。今年の2月に発表されており、テキスト・画像・動画からの動画生成が直感的に行える。高品質な動画生成が可能。	変遷
2024年12月6日	2024年12月5日、OpenAIが強化学習型ファインチューニングを発表。特定タスクへの特化に加え、正確性の向上も実現したそう。現在は研究・企業向けのみ募集している。
2024年12月5日	2024年12月5日、OpenAIが「ChatGPT Pro」を公開。長く熟考する代わりに、理数科目や法律関連でより高度な問題解決能力を発揮する。従来のo1を差し置いて圧倒的なベンチマークを獲得。57→61に変更。	変遷
2024年12月4日	2024年12月4日にGoogleが「Genie2」を公開。テキストや画像から3D仮想世界を生成する基盤世界モデル。人やAIがキーボードやマウスを使って操作すると、その結果をシミュレーションして画面に反映できるように。49→52に変更。	変遷
2024年11月28日	2024年11月28日にQwenグループから「QwQ」が登場。数学やプログラミングの分野で期待されているが、研究段階のモデル。36→37に変更。	変遷
2024年11月26日	2024年11月26日Anthropicから「Model Context Protocol」がリリース。サービス間の文脈を維持しながら効率的にデータを扱えるように。50→54に変更。	変遷
2024年11月15日	Googleから新たなGeminiモデル「Gemini-exp-1114」が公開。ベンチマーク上ChatGPTを抑え、総合世界1位に。 45→49に変更。	変遷
2024年11月12日	アリババクラウドが新たな大規模言語モデル「Qwen2.5-Coder」を公開。 GPT-4oのコーディング能力に匹敵する性能があるとして、35→36に変更。	変遷
2024年10月31日	OpenAIが検索エンジン機能「ChatGPT search」をChatGPTに実装。 GoogleやPerplexityといった外部の検索エンジンにアクセスしなくても、必要十分な情報が引用付きで得られるように。よって、54→57に変更。	変遷
2024年10月23日	2024年10月23日に Claude 3.5 Sonnetの更新と、新しいClaude 3.5 Haikuを公開。さらに、computer useというAPI経由で動作するAIエージェントも発表。47→50に。しかし、この機能はベータ版で、スクロールやドラッグが苦手で、スパムや詐欺への流用が懸念されている。	変遷
2024年10月22日	2024年10月22日、イーロンマスクが率いるAI企業xAIがAPIを公開。 Grokモデルを使用するためのAPIであり、エンジニアや開発者は Grokの大規模言語モデルをもとに開発が可能に。 17→20に変更。	変遷
2024年10月10日	日本時間2024年10月10日にGoogleが「Imagen3」を公開。人物の表情や服のしわ、風景の細かな質感など、より細部まで正確に再現できるように。また、テキストの描画能力も格段に向上。よって43→45に更新。	変遷
2024年10月3日	日本時間2024年10月3日、ChatGPTの新機能「Canvas」が公開された。生成した文章・ソースコードの気になる箇所を指定してピンポイントで修正が可能に。 GPT-4oでは素のモデルよりも、コメントの正確性が30％、質が16％向上した。52→54に変更。	変遷
2024年9月25日	「Advanced Voice Mode」がChatGPT アプリPlusとTeamユーザーに公開された。日本語を含む50以上の言語に対応しており、自然な音声会話が可能。 9種類の音声から選択でき、口調やアクセントの記憶までできるようになった。その精度の良さに全世界のユーザーが驚いた。49→52に変更。	変遷
2024年9月24日	Geminiの最新版「Gemini-1.5-Pro-002 / Gemini-1.5-Flash-002」が公開。 GPT-4oと比較したところ、理数科目のタスクに対してはそこまで良い結果が得られなかった。しかし、要約タスクでは、順番を変更したり、複数の表を使うことで読みやすい回答を得られた。よって、42→43に更新した。	変遷
2024年9月12日	ハルシネーション（幻覚）を抑えたモデル「DataGemma」を公開。実際に使ってみた結果、間違った情報を出力することはなかったが、求めていた情報を完全に出力することができなかったため、大幅な更新はなく、41→42。	変遷
2024年9月12日	日本時間2024年9月12日、OpenAI o1-previewを公開。このモデルは回答する前に考えるように設計され、より複雑なタスクに対しても回答が可能になった。特に物理学、化学、生物学、数学での高いベンチマークで評価されている。しかし、回数制限があることを踏まえ、48→49に変更。	変遷
2024年9月9日	Qwenグループが「Qwen2.5」モデルを13個同時にリリース。特にコーディングや数学の分野で顕著な性能向上を実現。33→35に変更。
2024年8月29日	AlibabaのQwenグループが「Qwen2-VL」を公開。複雑なオブジェクトの関係性や多言語のテキストを認識する能力に優れており、長時間の動画の理解も可能に。30→33に変更。	変遷
2024年8月20日	Microsoftによって開発された、大規模言語モデル「Phi3.5」が登場。スマートフォン上でのローカルな推論を可能にするほど小型でありながら、 Mixtral 8x7BやGPT-3.5などのモデルに匹敵するPhi-3-miniが含まれている。
2024年8月13日	xAIのGrok-1.5がアップデートされ、Grok-2のベータ版が発表された。　元々の機能の性能が向上し、画像生成機能の追加をしました。リアルタイムな情報を統合した回答ができるようになり、15→17に変更した。	変遷
2024年8月8日	AlibabaのQwenグループが「Qwen2-Math」を公開。数学に特化したベンチマークでは、 GPT-4oやCluade3.5-sonnet、Llama-3.1-405Bと比較して、最も良い成績を誇る。
2024年7月18日	OpenAIが従来のGPTよりも費用対効果の高い小型モデルとして GPT-4o miniを発表。高速かつ低コストで生成クオリティが高く、 GPT-3.5のアップデートとして公開された。 Gemini FlashやClaude Haikuと比べても、複数のベンチマークで評価されているため45→48に変更。	変遷
2024年7月10日	OpenIAはロスアラモス国立研究所と共同で、マルチモーダルAIモデルがバイオサイエンスの研究をどのように支援できるかを評価するプロジェクトを発表。特に、視覚、音声、文章などの入力を活用して、ラボ作業における専門家と初心者のパフォーマンス向上を目指す。45のまま。
2024年6月27日	Googleが研究者や開発者向けに最新LLM「Gemma 2」を公開。 MetaのLlama 3よりも性能が高く、ゲーミングノートPCからクラウドまで対応している。
2024年6月7日	AlibabaのQwenグループが「Qwen2-72B-Instruct」を公開。大規模言語モデル・大規模マルチモーダルモデルシリーズであり、英語の質問応答、コーディング、数学、中国語の分野で優れた性能を発揮。
2024年6月6日	生成AIを活用してユーザーの思考を支援する新しい情報整理ツールNotebookLMを公開。 Gemini 1.5 Proを搭載しており、ドキュメントの読み込みや画像認識も可能に。
2024年5月15日	Googleから新しいビジョン言語モデル(VLM)の「PaliGemma」が公開。 GoogleのVLMであるPaLI-3から着想を得ており、 SigLIP-So400mを画像エンコーダとして、 Gemma-2Bをテキストエンコーダ統合した、軽量で汎用性の高いVLM。
2024年5月14日	Googleが高性能な新しいビデオ生成モデルである Veoを搭載した新しい実験的ツールVideoFXを発表。 Text to VideoやImage to Videoの形式でプロンプトを反映して、 1分を超える動画の生成も可能に。
2024年5月14日	GoogleのGeminiシリーズのなかで最も軽量で、高速な応答と高いコストパフォーマンスを実現する「Gemini 1.5 Flash」が公開。コンテキストウィンドウは100万トークンを維持し、ベンチマークでGemini 1.0 Ultraと同等のスコアを獲得している。 37→41に変更。	変遷
2024年5月13日	日本時間2024年5月13日、OpenAIがGPT-4oを公開。テキスト、画像認識、音声認識、文字起こし、音声読み上げなどの機能を全てを1つのモデルに含む。旧GPT-4比で生成速度が2倍になっている。42→45に変更。	変遷
2024年4月23日	Microsoftからコスト効率の高い小型LLMである「Phi-3-mini」が公開。 3.8Bという非常に小型なモデルながら、 GPT-3.5 Turboよりも優れたパフォーマンスを発揮し、最新モデルであるClaude 3 Sonnetと同等の性能を有している。12→14に変更。
2024年4月5日	AnthropicがMessages APIにて Claude 3シリーズ向けにベータ版Tool機能を開放。ユーザーは事前に定義された特定のツール（例えば、株価を取得するツールや天気情報を提供するツールなど）を利用して応答を生成できるように。42→44に変更した。
2024年3月28日	Grokの最新版、Grok-1.5が発表。推論機能の向上と 128,000 トークンのコンテキスト長が付属され、コーディングと数学関連のタスクにおけるパフォーマンスが向上した。
2024年3月4日	日本時間2024年3月4日、AnthropicがClaude 3を公開。全ベンチマークでGPT-4を超えるLLMだが、 GPTs、Code Interpreterなどの機能がないことを踏まえて、30→42に設定。	変遷
2024年2月20日	日本時間2024年2月15日、OpenAIが動画生成AI「Sora」を公開。世界中に激震が走った。 OpenAIのAGI到達レベルを38→42に引き上げた。	変遷
2024年2月13日	日本時間2024年2月8日、GoogleがGemini Ultra 1.0を発表。 Googleの発表によると、OpenAIのGPT-4を超えるとのこと。 Googleのスコアは変わらず、OpenAIのスコアを38に引き上げた。	変遷
2024年2月6日	日本時間2024年2月4日、AlibabaがQwen-1.5を発表。 AlibabaのAGI到達レベルを23→30に引き上げた。	変遷

タイムライン

AGIパラメータ

AIの能力を評価する指標には

チェスなどの対戦ゲームで広く使用されている評価システム「Elo」
言語理解の能力を評価するためのベンチマーク「MMLU」
Google Deepmindの「Levels of AGI: Operationalizing Progress on the Path to AGI」

などがありますが、
これらを生成AIに適用し、みなさまにわかりやすく表現するのは難しいため、弊社で独自の指標を用意しました。

AGIパラメータの定義

Scroll

仕事消滅レベル	仕事消滅度	実行者	実行領域	概要
レベル0	0%	人	適用外	AIは一切介入せず、人間が全ての作業を行い完成品ができる。
レベル1	1~25%	人	限定的	人間が指示を出し、ブレスト等を通じてAIがアイデアを出すが、人間の行動のみで完成品ができる。
レベル2	26~50%	人	限定的	人間が指示を出し、人間が主体で作ったものをAIが添削して、それを繰り返し、最後に人間が軽く添削して完成品ができる。
レベル3	51~75%	人	限定的	人間が指示を出し、AIが主体で作ったものを人間が確認して完成品ができる。
レベル4	76~99%	AI	限定的	指示出しから作業過程ではAIだけが行動し、完成品の最終確認は人間が行う。
レベル5	100%	AI	際限なし	人間は一切介入せず、AIのみで完成品ができる。

AGIパラメータ

Scroll

仕事内容	仕事消滅レベル	仕事消滅度	リードプロジェクト	代替範囲
メール作成	レベル3	55％	ChatGPT	テンプレの作成はAIでできるが、文脈に沿ったメールの作成や個別の情報を含めたメールの作成は難しい。
資料作成	レベル2	30％	ChatGPT	資料の添削はできるが、 0から資料を作成するのは難しい。
文書作成	レベル2	50％	ChatGPT	平均的な文章の作成は可能だが、人間の介在なしに完成品を作ることは難しい。
コーディング	レベル3	65％	GitHub Copilot, ChatGPT	自然言語からのコーディングやデバック、リバースエンジニアリングの補助は可能だが、複雑なプログラムの作成はまだ難しい。
コピーライティング	レベル3	55％	ChatGPT	平均的な文章の作成は可能だが、人間の介在なしに完成品を作ることは難しい。
正確な情報のリサーチ	レベル3	65％	ChatGPT, Perplexity	自然言語での検索が可能になり、検索意図を含めた情報検索が可能。正確性にはまだ不安がある。
多言語翻訳	レベル4	80％	ChatGPT	多言語に渡る長文の翻訳をほぼ過不足なく行える。ネイティブ視点での自然さの実現はまだむずかしい。
クリエイティブ作成	レベル3	70％	DALL-E 3	プロンプト通りのクリエイティブの作成、文字の反映が可能だが、細かい指示の実現がまだ難しい。また、AI独特の特徴を持った画像になりがち。
3Dオブジェクトの作成	レベル2	30％	CSM AI	画像を元に数分で3Dモデルを作成することが可能だが、読み込ませる画像によってクオリティの差がある。
絵画の作成	レベル4	80％	Stable Diffusion	素人目では、人間が描いたものと見分けのつかない絵画を出力することができる。
人間らしい会話内容の表現	レベル4	80％	Air AI	人間の発言を理解し、リアルタイムで音声を出力することが可能。
人間らしい会話スピードの実現	レベル4	76％	Air AI	違和感を持たれない程度の受け答えができるが、時々間が生まれることがある。
人間が作るのと遜色ない音楽の作成	レベル4	75％	Suno	AI独特の特徴のある音楽になるものの、作詞から作曲まで高クオリティで行える。
リアルタイム音声翻訳	レベル3	60％	ChatGPT	リアルタイムでの翻訳を口頭で行えるが、イントネーションや自然さに欠ける時がある。
動画編集	レベル0	0％	-	-
動画の作成	レベル3	70％	Sora	最長1分というこれまでにない長時間の動画を超高品質で生成できる。
連続したタスクの実行	レベル2	40％	Open Interpreter	シンプルなタスクであれば、ほぼ自律して完了させることが可能。複数のタスクが組み合わさったものになるとまだ難しい。

仕事消滅度