AGI終末時計
AGI終末時計
Doomsday Clock
AGIとは、汎用型人工知能のことで、人間と同じように思考して、
人間が実現可能なあらゆる知的作業を理解・学習・実行することが可能な人工知能のことです。
AGIとは、汎用型人工知能のことで、人間と同じように思考して、人間が実現可能なあらゆる知的作業を理解・学習・実行することが可能な人工知能のことです。
- We’re less than 3 years from AGI – Elon Musk
- AGI could be developed in the “reasonably close-ish future.” – Sam Altman
※残り日数は、イーロンマスクやサムアルトマンの発言を元に2027年にAGIが到来すると仮定したもの
※残り日数は、イーロンマスクやサムアルトマンの発言を元に
2027年にAGIが到来すると仮定したもの
※残り日数は、イーロンマスクやサムアルトマンの発言を元に2027年にAGIが到来すると仮定したもの
AGI終末時計は、
生成AI業界を牽引する著名人の予測をもとに作成いたしました。
今後は、皆様からのご意見を元に客観的な視点をもって随時更新されていきます。
AGIの誕生まで残り──3年。
「AGI終末時計」は、現在のAIの進歩を可視化することで、
AGIの到来にどこまで近づいているかをお伝えします。
それまでの過程で私達の働き方がどのように変わり、
AIに置き換わっていくのでしょうか?
カウントダウンするだけでは意味がない。
今私たちに必要なことは──未来に追いつくこと。
AGI終末時計では、AIによる仕事の置き換えやAIを使った働き方について、
業務別
業界別(未実装)
職業別(未実装)
といった観点から表示していきます。
AGI終末時計は、
生成AI業界を牽引する著名人の予測をもとに作成いたしました。
今後は、皆様からのご意見を元に客観的な視点をもって随時更新されていきます。
AGIの誕生まで残り──3年。
「AGI終末時計」は、現在のAIの進歩を可視化することで、
AGIの到来にどこまで近づいているかをお伝えします。
それまでの過程で私達の働き方がどのように変わり、
AIに置き換わっていくのでしょうか?
カウントダウンするだけでは意味がない。
今私たちに必要なことは──未来に追いつくこと。
AGI終末時計では、AIによる仕事の置き換えやAIを使った働き方について、
業務別、業界別(未実装)、職業別(未実装)、
といった観点から表示していきます。
AGI到達レベル
AIビックテックのAGI到達レベルは、2023年11月に発表されたGoogle Deepmindの「Levels of AGI: Operationalizing Progress on the Path to AGI」という論文内に記載されていた、Levels of AGIという表を参考に作成しています。
弊社ではレベル4をAGI達成と解釈し、それを100%とした時の現在の数値を記載しています。
Google Deepmind Levels of AGI(2024年6月時点)
Scroll
パフォーマンス×一般性 | 狭義(明確に範囲が定められたタスク) | 広義(身体を伴わないタスク) |
---|---|---|
レベル0:AIでない | 狭義の非AI: 電卓ソフトウェア コンパイラ | 広義の非AI: 人間参加型計算 例: Amazon Mechanical Turk |
レベル1:発展途上 未熟な人間と同等か それよりも若干優れている | 発展途上の狭義のAI: GOFAI (Boden, 2014) simple rule-based systems e.g. SHRDLU (Winograd, 1971) | 発展途上のAGI ChatGPT(OpenAI, 2023) Bard(Anil et al., 2023) Llama2(Touvron et al,2023) Gemini(Pichai and Hassabis, 2023) |
レベル2:有能 熟練者の内、少なくともその中央値に達している | 有能な狭義のAI: 有害性検出器 例: Jigsaw (Das et al., 2022) スマートスピーカー 例: Siri (Apple), Alexa (Amazon) Googleアシスタント (Google) VQAシステム 例: PaLI (Chen et al, 2023) Watson (IBM) 特定のタスクのための最先端LLMS 例: 短いエッセイの執筆 シンプルなコーディング | 有能なAGI: 未達成 |
レベル3:専門家 熟練者の内、少なくともその上位10%に達している | 専門家レベルの狭義のAI: スペリング 文法チェッカー 例: Grammarly (Grammarly, 2023) 画像生成モデル 例: Imagen (Saharia et al., 2022) DALL-E 2 (Ramesh et al., 2022) | 専門家レベルのAGI: 未達成 |
レベル4:名人 熟練者の内、少なくともその上位1%に達している | 名人レベルの狭義AI: Deep Blue (Campbell et al., 2002), AlphaGo (Silver et al., 2016, 2017) | 名人レベルのAGI: 未達成 |
レベル5:超人 全人類より優れている | 超人レベルの狭義AI: AlphaFold (Jumper et al., 2021) AlphaZero (Silver et al., 2018) StockFish (Stockfish, 2023) | 人工超知能 (ASI): 未達成 |
AIビックテックのAGI到達レベル
(2024年11月28日更新)
AIビックテックのAGI到達レベル変遷
更新日 | 概要 | |
---|---|---|
2024年11月28日 | 2024年11月28日にQwenグループから「QwQ」が登場。 数学やプログラミングの分野で期待されているが、研究段階のモデル。36→37に変更。 | 変遷 |
2024年11月26日 | 2024年11月26日Anthropicから「Model Context Protocol」がリリース。 サービス間の文脈を維持しながら効率的にデータを扱えるように。50→54に変更。 | 変遷 |
2024年11月15日 | Googleから新たなGeminiモデル「Gemini-exp-1114」が公開。 ベンチマーク上ChatGPTを抑え、総合世界1位に。 45→49に変更。 | 変遷 |
2024年11月12日 | アリババクラウドが新たな大規模言語モデル「Qwen2.5-Coder」を公開。 GPT-4oのコーディング能力に匹敵する性能があるとして、35→36に変更。 | 変遷 |
2024年10月31日 | OpenAIが検索エンジン機能「ChatGPT search」をChatGPTに実装。 GoogleやPerplexityといった外部の検索エンジンにアクセスしなくても、 必要十分な情報が引用付きで得られるように。 よって、54→57に変更。 | 変遷 |
2024年10月23日 | 2024年10月23日に Claude 3.5 Sonnetの更新と、新しいClaude 3.5 Haikuを公開。 さらに、computer useというAPI経由で動作するAIエージェントも発表。47→50に。 しかし、この機能はベータ版で、スクロールやドラッグが苦手で、 スパムや詐欺への流用が懸念されている。 | 変遷 |
2024年10月22日 | 2024年10月22日、イーロンマスクが率いるAI企業xAIがAPIを公開。 Grokモデルを使用するためのAPIであり、エンジニアや開発者は Grokの大規模言語モデルをもとに開発が可能に。 17→20に変更。 | 変遷 |
2024年10月10日 | 日本時間2024年10月10日にGoogleが「Imagen3」を公開。 人物の表情や服のしわ、風景の細かな質感など、より細部まで正確に再現できるように。 また、テキストの描画能力も格段に向上。よって43→45に更新。 | 変遷 |
2024年10月3日 | 日本時間2024年10月3日、ChatGPTの新機能「Canvas」が公開された。 生成した文章・ソースコードの気になる箇所を指定してピンポイントで修正が可能に。 GPT-4oでは素のモデルよりも、コメントの正確性が30%、質が16%向上した。52→54に変更。 | 変遷 |
2024年9月25日 | 「Advanced Voice Mode」がChatGPT アプリPlusとTeamユーザーに公開された。 日本語を含む50以上の言語に対応しており、自然な音声会話が可能。 9種類の音声から選択でき、口調やアクセントの記憶までできるようになった。 その精度の良さに全世界のユーザーが驚いた。49→52に変更。 | 変遷 |
2024年9月24日 | Geminiの最新版「Gemini-1.5-Pro-002 / Gemini-1.5-Flash-002」が公開。 GPT-4oと比較したところ、 理数科目のタスクに対してはそこまで良い結果が得られなかった。 しかし、要約タスクでは、 順番を変更したり、複数の表を使うことで読みやすい回答を得られた。よって、42→43に更新した。 | 変遷 |
2024年9月12日 | ハルシネーション(幻覚)を抑えたモデル「DataGemma」を公開。 実際に使ってみた結果、間違った情報を出力することはなかったが、 求めていた情報を完全に出力することができなかったため、大幅な更新はなく、41→42。 | 変遷 |
2024年9月12日 | 日本時間2024年9月12日、OpenAI o1-previewを公開。 このモデルは回答する前に考えるように設計され、 より複雑なタスクに対しても回答が可能になった。 特に物理学、化学、生物学、数学での高いベンチマークで評価されている。 しかし、回数制限があることを踏まえ、48→49に変更。 | 変遷 |
2024年9月9日 | Qwenグループが「Qwen2.5」モデルを13個同時にリリース。 特にコーディングや数学の分野で顕著な性能向上を実現。33→35に変更。 | |
2024年8月29日 | AlibabaのQwenグループが「Qwen2-VL」を公開。 複雑なオブジェクトの関係性や多言語のテキストを認識する能力に優れており、 長時間の動画の理解も可能に。30→33に変更。 | 変遷 |
2024年8月20日 | Microsoftによって開発された、大規模言語モデル「Phi3.5」が登場。 スマートフォン上でのローカルな推論を可能にするほど小型でありながら、 Mixtral 8x7BやGPT-3.5などのモデルに匹敵するPhi-3-miniが含まれている。 | |
2024年8月13日 | xAIのGrok-1.5がアップデートされ、Grok-2のベータ版が発表された。 元々の機能の性能が向上し、画像生成機能の追加をしました。 リアルタイムな情報を統合した回答ができるようになり、15→17に変更した。 | 変遷 |
2024年8月8日 | AlibabaのQwenグループが「Qwen2-Math」を公開。 数学に特化したベンチマークでは、 GPT-4oやCluade3.5-sonnet、Llama-3.1-405Bと比較して、最も良い成績を誇る。 | |
2024年7月18日 | OpenAIが従来のGPTよりも費用対効果の高い小型モデルとして GPT-4o miniを発表。 高速かつ低コストで生成クオリティが高く、 GPT-3.5のアップデートとして公開された。 Gemini FlashやClaude Haikuと比べても、 複数のベンチマークで評価されているため45→48に変更。 | 変遷 |
2024年7月10日 | OpenIAはロスアラモス国立研究所と共同で、 マルチモーダルAIモデルが バイオサイエンスの研究をどのように支援できるかを評価するプロジェクトを発表。 特に、視覚、音声、文章などの入力を活用して、 ラボ作業における専門家と初心者のパフォーマンス向上を目指す。45のまま。 | |
2024年6月27日 | Googleが研究者や開発者向けに最新LLM「Gemma 2」を公開。 MetaのLlama 3よりも性能が高く、 ゲーミングノートPCからクラウドまで対応している。 | |
2024年6月7日 | AlibabaのQwenグループが「Qwen2-72B-Instruct」を公開。 大規模言語モデル・大規模マルチモーダルモデルシリーズであり、 英語の質問応答、コーディング、数学、中国語の分野で優れた性能を発揮。 | |
2024年6月6日 | 生成AIを活用してユーザーの思考を支援する 新しい情報整理ツールNotebookLMを公開。 Gemini 1.5 Proを搭載しており、 ドキュメントの読み込みや画像認識も可能に。 | |
2024年5月15日 | Googleから新しいビジョン言語モデル(VLM)の「PaliGemma」が公開。 GoogleのVLMであるPaLI-3から着想を得ており、 SigLIP-So400mを画像エンコーダとして、 Gemma-2Bをテキストエンコーダ統合した、軽量で汎用性の高いVLM。 | |
2024年5月14日 | Googleが高性能な新しいビデオ生成モデルである Veoを搭載した新しい実験的ツールVideoFXを発表。 Text to VideoやImage to Videoの形式でプロンプトを反映して、 1分を超える動画の生成も可能に。 | |
2024年5月14日 | GoogleのGeminiシリーズのなかで最も軽量で、 高速な応答と高いコストパフォーマンスを実現する 「Gemini 1.5 Flash」が公開。 コンテキストウィンドウは100万トークンを維持し、 ベンチマークでGemini 1.0 Ultraと同等のスコアを獲得している。 37→41に変更。 | 変遷 |
2024年5月13日 | 日本時間2024年5月13日、OpenAIがGPT-4oを公開。 テキスト、画像認識、音声認識、文字起こし、音声読み上げなどの 機能を全てを1つのモデルに含む。 旧GPT-4比で生成速度が2倍になっている。42→45に変更。 | 変遷 |
2024年4月23日 | Microsoftからコスト効率の高い小型LLMである「Phi-3-mini」が公開。 3.8Bという非常に小型なモデルながら、 GPT-3.5 Turboよりも優れたパフォーマンスを発揮し、 最新モデルであるClaude 3 Sonnetと同等の性能を有している。12→14に変更。 | |
2024年4月5日 | AnthropicがMessages APIにて Claude 3シリーズ向けにベータ版Tool機能を開放。 ユーザーは事前に定義された特定のツール (例えば、株価を取得するツールや天気情報を提供するツールなど)を 利用して応答を生成できるように。42→44に変更した。 | |
2024年3月28日 | Grokの最新版、Grok-1.5が発表。 推論機能の向上と 128,000 トークンのコンテキスト長が付属され、 コーディングと数学関連のタスクにおけるパフォーマンスが向上した。 | |
2024年3月4日 | 日本時間2024年3月4日、AnthropicがClaude 3を公開。 全ベンチマークでGPT-4を超えるLLMだが、 GPTs、Code Interpreterなどの機能がないことを踏まえて、30→42に設定。 | 変遷 |
2024年2月20日 | 日本時間2024年2月15日、OpenAIが動画生成AI「Sora」を公開。 世界中に激震が走った。 OpenAIのAGI到達レベルを38→42に引き上げた。 | 変遷 |
2024年2月13日 | 日本時間2024年2月8日、GoogleがGemini Ultra 1.0を発表。 Googleの発表によると、OpenAIのGPT-4を超えるとのこと。 Googleのスコアは変わらず、OpenAIのスコアを38に引き上げた。 | 変遷 |
2024年2月6日 | 日本時間2024年2月4日、AlibabaがQwen-1.5を発表。 AlibabaのAGI到達レベルを23→30に引き上げた。 | 変遷 |
AGIパラメータ
AIの能力を評価する指標には
- チェスなどの対戦ゲームで広く使用されている評価システム「Elo」
- 言語理解の能力を評価するためのベンチマーク「MMLU」
- Google Deepmindの「Levels of AGI: Operationalizing Progress on the Path to AGI」
などがありますが、
これらを生成AIに適用し、みなさまにわかりやすく表現するのは難しいため、弊社で独自の指標を用意しました。
AGIパラメータの定義
Scroll
仕事消滅レベル | 仕事消滅度 | 実行者 | 実行領域 | 概要 |
---|---|---|---|---|
レベル0 | 0% | 人 | 適用外 | AIは一切介入せず、人間が全ての作業を行い完成品ができる。 |
レベル1 | 1~25% | 人 | 限定的 | 人間が指示を出し、ブレスト等を通じてAIがアイデアを出すが、人間の行動のみで完成品ができる。 |
レベル2 | 26~50% | 人 | 限定的 | 人間が指示を出し、人間が主体で作ったものをAIが添削して、それを繰り返し、最後に人間が軽く添削して完成品ができる。 |
レベル3 | 51~75% | 人 | 限定的 | 人間が指示を出し、AIが主体で作ったものを人間が確認して完成品ができる。 |
レベル4 | 76~99% | AI | 限定的 | 指示出しから作業過程ではAIだけが行動し、完成品の最終確認は人間が行う。 |
レベル5 | 100% | AI | 際限なし | 人間は一切介入せず、AIのみで完成品ができる。 |
AGIパラメータ
Scroll
仕事内容 | 仕事消滅レベル | 仕事消滅度 | リードプロジェクト | 代替範囲 |
---|---|---|---|---|
メール作成 | レベル3 | 55% | ChatGPT | テンプレの作成はAIでできるが、 文脈に沿ったメールの作成や個別の情報を含めたメールの作成は難しい。 |
資料作成 | レベル2 | 30% | ChatGPT | 資料の添削はできるが、 0から資料を作成するのは難しい。 |
文書作成 | レベル2 | 50% | ChatGPT | 平均的な文章の作成は可能だが、 人間の介在なしに完成品を作ることは難しい。 |
コーディング | レベル3 | 65% | GitHub Copilot, ChatGPT | 自然言語からのコーディングやデバック、 リバースエンジニアリングの補助は可能だが、 複雑なプログラムの作成はまだ難しい。 |
コピーライティング | レベル3 | 55% | ChatGPT | 平均的な文章の作成は可能だが、 人間の介在なしに完成品を作ることは難しい。 |
正確な情報のリサーチ | レベル3 | 65% | ChatGPT, Perplexity | 自然言語での検索が可能になり、 検索意図を含めた情報検索が可能。 正確性にはまだ不安がある。 |
多言語翻訳 | レベル4 | 80% | ChatGPT | 多言語に渡る長文の翻訳をほぼ過不足なく行える。 ネイティブ視点での自然さの実現はまだむずかしい。 |
クリエイティブ作成 | レベル3 | 70% | DALL-E 3 | プロンプト通りのクリエイティブの作成、文字の反映が可能だが、 細かい指示の実現がまだ難しい。 また、AI独特の特徴を持った画像になりがち。 |
3Dオブジェクトの作成 | レベル2 | 30% | CSM AI | 画像を元に数分で3Dモデルを作成することが可能だが、 読み込ませる画像によってクオリティの差がある。 |
絵画の作成 | レベル4 | 80% | Stable Diffusion | 素人目では、人間が描いたものと見分けのつかない絵画を出力することができる。 |
人間らしい会話内容の表現 | レベル4 | 80% | Air AI | 人間の発言を理解し、リアルタイムで音声を出力することが可能。 |
人間らしい会話スピードの実現 | レベル4 | 76% | Air AI | 違和感を持たれない程度の受け答えができるが、 時々間が生まれることがある。 |
人間が作るのと遜色ない音楽の作成 | レベル4 | 75% | Suno | AI独特の特徴のある音楽になるものの、 作詞から作曲まで高クオリティで行える。 |
リアルタイム音声翻訳 | レベル3 | 60% | ChatGPT | リアルタイムでの翻訳を口頭で行えるが、 イントネーションや自然さに欠ける時がある。 |
動画編集 | レベル0 | 0% | - | - |
動画の作成 | レベル3 | 70% | Sora | 最長1分というこれまでにない長時間の動画を超高品質で生成できる。 |
連続したタスクの実行 | レベル2 | 40% | Open Interpreter | シンプルなタスクであれば、ほぼ自律して完了させることが可能。 複数のタスクが組み合わさったものになるとまだ難しい。 |
仕事消滅度
AGI終末時計について
終末時計が、世界の平和を祈る注意喚起であるように、
AGI終末時計も、AIによる支配を目指すものではありません。
むしろ日本らしいロボットアニメやドラえもんのような、
AIとの共創カルチャーを目指し、
子どもたちがAI-Nativeな時代で楽しく過ごせるように。
私たち大人が「未来に追いつく指標作り」をヴィジョンとして運営していきます。
このAGI終末時計は、皆様からのご意見を元に客観的な視点をもって随時更新されていくことを前提としています。
AGI度数やAGIレベル、そしてそれぞれの数値について皆さんのご意見や批判を受け付けております。
ご意見がある際はX(Twitter)にて #AGI終末時計 とつけてポストしてください。
弊社で確認させていただきます。
【運営元のWEELについて】
運営元のWEELについて
WEELはただの情報発信ではなく、未来予測をする拠点としてメディアを位置付けてきました。
活動は多岐にわたり、
- OpenAIやGAFAMの生成AI競争の記事化
- 次のトレンドを予測して、GitHubで生成AIのOSSをレビュー
- HuggingFaceから面白いLLMを記事化
- お客様のPC操作を模倣する自律型AIの開発
etc…
これまでの活動で得たノウハウ、最新情報、
そして皆様からのフォードバックとお便りをもって
AGI終末時計を更新し続け、現在のAIの進歩を可視化することで
AGIの到来にどこまで近づいているかお伝えします。