【Qwen-AgentWorld】GPT-5.4超えのスコアを叩き出した言語世界モデルを徹底解説

Qwen-AgentWorld GPT-5.4 超え スコア 叩き出した 言語 世界 モデル 徹底 解説
押さえておきたいポイント
  • Qwen-AgentWorldは、アリババのQwenチームが開発した7ドメイン対応の「言語世界モデル(LWM)」
  • AgentWorldBenchにおいてGPT-5.4やClaude Opus 4.8を上回る総合スコア58.71を記録し、フロンティアモデル超えを達成
  • モデル重みとベンチマークデータセットの両方をApache 2.0ライセンスで完全オープンソース公開

2026年6月24日、アリババのQwenチームがAIエージェントの環境そのものをシミュレートする新しいモデル「Qwen-AgentWorld」を公開しました!

従来のLLMは「次のトークン(単語)を予測する」ことを目的に訓練されており、エージェントモデルは「次のアクションを予測する」ことを学びます。しかしQwen-AgentWorldは、これらとはまったく異なるアプローチを採用しており、このモデルが学習するのはアクションを実行した後に環境がどう変化するかという、次の環境状態の予測です。

エージェントが実際に操作を行う前に、仮想的に世界を予演できるこの仕組みは、AIエージェント開発の常識を覆す可能性を秘めています。

そこで本記事では、Qwen-AgentWorldの概要から仕組み、ベンチマーク結果、具体的な使い方まで徹底解説していきます。ぜひ最後までご覧ください!

\生成AIを活用して業務プロセスを自動化/

目次

Qwen-AgentWorldとは?

Qwen-AgentWorldとは?
参考:https://qwen.ai/blog?id=qwen-agentworld

Qwen-AgentWorldは、アリババのQwenチームが開発したネイティブ言語世界モデル(Language World Model、LWM)です。「世界モデル」とは、AIエージェントが操作する環境そのものをシミュレートするモデルのことを指します。

一般的なAIエージェントは、ターミナルでコマンドを実行したり、ブラウザを操作したり、APIを呼び出したりするとき、実際の環境で試行錯誤しながら学習します。しかしこのアプローチには、計算コストが膨大になる、実環境の再現が困難である、不可逆な操作によるリスクがあるといった課題がつきまといます。

Qwen-AgentWorldはこれらの課題に対し、環境そのものを言語モデルで再現するというまったく新しい発想でチャレンジしています。具体的には、MCP(ツール呼び出し)、検索、ターミナル、ソフトウェアエンジニアリング(SWE)、Android、Web、OSという7つのエージェント操作領域を、たった1つのモデルでシミュレートできます。

公開されたモデルは2つのサイズがあり、MoE(Mixture of Experts)アーキテクチャを採用した「Qwen-AgentWorld-35B-A3B」(総パラメータ35B、アクティブ3B)と、より大規模な「Qwen-AgentWorld-397B-A17B」(総パラメータ397B、アクティブ17B)が存在します。

コンテキスト長は256Kトークンに対応しており、複数ターンにわたる長い対話履歴を保持したまま環境シミュレーションを実行できます。

Qwen-AgentWorldの仕組み

Qwen-AgentWorldの仕組み
参考:https://qwen.ai/blog?id=qwen-agentworld

Qwen-AgentWorldのアーキテクチャと学習プロセスを理解するために、全体像を整理しておきましょう。

このモデルが「ネイティブ」と称される理由は、環境モデリングを後付けではなく、訓練の最初の段階から中核的な学習目標として組み込んでいる点にあります。訓練は3段階のパイプラインで構成されています。

Qwen-AgentWorldの仕組み
参考:https://qwen.ai/blog?id=qwen-agentworld

CPT(Continual Pre-Training:継続事前学習)

まず第1段階の「CPT(Continual Pre-Training:継続事前学習)」では、7ドメインにわたる実環境の状態遷移データと、専門コーパスを用いて、汎用的な世界モデリング能力を獲得します。

エージェントがコマンドを実行した際にターミナルがどう応答するか、APIを呼び出した際にどんなレスポンスが返るかといった「環境のふるまい」に関する知識を、この段階で大量に注入するわけです。

SFT(Supervised Fine-Tuning:教師あり微調整)

第2段階の「SFT(Supervised Fine-Tuning:教師あり微調整)」では、次の状態予測推論のパターンをモデルに明示的に学習させます。

具体的には、現在の状態 → エージェントのアクション → 推論(Chain-of-Thought) → 予測される環境状態、という構造化された思考パターンを獲得し、環境予測を意識的な推論タスクとして実行できるようにします。

RL(Reinforcement Learning:強化学習)

第3段階の「RL(Reinforcement Learning:強化学習)」では、ルーブリック評価とルールベース報酬を組み合わせたハイブリッドな報酬設計によって、シミュレーション精度をさらに磨き上げます。

学習データには、7ドメインにわたる1,000万件以上の実環境インタラクション軌跡が使用されています。

X上で大きな反響:エージェント開発のゲームチェンジャーとの声

Qwen-AgentWorldの発表以降、X上では世界中の開発者やAIリサーチャーから大きな反響が寄せられています。とりわけ注目を集めているのが、オープンソースでありながらクローズドモデルを超えたという事実です。

今回解説する事例において、弊社がX(旧Twitter)で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

上記のポストでは、「チェスプレイヤーが3手先まで読むように、行動する前に環境を予測する」という表現がなされており、Qwen-AgentWorldの本質を端的に捉えています。

また、中国のAIコミュニティでは世界モデルの第三の類型として位置づける分析も話題になっています。

あるユーザーは、Soraに代表される物理/映像の世界モデル、Microsoftの ECHOに代表されるソフトウェア/ターミナルの世界モデルに続く、「原生言語世界モデル」としてQwen-AgentWorldに触れています。

Webページやスマートフォン画面、OS状態をすべてXML/HTMLなどのテキストコードに抽象化し、テキスト状態の遷移を予測することで環境全体の変化をシミュレートするこのアプローチは、訓練コストの大幅な削減とクロスドメインの知識転移を実現しているのです。

さらに、コミュニティではすでに派生モデルの動きも始まっています。以下のポストで「SuperQwen-Agentworld-35Bをリリース予定」と投稿するなど、オープンソースならではの活発なエコシステム形成が期待されています。

Qwen-AgentWorldの特徴

Qwen-AgentWorldの最大の特徴は7ドメイン統合です。

Qwen-AgentWorldの特徴
参考:https://qwen.ai/blog?id=qwen-agentworld

単一のモデルでMCP(ツール呼び出し)、検索、ターミナル、SWE(ソフトウェアエンジニアリング)、Android、Web、OSという7つのエージェント操作環境をシミュレートできる言語世界モデルは、これが世界初となります。

テキストベースの4ドメイン(MCP、Search、Terminal、SWE)とGUIベースの3ドメイン(Web、OS、Android)を横断してカバーしており、ドメイン間で知識が転移するため、個別のシミュレータを用意する必要がありません

次に注目すべきは「未知の環境への汎化能力」です。論文では、学習時に一度も見ていないOOD(Out-of-Distribution)環境への「ゼロショット汎化」が実証されています。特に興味深い実験として、完全に架空の検索環境を構築してエージェントを訓練したところ、そのエージェントが実際の検索タスクにも汎化できたという結果が報告されています。

Qwen-AgentWorldの特徴
参考:https://qwen.ai/blog?id=qwen-agentworld

ベンチマーク面では、独自に構築したAgentWorldBenchにおいて、Qwen-AgentWorld-397B-A17Bが総合スコア58.71を達成し、GPT-5.4(58.25)、Claude Opus 4.8(56.59)、Gemini 3.1 Pro(54.57)といったフロンティアプロプライエタリモデルを全体スコアで上回りました。

オープンソースの35Bモデルでも56.39と、同アーキテクチャのQwen3.5-35B-A3B(47.73)から+8.66ポイントの改善を示しています。

Qwen-AgentWorldの安全性・制約

Qwen-AgentWorldは環境シミュレータとして設計されており、一般的なチャットボットとしての利用は想定されていません

また、モデルが予測する環境レスポンスは、あくまでシミュレーションであり、実際の環境の出力と完全に一致するわけではありません。技術レポートによると、AgentWorldBenchの5つの評価軸のなかで「事実性(Factuality)」が最も改善幅は大きいものの、スコアとしては依然として最も低い次元にとどまっており、事実に基づく世界知識の正確な再現が最大の課題として残されています。

シミュレーション結果をそのまま信頼するのではなく、実環境での検証と組み合わせて使用することが推奨されます。

Qwen-AgentWorldの料金

Qwen-AgentWorldはオープンソースモデルとして公開されているため、モデルの重みをダウンロードしてセルフホスティングする場合は完全に無料で利用できます。

ただし、セルフホスティングにはGPUサーバーのコストが必要です。35B MoEモデルを推論する場合、tensor-parallel-size 4(4GPU並列)が推奨されており、256Kコンテキスト長をフルに活用するにはそれなりのVRAMが求められます。以下、主な利用形態ごとのコスト感を整理しておきましょう。

スクロールできます
利用形態費用備考
モデル重みのダウンロード(HuggingFace / ModelScope)無料Apache 2.0ライセンス
セルフホスティング(SGLang / vLLM)GPUサーバーコストのみ4GPU以上推奨、最低128Kコンテキスト長を維持すること
サードパーティ推論プロバイダー経由プロバイダーの料金に依存Groq、DeepInfra、Together AIなどがGGUF量子化版を提供開始
AgentWorldBenchデータセット無料HuggingFaceで公開中(約257MB)
ファインチューニングGPUコストのみSwift、LLaMA-Factory、UnSlothなどのフレームワークに対応
Qwen-AgentWorldの料金

2026年6月時点では、Alibaba Cloud Model Studio(DashScope)でのQwen-AgentWorld専用のAPI提供は確認されていません。利用する場合はセルフホスティングか、対応するサードパーティプロバイダーを経由する形となります。なお、Unslothが公開しているGGUF量子化版を利用すれば、消費VRAMを削減してローカル環境でも動作させることが可能です。

Qwen-AgentWorldのライセンス

Qwen-AgentWorldのモデル重みおよびAgentWorldBenchデータセットは、Apache License 2.0のもとで公開されています。このライセンスは、オープンソースの中でも特に寛容なライセンスとして知られており、商用プロダクトへの組み込みを含む幅広い利用が許諾されています。

スクロールできます
利用形態可否備考
商用利用⭕️
改変⭕️ファインチューニング、アーキテクチャ変更などが自由
再配布⭕️
特許利用⭕️Apache 2.0にはコントリビューターからの特許ライセンス付与条項が含まれる
私的利用⭕️
Qwen-AgentWorldのライセンス

すでにコミュニティからは量子化版やGGUF版が複数リリースされており、ライセンスの寛容さがエコシステムの迅速な形成に直結していることがわかります。

Qwen-AgentWorldの使い方

Qwen-AgentWorldは複数の推論フレームワークに対応しています。ここでは、代表的な3つの方法をステップ・バイ・ステップで解説します。

STEP
SGLangでデプロイする方法

SGLangは高速なLLMサービングフレームワークです。SGLangをインストールしたうえで以下のコマンドを実行します。

SGLangのインストール方法はこちらを参照してください。

Qwen-AgentWorldの使い方
参考:https://docs.sglang.io/docs/get-started/install
python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

実行後、http://localhost:8000/v1にOpenAI互換のAPIサーバーが起動します。--tensor-parallel-size 4は4枚のGPUを並列で使用する設定であり、VRAM容量に応じて調整してください。

コンテキスト長は最大262,144トークンですが、OOMエラーが発生する場合は短縮可能です。ただし、マルチターン環境シミュレーションの性質上、公式では128Kトークン以上を維持することが推奨されています。

STEP
vLLMでデプロイする方法
Qwen-AgentWorldの使い方

vLLMは高スループット・省メモリの推論エンジンです。以下のコマンドで起動します。

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --language-model-only \
    --trust-remote-code

vLLMで利用する場合は、--language-model-onlyフラグが必須です。このモデルのアーキテクチャにはビジュアルコンポーネントの定義が含まれていますが、チェックポイントには言語モデルの重みのみが格納されているため、このフラグがないとビジュアルモジュールの初期化に失敗してエラーになります。

STEP
HuggingFace Transformersで推論する方法

ローカル環境で直接Pythonコードから推論を実行したい場合は、以下のようにTransformersライブラリを使用します。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "You are a language world model simulating a Linux terminal environment. "
                   "Given the user's command, predict the terminal output."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: ls -la /home/user/project/"
    }
]

text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(
    outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True
)
print(response)

システムプロンプトにはドメインに応じたテンプレートを使用します。GitHubリポジトリのprompts/ディレクトリに、7ドメインそれぞれに対応するシステムプロンプトテンプレート(system_prompt.txt)と評価用プロンプト(judge_system_prompt.txt)が用意されています。

【業界別】Qwen-AgentWorldの活用シーン

Qwen-AgentWorldは環境シミュレータとしてのユニークな特性から、多岐にわたる業界での活用が見込まれます。ここからは、具体的にどのような業界でどんな使い方が向いているかを整理していきましょう。

ソフトウェア開発・DevOps

Qwen-AgentWorldのターミナルやSWEドメインのシミュレーション能力を活かし、コーディングエージェントの訓練環境として活用できるでしょう。

数千のソフトウェアエンジニアリング環境を仮想的に再現できるため、SWE-Benchのようなタスクで実環境を構築する手間を大幅に削減可能です。CIパイプラインの異常系テストやデプロイ失敗時のリカバリ訓練など、実環境では再現しにくいシナリオの大量生成にも適していますね。

生成AIを搭載したSaaSについて、詳しく知りたい方は以下の記事も参考にしてみてください。

AIエージェント開発・研究

エージェント開発者にとって最も直接的な恩恵があります。Qwen-AgentWorldをシミュレータとして使ったSim RL(シミュレーション強化学習)は、実環境でのRL訓練を上回る成果を出しており、エージェントの訓練コストを劇的に削減できます。特に、制御可能な摂動注入によるエッジケースの訓練や、架空環境の構築による汎化能力の向上は、研究上の画期的なアプローチです。

AIエージェント開発について、詳しく知りたい方は以下の記事も参考にしてみてください。

QA・テスト自動化

Webドメイン、OS ドメイン、Androidドメインのシミュレーション能力は、GUIテスト自動化の文脈で大きな価値を発揮します。テスト用エージェントが「ボタンをクリックした後に画面がどう変化するか」を事前に予測し、期待結果との差分を検知する仕組みを構築できます。実デバイスを大量に用意しなくても、シミュレーションベースで回帰テストを高速に実行できる可能性があります。

生成AIを活用した品質管理について、詳しく知りたい方は以下の記事も参考にしてみてください。

【課題別】Qwen-AgentWorldが解決できること

Qwen-AgentWorldは、AIエージェント開発や運用における複数の根深い課題に対して、新しい解決策を提示しています。

エージェント訓練時の実環境コストの削減

AIエージェントを強化学習で訓練する際、実環境(ブラウザ、ターミナル、仮想マシンなど)を数千並列で動かすコストは非常に大きな課題ですよね。

Qwen-AgentWorldは言語モデルで環境をシミュレートするため、GPUリソースのみで無限に近い訓練環境を生成でき、インフラコストを大幅に削減することが期待できます。

エッジケース・障害シナリオの再現

実環境では再現が困難な稀少な障害パターンやエッジケースを、制御可能な摂動注入によって意図的に生成することができるようになります。これによって、エージェントの堅牢性をシステマティックに検証・向上させることが可能になるでしょう。

マルチドメインにわたるエージェント能力の汎化

従来はドメインごとに個別のシミュレータや訓練環境を用意する必要がありましたが、Qwen-AgentWorldは7ドメインを単一モデルでカバーしているため、ドメイン間の知識転移が自然に行われます。

LWMウォームアップによるAgent Foundation Model実験では、エージェント固有のRLを一切行わなくても、7つのベンチマークでパフォーマンスが向上したという結果が得られています。

Qwen-AgentWorldを使ってみた

ここからは、実際にQwen-AgentWorldの環境シミュレーション品質を確認していきましょう。今回は、公式ブログ上で公開されているインタラクティブデモを使って、ターミナルドメインとMCPドメインの出力をそれぞれ確認しました。

STEP
公式デモへアクセス

公式ブログにアクセスすると「Interactive Demo」セクションが表示されるので、そこからTerminal、Search、MCP、SWE、Android、Web、OSの各ドメインをタブで切り替えて試すことができます。

各デモでは、エージェントのアクション入力に対してQwen-AgentWorldが生成した環境レスポンスが表示されるだけでなく、Thinkingトレースをクリックすることでモデルの内部推論過程も確認できます。

STEP
ターミナルドメイン

ターミナルドメインのデモでは、Linuxターミナルでのコマンド実行を想定したやり取りが表示されます。

Qwen-AgentWorldを使ってみた

例えばls -laコマンドに対して、モデルはファイル名、パーミッション(drwxr-xr-xなど)、所有者、タイムスタンプ、ファイルサイズまで含めたリアルなターミナル出力を生成しています。

Thinkingトレースを確認すると、モデルが「このディレクトリにはどのようなファイルが存在しうるか」「典型的なプロジェクト構造はどうなっているか」といった環境知識をもとに推論を展開している様子が確認できました。

単にフォーマットを真似ているのではなく、文脈に沿った妥当なファイル構造を考えて生成している点が印象的です。

STEP
MCPドメイン

続いてMCP(ツール呼び出し)ドメインです。

Qwen-AgentWorldを使ってみた

JSON形式のAPI呼び出しに対して、モデルが返すレスポンスは、ツールの機能やパラメータの意味を理解したうえで生成されている印象を受けます。

正常系のレスポンスだけでなく、不正なパラメータに対するエラーレスポンスの予測なども含まれており、実環境のAPIの振る舞いを忠実に再現しようとしていることがわかります。

よくある質問

最後に、Qwen-AgentWorldに関して、多くの方が疑問に感じるポイントをQ&A形式でまとめました。

Qwen-AgentWorldは通常のチャットボットとして使えますか?

Qwen-AgentWorldは環境シミュレーションに特化した言語世界モデルであり、一般的なチャットボットとしての利用は想定されていません。Hugging Faceコミュニティ上でも、コーディングタスクや一般的な対話には同モデルよりもQwen3.6シリーズのほうが適しているという報告があります。ただし、一部のユーザーからは「副次的にエージェントとしても機能する」という実験結果も共有されており、想定外の用途でもある程度のパフォーマンスを示すようです。

Qwen-AgentWorld-35B-A3Bをローカルで動かすにはどの程度のGPUが必要ですか?

MoEアーキテクチャのため、推論時にアクティブとなるパラメータは3Bと軽量ですが、モデル全体の重みのロードには35B分のVRAMが必要です。公式では4GPU並列(tensor-parallel-size 4)が推奨されており、256Kフルコンテキストでは高容量VRAMのGPUが求められます。Unslothが提供するGGUF量子化版を使えば、INT4量子化によりVRAM消費を大幅に削減してローカル環境でも動作させることが可能です。

Qwen-AgentWorld-397B-A17Bも公開されていますか?

2026年6月時点で、オープンソースとして公開されているのはQwen-AgentWorld-35B-A3Bのモデル重みのみです。397B-A17Bのモデル重みは公開されていませんが、AgentWorldBenchのベンチマーク結果には397B-A17Bの数値も含まれています。397B-A17Bは総合スコア58.71でGPT-5.4を上回っており、公開を望む声がコミュニティから上がっています。

Qwen-AgentWorldでAIエージェント開発のコスト構造を見直そう

Qwen-AgentWorldは、アリババのQwenチームが2026年6月24日に公開した、AIエージェントの「行動する力」ではなく「環境を理解する力」に焦点を当てた画期的なモデルです。

「エージェントを賢くするには、まず環境を理解させよ」というQwen-AgentWorldのアプローチは、2025年の「コーディングエージェントの年」に続く2026年のエージェント環境のトレンドを象徴するものと言えるかもしれません。

今後、397B-A17Bモデルの一般公開や、さらなるドメイン拡張が実現すれば、AIエージェント開発のパラダイムそのものが変わっていく可能性がありますね。

最後に

いかがだったでしょうか?

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次