超優秀なオープンソース動画生成AI「Wan2.1」を解説!性能・使い方・注意点まとめて紹介

Wan2.1 動画生成AI 概要 使い方
押さえておきたいポイント
  • Wan2.1は、オープンソースで高性能な動画生成AIとして、Text-to-Video・Image-to-Video・編集まで幅広く対応
  • プロンプト拡張機能により、短い指示でも映像品質と安定性を大きく向上
  • ローカル実行からAPI・ComfyUIまで用途と環境に応じた柔軟な使い分けが可能

2025年2月25日、中国のAlibaba Cloudが、大規模マルチモーダルAIモデルシリーズの最新版「Wan2.1」を公開しました!

「Wan2.1」はオープンソースでリリースされており、テキストや画像から高品質な動画を生成できるよう設計されているようです。また、VBenchで総合スコア86.22%と高い評価を記録し、SoraやLuma、Pikaを大きく上回る性能を持つとのこと。

本記事では、そんな「Wan2.1」の概要から使い方までご説明します。

ぜひ、最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

目次

Wan2.1の概要

Wan2.1は、最先端の拡散モデル(DIT:Denoising Diffusion Transformer)と独自開発のVAEを組み合わせ、複雑な動きや空間関係、物理法則の再現に優れたリアルな動画生成を実現しています。

https://github.com/Wan-Video/Wan2.1?tab=readme-ov-file

特に、時間軸を捉えるのに優れており、実際の動きを精密に模倣することが可能な仕組みになっています。

また、Wan2.1はマルチモーダル対応モデルであり、「Text-to-Video」だけでなく、「Image-to-Video」、「既存動画の編集」、「テキストから画像生成」、「動画からオーディオ生成」まで、複数のタスクに対応した包括的なモデルです。

上述の通りですが、Wan2.1は主要なオープンソースおよびクローズドソースモデルとのベンチマークテスト比較で、高い評価を得ています。

参考:https://github.com/Wan-Video/Wan2.1?tab=readme-ov-file

上記の表は、人間の嗜好に由来する重みを利用して、各次元のスコアに対して加重計算を行った合計スコアの結果です。

Weighted Scoreにおいて、他モデルを上回っていることが分かりますね。

さらに、「Wan2.1」のストロングポイントとして、手軽さが挙げられます。

Wan2.1の小型版モデル「T2V-1.3B」は、必要なVRAMが約8.2GBと軽量で、RTX4090クラスのGPUであれば、約4分で5秒間、480P解像度の動画を生成することができます。

加えて、Wan2.1は画像生成モデル並みの柔軟なカスタマイズ性や、テキスト入り動画生成といったユニークな機能を備えており、総合的に見て現行の他の動画生成AIとの差別化が図られています。

VBenchとWan-Benchの違い

動画生成AIの評価には主にVBenchとWan-Benchという2つのベンチマークが使用されています。

VBenchは、「動画生成品質」を16の階層的な評価次元に分解し、被写体の一貫性、動きの滑らかさ、時間的なちらつき、空間関係など、技術的品質を細かく測定します。VBenchの最大の特徴は、各評価次元が人間の知覚と高い相関性を持つよう設計されている点です。

一方、Wan-Benchは、Alibabaチームが独自に開発した評価フレームワークで、Wan2.1の技術レポートで初めて導入されました

Wan-Benchは人間の嗜好に基づく重み付けを採用しており、各評価次元のスコアに対して人間が重要視する要素を反映した加重計算を実施。

この手法により、総合スコアが実際のユーザー体験により近い形で算出されるようになっています。

両者の違いは評価するもの自体です。VBenchは「技術的に何ができているか」を客観的に測定するのに対し、Wan-Benchは「ユーザーが実際にどう感じるか」を重視しています。

Wan2.2との違いと選び方

2025年9月にWan2.2が公開され、2026年2月現在、Wan2.1とWan2.2の両方が利用可能です。どちらを選ぶべきか迷う方も多いため、ここでは両者の違いとどちらを選ぶべきかを解説します。

Wan2.2の最大の変更点は、アーキテクチャにMixture-of-Experts(MoE)を採用したことで、生成速度が2〜3倍向上し、音声生成がネイティブ対応となった点です。また、最大解像度も720Pから1080Pへ引き上げられています

一方で、コミュニティからは初回・最終フレームの品質についてWan2.1の方が優れているという報告もあります。

音声生成が不要であればWan2.1、音声が必要であったり生成速度を求める、1080Pの解像度を求める時にはWan2.2を使うのがよいでしょう。

モデルラインナップの全体像

Wan2.1は、用途や環境に応じて選択できる複数のモデルを提供しています。

大きく分けてText-to-Video 、Image-to-Video、First-Last-Frame-to-Video、Video Auto-Caption Encoder の4つで、それぞれに1.3Bまたは14Bのパラメータサイズが用意されています。

T2V-1.3B / T2V-14B

T2V-1.3Bは、わずか13億パラメータという軽量設計ながら、必要VRAMが8.19GBと非常に低く抑えられており、RTX 3060やRTX 4060でも動作可能。

480P解像度の5秒動画をRTX 4090で約4分で生成でき、個人開発者や限られたリソース環境での利用に最適です。ただし、720P解像度での生成も技術的には可能ですが、学習データの制約により480Pでの利用が公式推奨されています。

一方、T2V-14Bは140億パラメータの大規模モデルで、480Pと720Pの両方に対応。より複雑な動きや高精細な表現が可能で、商用レベルの高品質動画生成に適しています。

I2V-14B(480P・720P)

Image-to-Videoは解像度別にI2V-14B-480PとI2V-14B-720Pの2つのバリエーションが用意されています。

I2V-14B-480Pは、低解像度ながら安定した動画生成が可能で、必要VRAMも比較的抑えられています。一方、I2V-14B-720Pは高解像度での動画生成に対応し、より精細な動きと画質を実現。

入力画像のアスペクト比は生成動画に引き継がれるため、ポートレートや風景など多様な構図に対応可能です。

FLF2V-14B

First-Last-Frame-to-Video (FLF2V) モデルは、動画の最初と最後のフレームを指定することで、その間の動きを補間生成するモデル。2025年4月にリリースされたFLF2V-14Bは、140億パラメータで720P解像度に対応しています。

FLF2Vの最大の特徴は、開始フレームと終了フレームの一致率が98%に達する高精度な制御性です。

これにより、シームレスなループ動画の作成や、ストーリーボードに基づいた正確なシーン遷移が可能になります。例えば、鳥が地面にいる画像と空を飛んでいる画像を指定すれば、離陸の過程を自然に補間した動画を生成できます。

VACE(1.3B / 14B)

Video Auto-Caption Encoder (VACE) は、Wan2.1の中で最も多機能なオールインワンモデル。動画生成だけでなく、動画編集、自動キャプション生成まで対応する統合型モデルとして2025年5月に公開されました。

VACE-1.3Bは480P推奨で低VRAM環境でも動作し、VACE-14Bは480Pと720Pの両方をサポート

通常のT2VやI2Vと異なり、VACEはテキストプロンプト、動画、マスク、参照画像などの複数入力を組み合わせた生成が可能です。

実際にVACEを使われている方がXにいらっしゃいましたが、最初と最後の画像だけを指定して、間の動きを補完してくれるようです。

Wan2.1のモデルをそれぞれまとめると下記のようになります。

スクロールできます
モデル名パラメータ解像度必要VRAM目安主なタスク推奨環境
T2V-1.3B13億480P推奨8.19GBテキストから動画生成個人開発・低VRAM
T2V-14B140億480P/720P24GB+テキストから動画生成商用・高品質制作
I2V-14B-480P140億480P16GB+画像から動画生成写真アニメーション
I2V-14B-720P140億720P24GB+画像から動画生成高精細I2V
FLF2V-14B140億720P24GB+開始終了フレーム指定ループ動画・遷移
VACE-1.3B13億480P推奨8GB+統合編集・生成オールインワン低負荷
VACE-14B140億480P/720P24GB+統合編集・生成プロ級編集ワークフロー
Wan2.1モデルファミリー一覧表

用途や環境に応じて上記一覧表を参考に使用するモデルを決めるのが良いでしょう。

Wan2.1の機能

では次にWan2.1の機能を詳しくみていきましょう。

Text-to-Video (T2V)

Text-to-Video (T2V) は一般的に動画生成でよく使われる、テキストプロンプトから動画を生成する機能で、Wan2.1でも中核を担う機能です。

自然言語で入力されたテキストプロンプトをもとに、その内容に沿った映像を生成することが可能です。

たとえば「猫がピアノを弾いている」や「未来都市を飛び回るドローン」といった指示を与えるだけで、意味を解釈してアニメーション動画を作成することができます。

Image-to-Video (I2V)

1枚の静止画をもとに、その画像に動きを加えた動画を生成できるのがImage-to-Video(I2V)です。

たとえば、風景写真を入力すれば、空が流れたり人物が歩き出すようなモーションが加わった映像が生成されます。

動画生成AIで人物をリアルに動かしたい方は、以下の記事もご覧ください。

Video Editing

Wan2.1は入力された動画に対して「編集」を加える機能が搭載されています。

具体的には、入力した動画の一部だけを変更したり、スタイルを変えたりエフェクトを追加するといった処理が可能です。単なる動画生成だけでなく、素材の加工や再構成ができるようになっています。

Text-to-Image

動画だけでなく、テキストから静止画(画像)を生成する機能も搭載しています。

これにより、まずテキストプロンプトで画像を作り、それを元に動画を生成させるという2段階構成の制作も可能になりました。

Video-to-Audio

Wan2.1では、生成した動画や入力された動画から、そのシーンにマッチする効果音などを自動生成する機能も搭載されています。

これにより、無音の動画にリアルな効果音を付ける作業を自動化できるようになりました。

ただ、BGM(音楽)というよりも効果音・環境音というイメージが強いようなので、現時点ではしっかりBGMをつけたいなら別途動画とBGMを合わせる方がよいでしょう。

テキスト生成

英語と中国語に限られますが、Wan2.1は動画生成時にテキストも追加することが可能です。

動画の中にキャッチコピーを入れたり、字幕を出すことができるので動画とテキストが一体化した

作品を一度の生成プロセスで作れるようになりました。

プロンプト拡張について

Wan2.1では、入力したプロンプトを自動的に詳細化・拡張するプロンプト拡張(Prompt Extension)機能があります。プロンプト拡張は、シンプルなプロンプトから生成される動画の品質を大幅に向上させることが可能。

例えば「猫がピアノを弾く」という短いプロンプトが、「ふわふわした毛並みの白い猫が、木製のグランドピアノの前に座り、前足で鍵盤を優雅に押している。柔らかな室内光が猫の毛並みを照らし、背景には本棚と観葉植物がぼやけて見える。カメラは猫の横からのミディアムショットで、ピアノの音色に合わせた動きを捉えている」といった詳細な記述に変換されます。

この拡張により、動きのリアリティ、映像美、意味理解の精度が改善されます。

Wan2.1では、プロンプト拡張を使う方法としてDashscope APIとローカルQwenモデルを使用する方法の2つがあります。

Dashscope API活用

Dashscope APIはQwenシリーズの大規模言語モデルがクラウド上で実行されるため、ローカル環境のVRAMやCPU負荷を一切消費せずにプロンプト拡張が可能です。

Dashscope APIを使用するには、事前にAlibaba Cloud Model StudioでAPIキーを取得する必要があります。

実際に使用する場合には、既存の動画もしくは画像が入力としてある前提で、それを編集・参照・拡張することになります。

サンプルコードはこちら

import requests

import json

import time

DASHSCOPE_API_KEY = "" 

BASE_URL = "https://dashscope-intl.aliyuncs.com"

CREATE_URL = f"{BASE_URL}/api/v1/services/aigc/video-generation/video-synthesis"

headers = {

    "Authorization": f"Bearer {DASHSCOPE_API_KEY}",

    "Content-Type": "application/json",

    "X-DashScope-Async": "enable",

}

payload = {

    "model": "wan2.1-vace-plus",

    "input": {

        "function": "image_reference",

        "prompt": "A woman standing calmly",

        "ref_images_url": [

            "https://weel.co.jp/wp-content/uploads/2025/11/image-415.png"

        ]

    },

    "parameters": {

        "prompt_extend": True,

        "obj_or_bg": ["obj"], 

        "size": "1280*720"

    }

}

res = requests.post(CREATE_URL, headers=headers, json=payload)

print("create:", res.status_code, res.json())

res.raise_for_status()

task_id = res.json()["output"]["task_id"]

print("task_id:", task_id)

TASK_URL = f"{BASE_URL}/api/v1/tasks/{task_id}"

while True:

    r = requests.get(TASK_URL, headers={"Authorization": f"Bearer {DASHSCOPE_API_KEY}"})

    r.raise_for_status()

    data = r.json()

    status = data["output"]["task_status"]

    print("status:", status)

    if status == "SUCCEEDED":

        out = data["output"]

        print("\n=== ORIG PROMPT ===\n", out.get("orig_prompt"))

        print("\n=== ACTUAL PROMPT (EXTENDED) ===\n", out.get("actual_prompt"))

        print("\n=== VIDEO URL ===\n", out.get("video_url"))

        break

    if status in ("FAILED", "CANCELED"):

        raise RuntimeError(json.dumps(data, ensure_ascii=False, indent=2))

    time.sleep(15)

結果はこちら

=== ORIG PROMPT ===

 A woman standing calmly

=== ACTUAL PROMPT (EXTENDED) ===

 纪实摄影风格,一位三十岁左右的东亚女性静静伫立在晨光微照的旧巷中。她身穿米白色风衣,长发松散垂肩,双手自然垂落,神情沉静,目光平和望向远方。背景是斑驳青砖墙与半开木门,光影柔和斜洒于她侧脸与衣摆。微风轻拂发丝与衣角,呈现细微动态。中景半身站姿,略低角度仰拍,突出从容气场。

日本語訳はこちら

ドキュメンタリー調のスタイルで、30歳前後の東アジア系の女性が、朝日にほのかに照らされた古い路地に静かに佇んでいる。ベージュのトレンチコートをまとい、長い髪が肩にゆるやかに垂れ、両手は自然に下ろされている。表情は穏やかで、視線は遠くを静かに見つめている。背景には斑模様の青レンガの壁と半開きの木戸が映り、柔らかな光が彼女の横顔と衣の裾に斜めに差し込む。微風が髪と衣の端をそっと揺らし、微細な動きを浮かび上がらせる。中景の半身立ち姿は、やや低い角度からの仰ぎ撮りにより、落ち着いた気品を際立たせている。

プロンプトは拡張されましたが、中国語で出力されました。

また、今回参照した画像はこちらの記事で取り扱っている、女性の画像です。

無料で試せる動画生成AIツールも比較したい方は、以下の記事もご覧ください。

Wan2.1についてのよくある質問

SoraやLumaといった他の動画生成AIと比べてどう?

動画生成AIで有名なSoraやLumaと比べると、Wan2.1は「オープンソース」「ローカルで使える」「比較的軽量」という点が大きな利点です。一方で、極端に高精細な実写表現や長尺の動画ではSoraの方が優れています。ただし、ローカル環境で自分好みにカスタマイズできるという点では、Wan2.1は制限なく実験したい人に最適だといえるでしょう。

Wan2.1は日本語プロンプトに対応している?

はい、Wan2.1は日本語プロンプトに対応しています。ただし、学習データは英語及び中国語が中心とされているため長文や難しい言い回しの日本語では思った通りの結果が得られない可能性があります。より精度の高い結果を求めるのであれば英語に訳したプロンプトを使用するのがよいでしょう。

OOMエラーが出てしまいますが、どうすればいいですか?

–offload_model Trueを指定することでVRAM消費を削減できます。しかし生成速度は約20〜30%低下します。

Wan2.1は商用利用できますか?

はい、できます。Wan2.1はApache 2.0ライセンスで公開されており、商用利用・改変・再配布・特許使用が許可されています。

Wan2.1で日本語プロンプトは使えますか?

使えますが英語と中国語で学習されているので、可能であれば英語で指示を出すのが良いです。

まとめ

最後に改めて、「Wan2.1」の特徴をまとめます。

  • オープンソースで公開、テキストや画像から高品質な動画を生成できる
  • SoraやLuma、Pikaを大きく上回る性能を持つ
  • 拡散モデル×VAE」の組み合わせでよりリアルな動画生成を実現
  • Apache 2.0ライセンスのもとで、無償で利用可能
  • 利用方法はローカル、クラウド、WebUIの3つ

日々進化する動画生成AI領域から目が離せませんね!

最後に

いかがだったでしょうか?

Wan2.1などの動画生成AIを活用し、プロダクトや事業の可能性を広げませんか?最先端の生成AI導入に向けた具体的な活用方法や、最適な実装手法について専門家が詳しくご提案します。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次