【Wan2.1使ってみた】SoraやLuma超えの動画生成AI!?概要や使い方を徹底解説

- 高品質なマルチモーダル動画生成AI
- Apache 2.0ライセンスのもとでオープンソースで公開
- 「Text-to-Video」や「Image-to-Video」など、多様なタスクに対応
2025年2月25日、中国のAlibaba Cloudが、大規模マルチモーダルAIモデルシリーズの最新版「Wan2.1」を公開しました!
「Wan2.1」はオープンソースでリリースされており、テキストや画像から高品質な動画を生成できるよう設計されているようです。
また、VBenchで総合スコア86.22%と高い評価を記録し、SoraやLuma、Pikaを大きく上回る性能を持つとのこと。
本記事では、そんな「Wan2.1」の概要から使い方までご説明します。
ぜひ、最後までご覧ください。
Wan2.1の概要
Wan2.1は、最先端の拡散モデル(DIT:Denoising Diffusion Transformer)と独自開発のVAEを組み合わせ、複雑な動きや空間関係、物理法則の再現に優れたリアルな動画生成を実現しています。
特に、時間軸を捉えるのに優れており、実際の動きを精密に模倣することが可能な仕組みになっています。
また、Wan2.1はマルチモーダル対応モデルであり、「Text-to-Video」だけでなく、「Image-to-Video」、「既存動画の編集」、「テキストから画像生成」、「動画からオーディオ生成」まで、複数のタスクに対応した包括的なモデルです。
上述の通りですが、Wan2.1は主要なオープンソースおよびクローズドソースモデルとのベンチマークテスト比較で、高い評価を得ています。

上記の表は、人間の嗜好に由来する重みを利用して、各次元のスコアに対して加重計算を行った合計スコアの結果です。
Weighted Scoreにおいて、他モデルを上回っていることが分かりますね。
さらに、「Wan2.1」のストロングポイントとして、手軽さが挙げられます。
Wan2.1の小型版モデル「T2V-1.3B」は、必要なVRAMが約8.2GBと軽量で、RTX4090クラスのGPUであれば、約4分で5秒間、480p解像度の動画を生成することができます。
加えて、Wan2.1は画像生成モデル並みの柔軟なカスタマイズ性や、テキスト入り動画生成といったユニークな機能を備えており、総合的に見て現行の他の動画生成AIとの差別化が図られています。
Wan2.1の料金プラン
Wan2.1そのものはオープンソースモデルであり、無料で利用することができます。
将来的にクラウドサービス上で、Wan2.xのようなモデルを提供する可能性はありますが、具体的なサービス形態や料金体系は発表されていません。
仮に、Alibaba Cloud上でAPI提供が開始された場合は、他の生成AIサービス同様に利用料(計算資源に応じた従量課金や月額プラン)が設定されると考えられます。
ただ、2025年2月時点では、Wan2.1はオープンソース公開モデルという位置付けのため、公式の無料・有料プランといった区別はなく、誰もがApache 2.0ライセンスに基づいて無償で利用可能です。
Wan2.1のライセンス
Wan2.1はApache 2.0ライセンスのもとで公開されているため、商用利用を含め、自由に改変・再配布することが認められています。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | ⭕️ |
私的使用 | ⭕️ |
ただし、ライセンスについては変更となる可能性もありますので、利用する際は最新情報を必ずチェックするようにしましょう。
Wan2.1の使い方
Wan2.1を動かすのに必要な動作環境は以下の通りです。
■Pythonのバージョン
Python3.8以上
■RAMの使用量
8GBで、1.3Bモデルの480P動画生成が可能だが、16GB以上推奨
また、Wan2.1には、以下のような3つの利用方法があります。
ローカル環境での利用(Windows・Mac)
Windows環境
PythonとCUDA対応GPU環境を用意します。
PyTorch 2.4+ (CUDA対応版) をインストールし、GitHubリポジトリをクローン、そして依存ライブラリをpipで導入。
その後モデルファイルをHuggingFaceからダウンロードします。環境構築が完了すれば、以下のようなスクリプトを実行することで、Text-to-Videoを試すことが可能です。
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "(入力プロンプト)"
Mac環境
残念ながら2025年2月現在でWan2.1は、Appleシリコン対応 (MPS) していません。
1.3BモデルをCPU/MPSでかろうじて動かすのが限界で、実行に非常に時間を要します。もし、Appleシリコンで利用する場合は、サポートのアップデートを待つか、GoogleColabのGPU環境での利用を検討しましょう。
クラウドベースでの利用
GoogleColab
Colab上でもWan2.1を実行することができます。
基本的な手順はWindowsと同じで、GPU対応のランタイムを選択し、GitHubリポジトリをクローン&依存関係をインストール後、モデルをダウンロードしてスクリプトを実行するといった流れです。
WebUIでの利用
Hugging Face
環境構築不要でWan2.1を試す方法として、Hugging Face上のデモがあります。
このデモでは、バックエンドでWan2.1モデルがホストされており、英語または中国語のテキストから5秒前後の短い動画を生成することができます。
また、Image-to-Videoも試すことができるようです。(※ただし、2025年2月26日現在では、サーバー負荷がかかっており、起動や実行に時間がかかる場合があります。)
Wan2.1をGoogleColab上で使ってみた
今回は、GoogleColab A100 GPUで「Text-to-Video」を試してみます。
1.ランタイム設定
「ランタイムの変更」を選択し、「A100 GPU」を選択します。
2.リポジトリのクローンと依存パッケージインストール
以下コードを実行します。
#GitHubから Wan2.1 リポジトリをクローン
!git clone https://github.com/Wan-Video/Wan2.1.git
%cd Wan2.1
#必要なライブラリをインストール(PyTorch 2.4+、diffusers、transformers、opencv-python など)
!pip install -r requirements.txt
#Hugging Face CLI のインストール(モデルダウンロード用)
!pip install "huggingface_hub[cli]"
#GPUが認識されているか確認
import torch
print("PyTorch version:", torch.__version__)
print("GPU available:", torch.cuda.is_available())
print("GPU device:", torch.cuda.get_device_name(0) if torch.cuda.is_available() else "None")
3.モデルダウンロード
今回は、Text-to-Video 1.3Bモデル(480p向け)をダウンロードします。
※筆者はここで実行完了までに15分ほどかかったので、時間に余裕を持って試してみてください。
#Text-to-Video 1.3B モデルをダウンロード
!huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir /content/Wan2.1-T2V-1.3B
4.モデル実行
さあ、いよいよモデル実行です!
Promptはこちら
A futuristic robot explores a devastated spaceship. The scene is highlighted by cinematic lighting and high-definition detail.
和訳:
未来的なロボットが、荒廃した宇宙船内を探索する。シネマティックなライトと高精細なディテールが際立つシーン。
ひとまず、サクッとテストしたいので、以下のようなパラメータで実行します。
!python generate.py --task t2v-1.3B --size 832*480 \
--ckpt_dir /content/Wan2.1-T2V-1.3B \
--prompt "$A futuristic robot explores a devastated spaceship. The scene is highlighted by cinematic lighting and high-definition detail." \
--sample_guide_scale 6 \
--sample_shift 5 \
--frame_num 24 \
--sample_steps 20 \
--t5_cpu \
--offload_model True \
--save_file text_to_video_quick.mp4
上記のコードは、2〜3分ほどで実行完了しました。
これで「text_to_video_quick.mp4」というファイルが保存されているので、以下コードでColab上にファイルを表示します。
from IPython.display import HTML, display
from base64 import b64encode
def show_video(filename, width=480):
with open(filename, 'rb') as f:
mp4 = f.read()
data_url = "data:video/mp4;base64," + b64encode(mp4).decode()
display(HTML(f'<video width="{width}" controls><source src="{data_url}" type="video/mp4"></video>'))
# テスト結果表示
show_video('text_to_video_quick.mp4', width=480)
パラメータ設定をかなり低めに抑えたのですがこの品質。予想以上のクオリティでした。
プロンプトは変えず、パラメータだけ上方修正して、再度実行してみます。
実行時間は5分ほど。これもまたキレイな映像に仕上がっています。
今回、Google Colab T4 GPUでも何度か試したのですが、リソース不足でモデル実行ができませんでした。体感ですが、A100 GPU以上の環境が必須だと感じました。
今回はここまでのご紹介となりますが、気になる方はぜひ、「他のプロンプト」や「Image-to-Video」も試してみてください!
まとめ
最後に改めて、「Wan2.1」の特徴をまとめます。
- オープンソースで公開、テキストや画像から高品質な動画を生成できる
- SoraやLuma、Pikaを大きく上回る性能を持つ
- 「拡散モデル×VAE」の組み合わせでよりリアルな動画生成を実現
- Apache 2.0ライセンスのもとで、無償で利用可能
- 利用方法はローカル、クラウド、WebUIの3つ
日々進化する動画生成AI領域から目が離せませんね!
最後に
いかがだったでしょうか?
Wan2.1などの動画生成AIを活用し、プロダクトや事業の可能性を広げませんか?最先端の生成AI導入に向けた具体的な活用方法や、最適な実装手法について専門家が詳しくご提案します。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。