【DragNUWA】カーソルの動きで動画を編集できる最先端動画生成AIの使い方〜実践まで
WEELメディア事業部LLMライターのゆうやです。
DragNUWAは、マイクロソフトが発表したテキスト、画像、軌跡を主要な制御要素として利用するビデオ生成モデルです。
このモデルは意味的、空間的、時間的な側面から高度に制御可能なビデオ生成を促進し、これまでのビデオ生成モデルとは異なり、ユーザーが画像内の背景やオブジェクトを直接操作できるようになっています。
2024年の1月8日に公開された最新のDragNUWA 1.5では、Stable Video Diffusionを使用して、特定のパスに従い画像をアニメーション化します。
今回は、DragNUWAの概要や使ってみた感想をお伝えします。
是非最後までご覧ください!
DragNUWAの概要
DragNUWAは、テキスト、画像、軌跡を主要な制御要素として利用するビデオ生成モデルです。
このモデルは意味的、空間的、時間的な側面から高度に制御可能なビデオ生成を促進し、これまでのビデオ生成モデルとは異なり、ユーザーが画像内の背景やオブジェクトを直接操作できるようになっています。
2024年の1月8日に公開された最新のDragNUWA 1.5では、Stable Video Diffusionを使用して、特定のパスに従い画像をアニメーション化します。
最初に公開されたDragNUWA 1.0は、以下のようにテキストで指示を出す必要がありました。
しかし、DragNUWA 1.5ではテキスト入力がなくても、軌跡を入力するだけでそれに従い画像をアニメーション化してくれます。
このような生成例を見ると、DragNUWAは他のビデオ生成モデルとは一線を画すほど繊細な調整が可能であることが伺えます。
ここからは、DragNUWAを実際に使ってその性能を検証していきます。
なお、Stable Video Diffusionついて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Stable Video Diffusion】AIの力で絵が動く!画像から動画を生成できる最新AIモデルを使ってみた
DragNUWAの使い方
DragNUWAには、オンラインデモを使用する方法と、ローカルにインストールして使用する方法の2種類あります。
オンラインデモは、以下のリンクにアクセスするだけで利用できるので非常に簡単です。
次に、ローカルにインストールして実行する手順です。
まず以下のコマンドを順に実行し、実行環境を構築します。
git clone https://github.com/ProjectNUWA/DragNUWA.git
cd DragNUWA
conda create -n DragNUWA python=3.8
conda activate DragNUWA
pip install -r environment.txt
次に、ここから事前トレーニングされたウェイトをダウンロードします。
最後に以下のコマンドを実行して、gradio webUIを起動します。
python DragNUWA_demo.py
早速実際に使ってみましょう!
DragNUWAを実際に使ってみた
オンラインデモやローカルでgradio webUIを起動すると、以下のような画面になります。
Usageの部分を日本語訳すると以下のようになります。
- 画像のアップロード」ボタンで画像をアップロードする。
- ドラッグを描きます。
2.1. コントロールパスを追加したい場合は、「ドラッグを追加」をクリックします。
2.2. 複数の点をクリックして、パスを形成することができます。
2.3. Delete last drag “をクリックすると、最後にドラッグしたパスが削除されます。
2.4. 最後のステップを削除」をクリックすると、最後にクリックしたコントロールポイントが削除されます。 - Run “ボタンをクリックして、パスに従って画像をアニメートします。
これに従って、画像をアニメーションにしていきます。
今回アニメーション化するのは以下の画像です。
この画像にこのような軌跡を追加しました。
全体的に拡大させるようなイメージで軌跡を追加しています。
これで生成を実行すると、このようになりました。
期待通り拡大されるアニメーションが生成されただけでなく、雲の動きや湖の水面の動き、奥に写っている森の木の動きも再現されており、非常に高いクオリティでアニメーション化してくれています。
やはりアニメーション化にStable Video Diffusionを使用していることが、性能の高さに大きく影響していそうですね。
ここからは、さらに他の画像をアニメーション化させてみたり、軌跡をさらに増やして期待した通りに生成してくれるのか検証します。
なお、OpenAIの動画生成AI、Soraについて知りたい方はこちらの記事をご覧ください。
→【Sora】世界に激震を与えたOpenAIの動画生成AI!できることや仕組み、問題点まで徹底解説
DragNUWAの推しポイントである高品質な動画生成を検証してみた
まずは先ほどの画像に追加した軌跡をさらに増やしてみようと思います。
以下のように適当な軌跡を追加しました。
これで動画生成を実行するとこのようになりました。
先ほどの結果とは打って変わって、画像全体ではなく、軌跡を示した一部の部分のみがアニメーション化されました。
新たに指示した部分はほぼその通りに生成してくれましたが、全体的な動きがなくなってしまい、品質は下がってしまいました。
軌跡を追加する際は、全体的なバランスや、画像全体を動かしたいのか、一部分のみ動かしたいのかを決めてからの方がよさそうです。
次に、以下の画像をアニメーション化します。
まずは画像全体を拡大するように軌跡を追加します。
結果はこのようになりました。
問題なく拡大されました。
続いて、画像全体ではなく、写っているフェレットのみを動かすように軌跡を追加してみます。
結果はこのようになりました。
多少気持ち悪くなりましたが、それぞれのフェレットが指示した方向に移動したり振り向いたりしています。
また、実際にはフェレットに隠れて写っていない背後の土も描画されています。
今回の検証の結果をまとめると、DragNUWAは全体的なバランスを見て、させたいことを的確に指示することで、かなりの高クオリティで画像をアニメーション化してくれることが分かりました。
もし気になった方は是非試してみてください!
まとめ
DragNUWAは、マイクロソフトが発表したテキスト、画像、軌跡を主要な制御要素として利用するビデオ生成モデルです。
このモデルは意味的、空間的、時間的な側面から高度に制御可能なビデオ生成を促進し、これまでのビデオ生成モデルとは異なり、ユーザーが画像内の背景やオブジェクトを直接操作できるようになっています。
2024年の1月8日に公開された最新のDragNUWA 1.5では、Stable Video Diffusionを使用して、特定のパスに従い画像をアニメーション化します。
実際に使ってみた感想は、全体的なバランスを見て、させたいことを的確に指示することで、かなりの高クオリティで画像をアニメーション化してくれると感じました。
この手のAIがさらに進化することで、たった一枚の画像から長編のアニメーションを生成できるような、まるで映画「マイノリティ・リポート」の世界観のAIが登場するかもしれませんね!
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。