【DreaMoving】顔写真だけでTikTok動画を無限に作れるAIツールを使ってTikTokを作成してみた！

論文・専門文書解説

2024-01-19

WEELメディア事業部リサーチャーのいつきです。

今回みなさんにお伝えするのは、ダンス動画生成AIの「DreaMoving」について。

こちらのAIは、顔の画像とポーズデータをアップロードするだけで、入力したプロンプトに応じたダンス動画を自動で生成してくれます。

以下がDreaMovingで生成された動画です。

顔やポーズの画像さえあれば、いくらでもダンス動画を自動で生成できるので、広告業界や教育分野などを中心にさまざまな使い道がありそうですね！

今回は、DreaMovingの機能や仕組みを解説します。

最後まで読んでいただくと、動画生成AIの最新技術を把握できるため、自社の業務に取り入れれば大幅な業務効率化をもたらすかもしれません。

ぜひ最後までご覧ください。

DreaMovingの概要

DreaMovingは、中国のアリババグループが2023年12月に発表したダンス動画生成AIです。顔写真とポーズデータをアップロードし、プロンプトを入力することで自由自在にダンス動画を生成できます。

なお、現状はデモ動画のみが公開されており、コードやモデルは公開されていません。デモ動画では、服装や背景をプロンプトで指定し、さまざまなダンスを踊っている動画が公開されています。

動画を生成するまでにかかった時間などは公表されていませんが、従来の方法でダンスのPVを1本撮るよりも早く生成できるのは間違いないでしょう。

参考記事：DreaMoving: A Human Video Generation Framework based on Diffusion Models

なお、動画生成に特化したモデルについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Pika 1.0】一瞬で高クオリティの動画を作れる生成AIツールの活用事例10選

DreaMovingでできること

基本的にDreaMovingは、顔写真とポーズデータをアップロードして使用することを想定していますが、プロンプトや顔写真単体でもダンス動画を生成できます。

DreaMovingでダンス動画を生成できるのは、以下の3パターンです。

顔の画像+ポーズデータ+プロンプトでダンス動画を生成
プロンプト単体でもダンス動画を生成可能
顔+服装など2つのデータをアップロードして動画を生成

以下で、それぞれのパターンを見ていきましょう。

顔の画像+ポーズデータ+プロンプトでダンス動画を生成

顔の画像とポーズデータをアップロードした後、プロンプトを入力するとダンス動画を生成できます。おそらく、こちらの使い方がDreaMovingのオーソドックスな使い方です。

DreaMovingの公開記事に添付されていたプロンプトの例を以下でみていきましょう。

A girl, smiling, standing on a beach next to the ocean, wearing light yellow dress with long sleeves.

プロンプトの翻訳

海辺で微笑む少女。薄黄色の長袖のワンピースを着ている。

An Asian girl, smiling, dancing in central park, wearing long shirt and long jeans.

プロンプトの翻訳

長袖シャツにロングジーンズを履き、中央公園で踊る笑顔のアジア人の少女。

プロンプトの例からわかるように、服装や表情なども細かく指定できます。紹介したい商品や企業の雰囲気に合わせた動画を瞬時に作れるので、広告やプロモーション動画としての利用価値が高そうです。

プロンプト単体でもダンス動画を生成可能

DreaMovingは、画像やポーズデータをアップロードせずとも、プロンプト単体でダンス動画を生成できます。以下が実際にプロンプトのみでダンス動画を生成している様子です。

1番上のダンス動画では、「部屋の中で黒い服を着ているショートヘアの女の子」というようなプロンプトが与えられています。

また、プロンプトに顔写真を添えると、指定した顔でダンス動画を生成できるのでおすすめです。

顔写真や服装などをアップロードすればより具体的な指示を与えられますが、手軽にダンス動画を生成したい場合はプロンプトのみでもよさそうです。

顔の画像+服装など2つのデータをアップロードして動画を生成

顔写真と服装など、2つ以上のファイルをアップロードすると、より細かい指示を与えられます。

以下は、顔写真と服装のファイルをアップロードしてダンス動画を生成した様子です。

この機能は、ブランドアイテムの宣伝などで使えそうですね！

服を動かしている様子が撮れるので、機能性などをアピールするといいかもしれません。

また、ポーズデータと画像を合わせると、プロンプトを入力しなくても以下のようなダンス動画を生成できます。

プロンプトを入力しなかった場合は、DreaMovingにインプットされている一般的なダンスデータが適用されるようです。

DreaMovingの仕組み

DreaMovingには、以下3つのモデルが採用されています。

顔の画像やポーズデータを処理するVideo ControlNet
動画のノイズを取り除くDenoising U-Net
プロンプトや顔の画像を転送するContent Guider

それぞれのモデルが役割を果たすことで、入力したプロンプトやアップロードしたデータをダンス動画に反映させています。

以下で、モデルの仕組みをそれぞれみていきましょう。

顔の画像やポーズデータを処理するVideo ControlNet

Video ControlNetは、顔の画像やポーズデータを処理するモデルです。テキストから動画を生成するために使用されるフレームワークで、Stable Diffusionなどでも利用されています。

また、Video ControlNetはポーズデータや深度を処理するとともに、時間差を追加して動画の一貫性を確保しているのも特徴。いまいち難しい内容ですが、要は画像データやポーズデータを認識する役割を担っているモデルと認識していれば問題ありません。

動画のノイズを取り除くDenoising U-Net

Denoising U-Netは、動画のノイズを取り除くモデルです。

アップロードした画像をそのままダンス動画にすると、どうしてもノイズが発生してしまうため、Denoising U-Netがノイズを取り除いて高品質なダンス動画に仕上げています。

このモデルの働きにより、ダンスの動きがカクカクせずに、滑らかに表現されているというわけです。

プロンプトや顔の画像を転送するContent Guider

Content Guiderは、DreaMovingに入力したプロンプトや顔写真などの外見表現を転送するモデルです。転送された外見表現は、クロスアテンション用のコンテンツに埋め込まれます。

なお、クロスアテンションとはAIのモデルが画像や動画を生成する際に実行する処理の1つです。テキスト形式で入力したプロンプトと顔写真といった、それぞれのイメージエンコーダを繋げる役割を担っています。

難しい用語なのでこの記事での解説は割愛しますが、結婚相談所にたとえながら、わかりやすく解説している記事があったので共有しておきます。

参考記事：誰でもわかるStable Diffusion　その8：AttentionとTransformer

なお、拡散モデルの代表例・Stable Diffusionについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→Stable Diffusionとは？ローカル・ブラウザでの使い方やモデルのインストール方法を解説

DreaMovingの使い方

ついにDreaMovingのデモがHugging Face Spaceにて公開されたので、実際に使ってみたいと思います。

デモは以下のリンクにアクセスすることで利用できます。

jiayong/Dreamoving

アクセスするとこのような画面になります。

Guided Style GenerationとText-to-Videoの2種類の生成方法が使えます。

なお、Text-to-Videoはテキストのみでは生成できず、Face Imageを選択する必要があります。

また、大変人気なツールでアクセスが集中しているのか、時間帯によっては生成にかなり時間がかかるのでご注意ください。

それでは実際使っていきたいと思います。

DreaMovingを実際に使ってみた

デモで使用できる2種類の生成方法を試してみます。

Guided Style Generation

以下の画像とガイド動画を入力します。

a girl in a white shirt and blue shorts is dancing, in an warm apartment with a fireplace.

暖炉のある暖かいアパートで、白いシャツに青いショートパンツの少女が踊っている。

生成されたアニメーションです。

顔もちゃんと入力した画像になっており、ダンスもガイド動画通りのダンスになっています。

生成された動画は非常に高精細ですが、まだ多少AI感が残っています。（こちらはgifに変換しているため画質が落ちています。）

Text-to-Video

以下の画像とプロンプトを入力します。

ad woman in a gray sweatshirt and black pants dancing, on a beach next to the ocean

海のそばのビーチで踊る、グレーのスウェットと黒のパンツを着た広告の女性

生成されたアニメーションです。

顔の画像とテキストだけで非常に高精細な動画が生成されました。（こちらはgifに変換しているため画質が落ちています。）

ダンスについては特に指定していなかったのですが、自然なダンスを踊っている女性を生成してくれており、テキスト通りの動画だといえそうですね！

ここからは、もう少しDreaMovingの性能を深堀りしていこうと思います。

DreaMovingはどんな条件でもダンス動画が生成できるのか検証してみた

ここからは、いろいろは条件でダンス動画が生成させます。

まずは顔写真を以下の画像にしてみます。

ガイド動画は先ほどのものと同じ動画を使用します。

結果は、何度やってもエラーになって動画は生成されませんでした。

どうやら基本的には本物の人間の画像を入力する必要があるようです。

そこで、以下の銅像の写真を入力してみます。

結果は先ほどと同じようにエラーになってしまいました。

やはり人間の画像しか入力できないようです。

次に、日本語プロンプトで動画が生成できるか検証します。

以下の画像とテキストプロンプトを入力します。

エレガントな衣装を着た女性が、明るく広々としたスタジオで躍動的にダンスを踊っている

結果はこちらもエラーになってしまい生成できませんでした。

どうやら日本語には対応していないようです。

今回の検証の結果をまとめると、

DreaMovingは、本物の人間以外の画像をFace Imageとして入力するとエラーになってしまい、Text-to-Videoについては日本語の入力には対応していないことが分かりました。

基本的には、人間の画像を入力し、英語のプロンプトで指示を出すことで高精細なダンス動画が生成できます。

この記事を読んで気になった方は、是非使ってみてください！

なお、画像をアニメーション化できるDragNUWAについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【DragNUWA】カーソルの動きで動画を編集できる最先端動画生成AIの使い方〜実践まで

DreaMovingは凄かった

DreaMovingの発表を受け、筆者はあらためて動画生成AIの発展スピードに驚かされました。

これまでも似たような動画生成AIは数多くリリースされていましたが、DreaMovingは動きの滑らかさやプロンプトを動画に反映させるコントロール能力が非常に優れています。

テキストtoビデオやイメージtoビデオのAIモデルとして、高い可能性を秘めているといえるでしょう！

DreaMovingでできることを再度まとめました。

顔の画像+ポーズデータ+プロンプトでダンス動画を生成
プロンプト単体でもダンス動画を生成可能
顔+服装など2つのデータをアップロードして動画を生成

手軽にダンス動画を生成する際はプロンプトのみを入力、詳細にデザインされたダンス動画を生成する際は複数のデータをアップロードするなど、さまざまな使い分けができますよ！

また、DreaMovingが高品質なダンス動画を生成するために利用しているのが以下3つの仕組みです。

顔の画像やポーズデータを処理するVideo ControlNet
動画のノイズを取り除くDenoising U-Net
プロンプトや顔の画像を転送するContent Guider

ダンス動画を滑らかに表現したり、指示内容を細かく動画に反映したりできる仕組みが整っています。

とくに、CMなどの広告利用やプロモーション動画の作成に利用すると、時間や金銭的なコストを大幅にカットできそうです。また、ダンスレッスンなどの教育的な観点での活用も面白そうですね！

現状はデモ動画のみの公開となっているので、今後モデルやコードが公開されるのを待ちましょう！

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

セミナーを依頼する

資料をダウンロードする

Authors

いつき

高卒6年目にして独立開業した、フリーランスのWebライター。 ChatGPTをはじめ、多くのAIツールを使いこなした経験を基に、AIメディアの記事を執筆中。複数のWebメディアに在籍し、ライター・ディレクター業務をマルチにこなす。

View all posts
ゆうや

ロボット工学専攻。大学時代は、対話ロボットのための画像キャプションの自動生成について研究。趣味は、サウナとドライブ。

View all posts