【MVDream】TikTok、ByteDanceのテキストから高精度の3D画像を生成するAIモデルを使ってみた

MVDream TikTok ByteDance 3D画像 AIモデル

WEELメディア事業部LLMリサーチャーの中田です。

8月31日、TikTokを運営するByteDanceから「MVDream」が公開され、誰でも簡単にテキストプロンプトから3D生成できるようになりました。

これを用いることで、以下のような高品質な3Dを生成できるんです…!

GitHubのスター数は300ほどですが、ByteDanceの技術ということもあり、TikTokにも何かしら反映されるでしょう。

この記事ではMVDreamの使い方や、有効性の検証まで行います。本記事を熟読することで、MVDreamの凄さを実感し、思い思いの3Dキャラクターを量産したくなるでしょう。

ぜひ、最後までご覧ください。

目次

MVDreamの概要

MVDreamは画像拡散モデルの一種で、テキストから2Dや3Dを生成できるAIモデルです。

参考:MVDream: Multi-view Diffusion for 3D Generation

また、MVDreamはByteDanceとカリフォルニア大学サンディエゴ校の共同プロジェクトで、テキストプロンプトからリアルな3Dモデルを生成できることを示しています。具体的なMVDreamの生成能力は、以下のプロジェクトページで確認することができるので、ぜひ参考にしてください。

参考記事:MVDream: Multi-view Diffusion for 3D Generation

MVDreamの料金体系

MVDreamオープンソースとして公開されており、Apache-2.0ライセンスのもとで無料で使用することができます。

なお、ByteDanceが開発した動画生成AIについて知りたい方はこちらの記事をご覧ください。
【MagicAnimate】AnimateAnyoneよりこっちを使え!画像を踊らせる神AIの使い方〜実践まで

MVDreamの使い方

今回は、Google ColabのT4で実行しました。まずは、以下のURLを参考に、threestudioのインストールを完了させておいてください。

参考記事:threestudio

次に、以下のコードを実行してください。

!pip install ninja
!pip install -r requirements.txt

そして、以下のコードを実行して、MVDreamをインストールしましょう。

!git clone https://github.com/bytedance/MVDream extern/MVDream
!pip install -e extern/MVDream 

ここまで完了したら、以下のコードを実行してみてください。「an astronaut riding a horse」というプロンプトでの3D生成が可能になります。

# MVDream without shading (memory efficient)
python launch.py --config configs/mvdream-sd21.yaml --train --gpu 0 system.prompt_processor.prompt="an astronaut riding a horse"

MVDreamを動かすのに必要なPCのスペック

■Pythonのバージョン
Python 3.8以上

■必要なパッケージ
Pytorch 1.12以上
CUDA
20GB VRAM

MVDreamを実際に使ってみた

試しに先ほどの「an astronaut riding a horse」というプロンプトを入力してみます。すると、以下のような結果になりました。

かなり精度が高いですね!

これを応用すれば、自分の好きなキャラクターの3Dも、生成できちゃうんじゃないでしょうか?ただ、今のところ、生成した3Dオブジェクトを動かすみたいなことは、できないようです。

なお、AIによるショート動画生成について詳しく知りたい方は、下記の記事を合わせてご確認ください。
【AI-Shorts-Creator】Youtubeの切り抜きをAIで自動化してショートを量産する方法

MVDreamの推しポイントである高性能3D生成は本当なのか?

ここでは、MVDreamの高性能3Dの根幹である内部構造を、詳しく解説します。

通常、3Dオブジェクトを作る際、ある2Dオブジェクトを「様々な角度」から見る必要があります。

参考:MVDream: Multi-view Diffusion for 3D Generation

ここで、例えば「犬が虹色のカーペットの上に座っている」というテキストをモデルに入力すると、MVDreamはそれを基に「犬を様々な角度から見た画像」を生成します。そして、「DreamBooth」という技術を使用して、それら数枚の画像から新しいコンセプトを学び、それを3D生成に適用することができます。

要するに、「多角的な視点での画像を生成し、それを3Dに適用する」ということをやっているのです。

まとめ

MVDreamは画像拡散モデルの一種で、テキストから2Dや3Dを生成できるAIモデルです。このAIを使うことで、思い思いのキャラクターを動かせるようになるかも?

かなり精度が高く、応用次第では自分の好きなキャラクターの3Dも、生成できるでしょう。ただ、今のところ、生成した3Dオブジェクトを動かすみたいなことは、できないようです。

MVDreamの仕組みを一言で表すと「多角的な視点での画像を生成し、それを3Dに適用する」です。

数年後には、誰でもメタバース空間で自分の好きな3Dモデルを、動かせるようになっているのかもしれないですね。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 中田

    データサイエンス専攻の大学院生。大学では、生成系AIの拡散モデルを用いた音楽生成について研究。 趣味は作曲、サッカー、コーヒー。

  • URLをコピーしました!
  • URLをコピーしました!
目次