【MVDream】TikTok、ByteDanceのテキストから高精度の3D画像を生成するAIモデルを使ってみた
WEELメディア事業部LLMリサーチャーの中田です。
8月31日、TikTokを運営するByteDanceから「MVDream」が公開され、誰でも簡単にテキストプロンプトから3D生成できるようになりました。
これを用いることで、以下のような高品質な3Dを生成できるんです…!
GitHubのスター数は300ほどですが、ByteDanceの技術ということもあり、TikTokにも何かしら反映されるでしょう。
この記事ではMVDreamの使い方や、有効性の検証まで行います。本記事を熟読することで、MVDreamの凄さを実感し、思い思いの3Dキャラクターを量産したくなるでしょう。
ぜひ、最後までご覧ください。
MVDreamの概要
MVDreamは画像拡散モデルの一種で、テキストから2Dや3Dを生成できるAIモデルです。
また、MVDreamはByteDanceとカリフォルニア大学サンディエゴ校の共同プロジェクトで、テキストプロンプトからリアルな3Dモデルを生成できることを示しています。具体的なMVDreamの生成能力は、以下のプロジェクトページで確認することができるので、ぜひ参考にしてください。
参考記事:MVDream: Multi-view Diffusion for 3D Generation
MVDreamの料金体系
MVDreamオープンソースとして公開されており、Apache-2.0ライセンスのもとで無料で使用することができます。
なお、ByteDanceが開発した動画生成AIについて知りたい方はこちらの記事をご覧ください。
→【MagicAnimate】AnimateAnyoneよりこっちを使え!画像を踊らせる神AIの使い方〜実践まで
MVDreamの使い方
今回は、Google ColabのT4で実行しました。まずは、以下のURLを参考に、threestudioのインストールを完了させておいてください。
参考記事:threestudio
次に、以下のコードを実行してください。
!pip install ninja
!pip install -r requirements.txt
そして、以下のコードを実行して、MVDreamをインストールしましょう。
!git clone https://github.com/bytedance/MVDream extern/MVDream
!pip install -e extern/MVDream
ここまで完了したら、以下のコードを実行してみてください。「an astronaut riding a horse」というプロンプトでの3D生成が可能になります。
# MVDream without shading (memory efficient)
python launch.py --config configs/mvdream-sd21.yaml --train --gpu 0 system.prompt_processor.prompt="an astronaut riding a horse"
MVDreamを動かすのに必要なPCのスペック
■Pythonのバージョン
Python 3.8以上
■必要なパッケージ
Pytorch 1.12以上
CUDA
20GB VRAM
MVDreamを実際に使ってみた
試しに先ほどの「an astronaut riding a horse」というプロンプトを入力してみます。すると、以下のような結果になりました。
かなり精度が高いですね!
これを応用すれば、自分の好きなキャラクターの3Dも、生成できちゃうんじゃないでしょうか?ただ、今のところ、生成した3Dオブジェクトを動かすみたいなことは、できないようです。
なお、AIによるショート動画生成について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【AI-Shorts-Creator】Youtubeの切り抜きをAIで自動化してショートを量産する方法
MVDreamの推しポイントである高性能3D生成は本当なのか?
ここでは、MVDreamの高性能3Dの根幹である内部構造を、詳しく解説します。
通常、3Dオブジェクトを作る際、ある2Dオブジェクトを「様々な角度」から見る必要があります。
ここで、例えば「犬が虹色のカーペットの上に座っている」というテキストをモデルに入力すると、MVDreamはそれを基に「犬を様々な角度から見た画像」を生成します。そして、「DreamBooth」という技術を使用して、それら数枚の画像から新しいコンセプトを学び、それを3D生成に適用することができます。
要するに、「多角的な視点での画像を生成し、それを3Dに適用する」ということをやっているのです。
まとめ
MVDreamは画像拡散モデルの一種で、テキストから2Dや3Dを生成できるAIモデルです。このAIを使うことで、思い思いのキャラクターを動かせるようになるかも?
かなり精度が高く、応用次第では自分の好きなキャラクターの3Dも、生成できるでしょう。ただ、今のところ、生成した3Dオブジェクトを動かすみたいなことは、できないようです。
MVDreamの仕組みを一言で表すと「多角的な視点での画像を生成し、それを3Dに適用する」です。
数年後には、誰でもメタバース空間で自分の好きな3Dモデルを、動かせるようになっているのかもしれないですね。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。