【MVDream】TikTok、ByteDanceのテキストから高精度の3D画像を生成するAIモデルを使ってみた

AIツール ByteDance オープンソースAI 生成AIずかん

2023-12-212024-07-20

WEELメディア事業部LLMリサーチャーの中田です。

8月31日、TikTokを運営するByteDanceから「MVDream」が公開され、誰でも簡単にテキストプロンプトから3D生成できるようになりました。

これを用いることで、以下のような高品質な3Dを生成できるんです…！

GitHubのスター数は300ほどですが、ByteDanceの技術ということもあり、TikTokにも何かしら反映されるでしょう。

この記事ではMVDreamの使い方や、有効性の検証まで行います。本記事を熟読することで、MVDreamの凄さを実感し、思い思いの3Dキャラクターを量産したくなるでしょう。

ぜひ、最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

MVDreamの概要

MVDreamは画像拡散モデルの一種で、テキストから2Dや3Dを生成できるAIモデルです。

参考：MVDream: Multi-view Diffusion for 3D Generation

また、MVDreamはByteDanceとカリフォルニア大学サンディエゴ校の共同プロジェクトで、テキストプロンプトからリアルな3Dモデルを生成できることを示しています。具体的なMVDreamの生成能力は、以下のプロジェクトページで確認することができるので、ぜひ参考にしてください。

参考記事：MVDream: Multi-view Diffusion for 3D Generation

MVDreamの料金体系

MVDreamオープンソースとして公開されており、Apache-2.0ライセンスのもとで無料で使用することができます。

なお、ByteDanceが開発した動画生成AIについて知りたい方はこちらの記事をご覧ください。
→【MagicAnimate】AnimateAnyoneよりこっちを使え！画像を踊らせる神AIの使い方〜実践まで

MVDreamの使い方

今回は、Google ColabのT4で実行しました。まずは、以下のURLを参考に、threestudioのインストールを完了させておいてください。

参考記事：threestudio

次に、以下のコードを実行してください。

!pip install ninja
!pip install -r requirements.txt

そして、以下のコードを実行して、MVDreamをインストールしましょう。

!git clone https://github.com/bytedance/MVDream extern/MVDream
!pip install -e extern/MVDream

ここまで完了したら、以下のコードを実行してみてください。「an astronaut riding a horse」というプロンプトでの3D生成が可能になります。

# MVDream without shading (memory efficient)
python launch.py --config configs/mvdream-sd21.yaml --train --gpu 0 system.prompt_processor.prompt="an astronaut riding a horse"

MVDreamを動かすのに必要なPCのスペック

■Pythonのバージョン
Python 3.8以上

■必要なパッケージ
Pytorch 1.12以上
CUDA
20GB VRAM

MVDreamを実際に使ってみた

試しに先ほどの「an astronaut riding a horse」というプロンプトを入力してみます。すると、以下のような結果になりました。

かなり精度が高いですね！

これを応用すれば、自分の好きなキャラクターの3Dも、生成できちゃうんじゃないでしょうか？ただ、今のところ、生成した3Dオブジェクトを動かすみたいなことは、できないようです。

なお、AIによるショート動画生成について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【AI-Shorts-Creator】Youtubeの切り抜きをAIで自動化してショートを量産する方法

MVDreamの推しポイントである高性能3D生成は本当なのか？

ここでは、MVDreamの高性能3Dの根幹である内部構造を、詳しく解説します。

通常、3Dオブジェクトを作る際、ある2Dオブジェクトを「様々な角度」から見る必要があります。

ここで、例えば「犬が虹色のカーペットの上に座っている」というテキストをモデルに入力すると、MVDreamはそれを基に「犬を様々な角度から見た画像」を生成します。そして、「DreamBooth」という技術を使用して、それら数枚の画像から新しいコンセプトを学び、それを3D生成に適用することができます。

要するに、「多角的な視点での画像を生成し、それを3Dに適用する」ということをやっているのです。

まとめ

MVDreamは画像拡散モデルの一種で、テキストから2Dや3Dを生成できるAIモデルです。このAIを使うことで、思い思いのキャラクターを動かせるようになるかも？

かなり精度が高く、応用次第では自分の好きなキャラクターの3Dも、生成できるでしょう。ただ、今のところ、生成した3Dオブジェクトを動かすみたいなことは、できないようです。

MVDreamの仕組みを一言で表すと「多角的な視点での画像を生成し、それを3Dに適用する」です。

数年後には、誰でもメタバース空間で自分の好きな3Dモデルを、動かせるようになっているのかもしれないですね。

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ