サイトのデザインが新しくなりました。

【Open-Sora Plan】1024×1024の10秒動画を生成できる無料版Sora

Open-Sora-Plan 1024×1024 10秒動画 生成できる 無料版 Sora

WEELメディア事業部LLMライターのゆうやです。

Open-Sora Planは、OpenAIによって開発されたテキストからビデオへの変換モデル「Sora」の再現を目指すプロジェクトです。

このプロジェクトは、北京大学や深センに拠点を置くAI企業Rabbitpreなどの中国の研究者たちによって立ち上げられました。

Open-Sora Planは、現段階ではテキスト入力だけで10秒程度の1024×1024の動画を生成可能となっています。

現在は、さらに長い1分程度の動画も生成できるようにトレーニングが続けられています。

このモデルは、デモ版が公開されているので、気軽に試すことができ、また完全にオープンソースなのでローカルに実装することもできます。

今回は、Open-Sora Planの概要と使ってみた感想をお伝えします。

是非最後までご覧ください!

なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。

目次

Open-Sora Planの概要

Open-Sora Planは、OpenAIによって発表されたテキストからビデオへの変換を可能にするモデル「Sora」のオープンソース版の実現を目指すプロジェクトです。

現段階ではテキスト入力だけで10秒程度の1024×1024の動画を生成可能となっています。

こちらは実際にOpen-Sora Planで生成された動画です。

非常にきれいで自然な動画が生成できていますよね!

そんなOpen-Sora Planは、以下のような要素で成り立っています。

  • Video VQ-VAE: ビデオデータを時空間次元で圧縮する技術です。これにより、ビデオデータを扱いやすい形に変換し、後続の処理を容易にします。
  • Denoising Diffusion Transformer: デノイジング(ノイズ除去)を担う部分で、入力されたデータから不要な情報を取り除き、よりクリアなビデオ生成を可能にします。
  • Condition Encoder: 複数の条件付き入力を受け入れることができるエンコーダーです。これにより、生成されるビデオの多様性と精度が向上します。
引用元:https://github.com/PKU-YuanGroup/Open-Sora-Plan

Open-Sora Planは、Soraの技術を簡単かつスケーラブルなバージョンで再現することを目指しています。

今後、より高い解像度でのビデオ-VQ-VAEのファインチューニングや、より多くのデータとGPUを使用したトレーニングなどが予定されています。

今後の目標タスク等は、公式GitHubリポジトリに掲載されているので、詳しくはそちらをご覧ください。

PKU-YuanGroup/Open-Sora-Plan

ここからは、Open-Sora Planを実際に使っていこうと思います。

なお、OpenAIのSoraについて知りたい方はこちらの記事をご覧ください。
【Sora】世界に激震を与えたOpenAIの動画生成AI!できることや仕組み、問題点まで徹底解説

Open-Sora Planのライセンス

Open-Sora PlanはMITライセンスのもとで提供されており、無商用利用することも可能です。

利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用記載なし
私的使用⭕️

また、Open-Sora Planの学習データはCC0ライセンスに基づいており、完全にオープンソース化されています。

Open-Sora Planの使い方

まず、Open-Sora Planのローカルでの実行方法を説明します。

最初にGitHubのリポジトリをクローンし、そのディレクトリに移動してください。

git clone https://github.com/PKU-YuanGroup/Open-Sora-Plan
cd Open-Sora-Plan

次に、仮想環境を作成して必要なパッケージをインストールします。

conda create -n opensora python=3.8 -y
conda activate opensora
pip install -e .

ここまで完了したら、トレーニング ケース用の追加パッケージをインストールします。

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

最後に、オプションの要件をインストールします。

pip install -e '.[dev]'

これで要件のインストールは完了で、以下のコマンドでGradio Web UIを起動して使用できます。

python -m opensora.serve.gradio_web_server

ローカルで実行する方法のほかに、Hugging Face Spaceでのオンラインデモや、Google Colabのノートブックも公開されているため、気軽に試すことができます。

Hugging Face Space:Open-Sora-Plan-v1.0.0

Google Colab:Open_Sora_Plan_jupyter.ipynb

Open-Sora Planを実行するのに必要なスペック

Open-Sora Planを実行するのに必要な要件・スペックは以下の通りです。

  • Pythonバージョン: 3.8以上
  • Pytorchバージョン: 1.13.1以上
  • CUDAバージョン: 11.7以上
  • GPU:A100GPU×1以上

やはり動画生成にはそれなりのGPUスペックが求められるため、なかなか家庭用PCで動かすのは難しいかもしれません。

今回は、Google ColabでA100を使用してOpen-Sora Planを試します。

Open-Sora Planを実際に使ってみた

以下のプロンプトを入力し、ステップ数はデフォルトの50で生成します。

Countless balloons in the sky

空に浮かぶ無数の気球

結果は1分30秒ほどで以下の動画を生成してくれました。

テキストだけでここまで想定通りの動画が生成できるのは驚きです。

ここからは、公開されているSoraの生成例のプロンプトをOpen-Sora Planに入力して、どれほどのクオリティで生成できるのか比較していきます。

Open-Sora Planと本家Soraを比較してみた

それでは早速比較検証していきましょう。

まずは以下のプロンプトを入力します。

An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.

60代のひげを生やした白髪の男性の極端なクローズアップ。彼はパリのカフェに座りながら宇宙の歴史について深く考え込んでおり、座りながら歩く画面外の人々に目を向けている。 ほとんど動かず、ウールのコートにボタンダウンのシャツを着た彼は、茶色のベレー帽と眼鏡をかけて非常に教授っぽい風貌をしており、最後に彼は人生の謎に対する答えを見つけたかのように、微妙に口を閉じた笑みを浮かべている。 ライティングは、金色の光と背景のパリの街並み、被写界深度、映画のような35mmフィルムで、とても映画的です。

結果はこのようになりました。

Open-Sora Plan

「60代のひげを生やした白髪の男性の極端なクローズアップ」という部分は正しく生成できていますが、「パリのカフェに座りながら」や、「茶色のベレー帽」などの部分は再現できていません。

また、手もおかしくなってしまっています。

Sora

Soraの生成した動画は、プロンプトを忠実に再現しており、品質も正直Open-Sora Planとは比較にならないほど高品質です。

別のプロンプトでも試してみましょう。

以下のプロンプトを入力します。

Reflections in the window of a train traveling through the Tokyo suburbs.

東京郊外を走る電車の窓に映る風景。

結果はこのようになりました。

Open-Sora Plan

かろうじて電車が走っている様子はわかるほどの品質で、プロンプトは「東京郊外を走る電車の窓に映る風景」ですので、全く違う描写を生成してしまっています。

Sora

Soraが生成した動画は、プロンプトを完全に再現しており、窓に反射して写る車内の人々の様子まで描写しているという超高性能っぷりです。

このプロンプトでも、Open-Sora PlanはまだまだSoraには追いついていないことが分かりました。

Open-Sora Planは、今後取り組むべきタスクが多く明確化されており、トレーニングも継続して行われる予定です。

そのためそう遠くない将来に、オープンソース版のSoraが完成し、誰もが気軽に利用・カスタマイズできるようになることでしょう!

なお、別のオープンソースSoraプロジェクトであるOpen-Soraについて知りたい方はこちらの記事をご覧ください。
【Open-Sora】裏ワザでOpenAIのSoraを使う禁断の方法

Open-Sora Planのこれからに期待!

Open-Sora Planは、OpenAIによって開発されたテキストからビデオへの変換モデル「Sora」の再現を目指すプロジェクトです。

このプロジェクトは、北京大学や深センに拠点を置くAI企業Rabbitpreなどの中国の研究者たちによって立ち上げられ、コミュニティの支援を受けながら進められています。

現段階ではテキスト入力だけで10秒程度の1024×1024の動画を生成可能となっており、今後さらに高画質でより長い動画の生成を可能にするため、トレーニングが続けられています。

実際に使ってみたところ、プロンプトの内容を含む動画を生成してくれますが、品質はまだまだSoraには及ばず改めてSoraの凄さを実感しました。

Open-Sora Planは完全にオープンソースとして開発されているので、今後のトレーニングやコラボレーションによるさらなる性能向上に期待しましょう!

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • ゆうや

    ロボット工学専攻。 大学時代は、対話ロボットのための画像キャプションの自動生成について研究。 趣味は、サウナとドライブ。

  • URLをコピーしました!
  • URLをコピーしました!
目次