【Sora】世界に激震を与えたOpenAIの動画生成AI!できることや仕組み、問題点まで徹底解説
WEELメディア事業部LLMライターのゆうやです。
2024年2月15日、ChatGPTでおなじみOpenAI社が「Sora」というText-To-Videoモデルを公開しました!
このモデルは、最長1分というこれまでにない長時間の動画を超高品質で生成できます。
これまでの動画生成AIは、せいぜい数秒の動画しか生成できないので、動画の長さもクオリティもSoraが圧倒しています。
以下の動画は実際にSoraで生成された動画です。
Prompt
Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
数頭の巨大な毛むくじゃらのマンモスが雪の草原を踏みしめながら近づいてくる。長い毛むくじゃらの毛が風になびきながら歩くマンモス、雪に覆われた木々、遠くに見えるドラマチックな雪を頂いた山々。
AIが生成したとは到底思えない非常にリアルな動画ですよね
あまりに高性能なため、現在は一般公開されておらず、OpenAIのレッドチーム(AIの問題点を研究するチーム)が安全に使用できる措置を模索しています。
ただ、クリエイターにとって最も役立つようにモデルを進化させる方法についてのフィードバックを得るために、多数のビジュアル アーティスト、デザイナー、映画製作者がアクセスを許可されています。
一般公開される日が待ち遠しいですね!
今回は、そんな超高性能動画生成AIのSoraについてその概要や特徴をお伝えします。
是非最後までご覧ください!
Soraの概要
Soraは、2024年2月15日にOpenAI社が公開したText-To-Videoモデルです。
OpenAIは、「Sora は、複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーンを生成できます。」としており、現実と見分けがつかないほどの動画を生成してくれます。
また、このモデルはユーザーがプロンプトで何を要求したかだけでなく、それらのものが物理世界にどのように存在するのかも理解します。
例えば以下のような例があります。
Prompt
Reflections in the window of a train traveling through the Tokyo suburbs.
東京郊外を走る電車の窓に映る風景。
このように、ユーザーがプロンプトで要求した東京郊外の風景と、現実のように電車の窓に反射する社内の人々の様子も生成されています。
現実世界に存在するものをきちんと理解して動画を生成していることが分かりますね!
また、超高品質なことに加え、最長1分の動画を生成でき、これまでの動画生成AIがせいぜい数秒程度の動画しか生成できなかったことを考えると、クオリティも動画の長さも他を圧倒しています。
例えば以下のような一貫性のある高品質な1分の動画を生成できます。
Prompt
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
暖かく光るネオンとアニメーションの街の看板で埋め尽くされた東京の通りを歩くスタイリッシュな女性。黒いレザージャケットに赤いロングドレス、黒いブーツを履き、黒い財布を持っている。サングラスに赤い口紅。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、色とりどりのライトの鏡のような効果を生み出している。多くの歩行者が歩いている。
非常にリアルで、濡れた路面やサングラスに光が反射する様子も生成されていますが、後ろの看板や標識は日本語になっていないなどの残念な点もあります。
ここからは、Soraでできること・機能や高品質な動画生成を実現している技術の概要について詳しく紹介していきます。
Soraの技術的な内容や、より深い内容を知りたい方は、こちらの記事をご覧ください。
→OpenAI Soraは何がすごい?革新的な点や仕組みを技術的観点から徹底解説
Soraにできること・機能
ここからは、さらに詳しくSoraの機能を紹介していきます。
どうやら単純にテキストから動画を生成する以外のこともできるようなので要チェックです!
Text-To-Video
まずは先ほどから紹介している、Soraの目玉機能のText-To-Videoです。
非常に高精細で一貫性のある動画を最長1分というこれまでにない長さで生成してくれます。
Prompt
An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.
60代の顎鬚を生やした白髪の男の極端なクローズアップ。彼はパリのカフェに座りながら宇宙の歴史について深く考えている、 茶色のベレー帽をかぶり、眼鏡をかけて、とても教授らしい風貌をしている。人生の謎に対する答えを見つけたかのように、最後に彼は微妙に口を閉じた笑みを浮かべる。
Image-to-Video、Video-to-Video
Soraは、テキスト入力からだけではなく、画像や動画入力にも対応しており、画像のアニメーション化など様々なことができます。
その機能について紹介していきましょう。
DALL・Eで生成された画像をアニメーション化
まずは、画像のアニメーション化です。
Sora は、画像とプロンプトを入力として動画を生成できます。
OpenAIの発表では、同社の画像生成AI・DALL-E 3で生成された画像をアニメーション化した例をいくつか公開しています。
Prompt
A Shiba Inu dog wearing a beret and black turtleneck.
ベレー帽と黒のタートルネックを着た柴犬。
画像のアニメーション化も高精細で一貫性を維持したものになっていますね!
生成された動画の拡張
Soraは、動画を前後に拡張させることもできます。
発表の中で紹介されているのは、生成された動画のセグメントから開始して時間を逆方向に拡張したものです。
これらの動画は、すべて異なる始まり方をしますが、最終的には同じ結末で終わります。
こんなこともできるなんてすごいですね!
また、この方法を活用して動画の前後両方を拡張することで、以下の動画のようなシームレスなループ動画も作れちゃいます!
まだまだできることはたくさんあるので、どんどん紹介していきます。
動画の編集
Soraでは、テキストプロンプトから画像や動画を編集するための方法の一つであるSDEditを適用して、入力映像のスタイルや環境をゼロショットで変換することができます。
以下の例は、元動画の環境をさまざまなものに変更しています。
動画編集まで出来てしまうとは恐ろしいです…
動画の接続
できることはまだあります!笑
Soraでは、2つの入力動画の間を徐々に補間することで、被写体やシーンの構図が全く異なる映像間のシームレスなトランジションを作成することもできるんです!
2つの全く異なる動画をシームレスに統合して、以下の動画を生成してくれます。
よく映画で見るシーンの切り替えのような動画が生成できていますよね!
この動画がAIで生成されたとは信じられません…
画像生成
Soraは、画像を生成することもでき、最大 2048×2048 の解像度までさまざまなサイズの画像を生成できます。
Prompt
Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field
秋の女性のクローズアップ・ポートレート、極端なディテール、浅い被写界深度
画像生成AIとしても使用でき、高い汎用性を持っています。
新しいシミュレーション能力
Soraには、これまでの動画生成AIにはなかったようなシミュレーション能力があります。
例えば、以下の動画のように、カメラが移動したり回転したりすると、人物やシーンの要素が 3 次元空間内を一貫して移動する動画を生成できます。
また、ユニークな能力として、人工的なプロセスをシミュレートすることもできます。
その一例として、ゲーム「Minecraft」のシミュレートが紹介されています。
Soraは、以下の動画のようにMinecraftのプレイヤーをコントロールすると同時に、世界とそのダイナミクスを忠実にレンダリングすることができます。
プレイ動画
Soraによるシミュレーション
なんなら本物のMinecraftよりリアルな映像ですよね!
そして、この機能は、「Minecraft」について言及するキャプションをソラに促すことでゼロショットで引き出すことができます。
このシミュレーション動画をテキスト入力のみで生成できるとは驚きです。
Soraのこの機能は、ビデオ モデルの継続的なスケーリングが、物理世界とデジタル世界、およびその中に住む物体、動物、人々の高機能シミュレーターの開発に向けた有望な道であることを示唆しています。
Soraの高品質な動画生成を実現している技術
ここからは、これまで紹介したようなSoraの機能を実現している技術について紹介します。
ここまで高性能なモデルはいったいどのような技術で成り立っているのでしょうか…
見ていきましょう!
ビジュアルデータのパッチ化
Soraでは、ビデオや画像をLLMのテキストトークンに似た小さなデータ単位であるビジュアルパッチパッチの集合として表現します。
パッチは、視覚データのモデルを効果的に表現することが先行研究で示されており、さまざまな種類のビデオや画像で生成モデルをトレーニングするための非常にスケーラブルで効果的な表現です。
まず動画を低次元の潜在空間に圧縮し、次に表現を時空間パッチに分解することで、動画をパッチに変換します。
Video compression network
Video compression network(ビデオ圧縮ネットワーク)は、視覚データの次元を削減するネットワークで、生の動画を入力として受け取り、時間的および空間的に圧縮された潜在表現を出力します。
Soraは、このこの圧縮された潜在空間でトレーニングされ、その後、この圧縮された潜在空間内で動画を生成します。
Spacetime Latent Patches
Spacetime Latent Patches(時空潜在パッチ)は、圧縮された入力動画が与えられると、トランスフォーマートークンとして機能する一連の時空パッチを抽出します。
パッチベースの表現により、Sora はさまざまな解像度、長さ、アスペクト比のビデオや画像でトレーニングでき、推論時にランダムに初期化されたパッチを適切なサイズのグリッドに配置することで、生成されるビデオのサイズを制御できます。
ビデオ生成用のスケーリングトランスフォーマー
Sora はディフュージョンモデルであり、ノイズの多いパッチ (およびテキスト プロンプトなどの条件付け情報) が入力されると、元の「きれいな」パッチを予測するようにトレーニングされます。
ここで重要なのは、Soraはディフュージョントランスフォーマーであり、これは言語モデリング、コンピュータビジョン、画像生成など、様々な領域で顕著なスケーリング特性を示してきました。
OpenAIは、ディフュージョントランスフォーマーが動画生成モデルとしても効果的であることを発見しました。
以下の例で、トレーニングの計算量が増えるにつれて、サンプルの品質は著しく向上することが示されています。
Base
16倍
言語理解
Soraは、DALL·Eの研究で得た成果、特にDALL·E 3からのキャプション再生成技術を応用し、非常に説明的なキャプションモデルをトレーニングし、次にそれを使用してトレーニングセット内のすべての動画のテキストキャプションを生成します。
高度に説明的なキャプションの訓練は、生成動画の全体的な品質だけでなく、テキストの忠実度を向上させることが分かっています。
また、GPTを活用して短いユーザープロンプトを長い詳細なキャプションに変換し、モデルに送信します。これにより、Soraはユーザーのプロンプトに正確に従った高品質の動画を生成することができます。
Soraの動画事例を知りたい方は、こちらの記事をご覧ください。
→【OpenAI Soraのおすすめ活用事例】一晩で世界を変えた動画生成AIのヤバい使い方10選
Soraの問題点
ここまで、Soraのすごい点について紹介してきましたが、完璧というわけではなく、当然問題点もあります。
OpenAIは、Soraの問題点についても、いくつかの例と共に公開していますので紹介します。
物理シミュレート
Soraは、現時点では物理を正確にモデル化できていないという問題があります。
例えば、以下の動画のようにガラスが割れるような表現を生成できません。
その他にも多くの基本的な物理を理解しておらず、複雑なシーンの物理を正確にシミュレートするのに苦労する可能性があります。
この動画は、ソラが椅子を剛体としてモデル化することに失敗し、不正確な物理的相互作用を引き起こしている例です。
Soraが出力に失敗した動画
OpenAIが公開している生成の失敗例を、その原因と共に紹介します。
こちらの動画をご覧ください。
この動画は、「特に多くのエンティティが含まれるシーンでは、動物や人が自然に現れることがある」というSoraの問題により発生しています。
このように、超高性能なSoraにも問題点はあり、現在も解決するための研究が続いています。
このモデルが一般公開されるときには、安全性の問題と共に解決されて、完璧なモデルになっていることに期待しましょう!
Soraは他のモデルとは一線を画す超高性能動画生成AIモデル!
Soraは、2024年2月15日にOpenAI社が公開した動画生成AIモデルで、現実と見分けがつかないほどリアルで高精細な動画を生成してくれます。
最後に、Soraの特徴をまとめます。
- テキストから動画への変換: Soraは、テキストプロンプトに応答して超高品質の動画を作成する能力を持っています。
- ビデオ生成用のスケーリングトランスフォーマー:Soraはディフュージョントランスフォーマーであり、これは動画生成モデルとしても有用で、トレーニングの計算量に応じて著しく性能が向上します。
- Text-To-Video以外の機能:Soraには、生成された動画の拡張、動画の編集、動画の接続、画像生成などのText-To-Video以外の機能も充実しています。
- 他のモデルの技術の応用:Soraは、DALL·E 3からのキャプション再生成技術を応用し、トレーニングセット内のすべての動画のテキストキャプションを生成します。また、GPTをGPTを活用して短いユーザープロンプトを長い詳細なキャプションに変換します。
OpenAIは、「Sora は、現実世界を理解してシミュレーションできるモデルの基盤として機能します。この機能は、AGI を達成するための重要なマイルストーンになると考えています」としています。
このモデルが生成する動画や機能を見せられたら、私たちが想像しているよりも早くAGIが実現してしまうのではないかと期待してしまいますね!
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。