【Google Lumiere】Soraレベルの動画生成AIの仕組みを徹底解説

オープンソースAI

2024-03-272024-07-22

2024年1月23日、Google Researchは新たな動画生成AIモデル「Lumiere」を発表しました。

Lumiereは独自の「Space-Time U-Net (STUnet)」というアーキテクチャによって動画全体を一度に処理することで、破綻の少ないリアルな動画を生成することができます。

以下の動画は実際にLumiereで生成された動画のデモムービーです。

今回は、そんな高性能動画生成AIであるLumiereについて、その概要や技術的な特徴を紹介します。

ぜひ最後までご覧ください！

Google Lumiereの概要

Google Lumiereは、Googleが開発した最先端の動画生成AIです。

テキストを元に動画を生成（Text-to-Video）できるだけでなく、静止画を動画に変換（Image-to-Video）したり、既存の動画の一部を編集するなど、さまざまな機能があります。

例えば、次の動画はText-to-Videoのサンプルです。

Astronaut on the planet Mars making a detour around his base

和訳：
基地周辺を迂回する火星の宇宙飛行士

5/ Text-to-Video

Generate detailed videos from text pic.twitter.com/P9FzgfJp5X
— Min Choi (@minchoi) January 24, 2024

宇宙服のしわや足の動きも滑らかで、違和感の少ない動きになっています。

そのクオリティの高さからユーザー評価も高く、論文によると、従来の動画生成AIとして、動画の質・プロンプト再現性の両方でLumiereが優位となったことが報告されています。

ここからは、そんなLumiereの機能やリアルな動画生成を実現する技術の概要について詳しく紹介していきます。

Lumiereと比較されている動画生成AI「Pika1,0」について、より詳しい内容を知りたい方は、こちらの記事をご覧ください。
→【Pika 1.0】頭の中のアイデアを動画にできる動画生成AI！使い方や料金、商用利用について解説

Google Lumiereにできること

ここからは、Lumiereの機能を詳しく紹介していきます。　

Lumiereでは、以下のようなことができると報告されています。

Text-to-Video
Image-to-Video
Cinemagraphs（静止画の一部のみ動かす）
Video-to-Video
Inpainting（動画修正）

それぞれについて、詳しく見ていきましょう。

Text-To-Video

まずは先ほど紹介した、「Text-To-Video」機能です。これはLumiereの目玉である、書かれたテキストを基にビデオを生成する機能です。

テキストから動画を生成

最近では当然になってきた
テキストからの動画生成ですが
やはり一味違います。

当然Lumiereでも
Text-to-videoが可能ですが、
文脈理解が優れているのでかなり
自然な動画が生成できます。 pic.twitter.com/aVo5B9KvZA
— じもん@AI×note,Brainマネタイズ (@jimon_blog) January 25, 2024

複数のサンプル動画が紹介されていますが、どれも細部までリアリティのある動画が生成されています。

花が揺れているシーンや魚の群れなど、複数の物体が重なる動画でも精度の高さが伺えます。

Image-to-Video、Cinemagraphs

静止画をもとに動画を生成する機能です。全体を動画化するだけでなく、Lumiereは画像の一部のみを指定して動かすことも可能です。

まずはImage-to-Videoを見てみましょう。

A girl winking and smiling

和訳：
ウインクして微笑む少女

A timelapse oil painting of a starry night with clouds moving

和訳：
星降る夜の絵画の雲が動くタイムラプス

2/ Image-to-Video

Transform still image into a dynamic video pic.twitter.com/emX5FtzjGI
— Min Choi (@minchoi) January 24, 2024

よく知られた名画が、リアルな映画やアニメのような質感で動画化されています。

また、画像の一部のみを動かすCinemagraphs機能では、写真の中を範囲指定し、その部分のみを動画に変換することも可能です。

4/ Cinemagraphs (aka Motion Brush)

Create motion to specific parts of the scene pic.twitter.com/l2yC7FkKct
— Min Choi (@minchoi) January 24, 2024

煙や炎のゆらぎなどは、普通に撮影した動画と比べても遜色がないように見えます。

これらの機能は、静止画に動きを加えてより鮮やかに表現したいシーンなどに便利ですね。

Video-to-Video、Inpainting

既存の動画素材を元に、スタイル変更や内容の修正・編集を行うこともできます。

以下の例では、元の動画から被写体のテクスチャをさまざまなものに変更しています。

Made of stacked wooden blocks

和訳：
積み木

Origami folded paper art

和訳：
折り紙

Made of colorful toy bricks, Sculpture made of flowers

和訳：
カラフルなおもちゃのブロック

Sculpture made of flowers

和訳：
花でできた彫刻

動画をAIで加工

オリジナル画像をAIで加工して
ユニークな動画を作れます。

・ブロックで構成されたレゴ風にする
・花まみれにする

など加工ができます。 pic.twitter.com/NYRdI6GuYZ
— じもん@AI×note,Brainマネタイズ (@jimon_blog) January 25, 2024

また、Inpainting機能では動画の中の不要な要素を消去したり、欠けている部分を補完することができます。

次の例ではテキストプロンプトによる指示のみで元の緑色の肩出しドレスから、さまざまなデザインのドレスに服装を変化させています。

A woman wearing a purple strapless dress

和訳：
紫のストラップレスドレスを着た女性

A woman wearing a stripe strapless dress

和訳：
ストライプのストラップレスドレスを着た女性