【VLOGGER】表情を自由に編集できるGoogleのアバター生成AI

オープンソースAI

2024-04-032024-04-05

WEELメディア事業部LLMライターのゆうやです。

Googleから新しい動画生成AI「VLOGGER」が発表されました。

VLOGGERは、たった一枚の人物の画像と音声から人物の動きを予測し、会話する人間の動画を生成できます。

https://twitter.com/ytakahiro0702/status/1770785358826864757

さらにVLOGGERは、動画の生成だけでなく、動画編集や動画内の音声の翻訳までできちゃうんです！

このような恐ろしいほどの能力を持つVLOGGERを紹介するポストには、なんと1万を超えるいいねと436万件のインプレッションがついています！

🚨 Breaking news:

Google just dropped VLOGGER, and it's crazy.

This is going to transform the future of VIDEO forever

Here’s everything you need to stay ahead of the curve: 🧵 👇 pic.twitter.com/2VRc6EaKO8
— Madni Aghadi (@hey_madni) April 1, 2024

今回は、VLOGGERの概要と、その能力について迫っていきます。

是非最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

VLOGGERの概要

VLOGGERは、Googleが開発した最新の動画生成AIで、画像と音声を与えれば、たった1枚の人物の画像からその人物が話している動画を生成できます。

こちらが実際にVLOGGERが生成した動画です。

VLOGGER is this cool new technology that can make photos come alive.

It's wild – The AI animates your face, complete with natural gestures & expressions. pic.twitter.com/C7wYp3BkWY
— Madni Aghadi (@hey_madni) April 1, 2024

非常に自然な形で画像を動画化できています。

これだけでもすごいですが、VLOGGERは動画の音声を翻訳する機能や、人物の顔の表情を変えたり、手や頭などに動きをつける機能、欠けているフレームを補完するなどの動画編集機能も備えています。

そんなVLOGGERは、後程詳しく紹介しますが、以下の2つの主要な部分で構成されています。

音声から3D動作への変換：音声波形から中間体動作制御を生成するための確率論的拡散モデル
画像から画像への時間的変換：大規模な画像拡散モデルを拡張した時間的画像から画像への変換モデル

これらの要素が連携することで、VLOGGERはテキストと音声の指示に基づいて、画像から人間らしい動きと表情を持つ音声付き動画を生成できます。

このモデルはまだ一般公開されていませんが、公開されれば動画作成のハードルを大幅に下げることが期待でき、将来的に様々な分野で活用されるでしょう。

ただ、このモデルはその高性能さ故、悪用される危険性があり、その対策や法整備が進まない限り公開される可能性は低いかもしれません。

ここからは、VLOGGERの仕組みや機能についてさらに深堀りしていきます。

なお、OpenAIの超高性能動画生成AIであるSoraについて知りたい方はこちらの記事をご覧ください。
→【Sora】世界に激震を与えたOpenAIの動画生成AI！できることや仕組み、問題点まで徹底解説

VLOGGERの仕組み

VLOGGERは、最近の生成的拡散モデル（generative diffusion models）の成功に基づいて開発されており、前述したように主に以下の2つの主要な構成要素で構成されています。

確率論的拡散モデル：音声波形から中間体動作制御を生成
大規模画像拡散モデルを拡張した時間的な画像間変換モデル：予測された中間体動作制御から対応するフレームを生成

そして、以下の画像はVLOGGERの仕組みと動画生成の流れの図です。

引用元：https://enriccorona.github.io/vlogger/

この画像だけ見ても分かりにくいと思うので、仕組みを順に説明していきます。

VLOGGERは、まず音声が入力されると音声波形から中間体動作制御を生成するための確率論的拡散モデルを用いて、その音声から動画の長さや顔の表情、動きを予測します。

次に、大規模画像拡散モデルを拡張した時間的な画像間変換モデルを使用して、確率論的拡散モデルで予測された動きと入力画像を基に、対応するフレームを生成します。

なお、このときの入力画像は、動画生成のプロセスを特定の人物のアイデンティティに合わせて調整するために利用されます。

このVLOGGERは従来のものとは異なり、個々の人物ごとに訓練する必要がなく、顔の検出やトリミングに依存せず、顔や唇だけでなく完全な画像を生成し、コミュニケーションを行う人間を正確に生成できます。

このモデルは、MENTORという最新の多様なデータセットを使用して訓練され、ベンチマークで画像の質、アイデンティティの保持、時間的一貫性などの面で、他の最先端の方法を超える結果を示しています。

参考：vlogger

ここからは、VLOGGERの機能について解説していきます。

VLOGGERの機能

VLOGGERには、概要でも説明した通りいくつかの機能があります。

その機能の概要と、実際の生成例を見ていきましょう。

動画生成

VLOGGERのメイン機能は、先ほどから紹介しているように、画像と音声入力から動画を生成する機能です。

音声と画像から、人物の動きを予測し、人物のアイデンティティを保持しながら動画化します。

以下の例は、単一の入力画像と音声だけを与えた場合の生成例です。

Google just dropped VLOGGER, and it's crazy.

This is going to transform the future of VIDEO forever#ai pic.twitter.com/3PqLhjS47l
— Vandal (@VandalCrow) April 1, 2024

また、VLOGGERは多様な動画を生成することができ、以下のように同じ画像、音声から違う動きの動画を生成します。

https://twitter.com/MessiyaAI/status/1771757731533242758

一番右の動画は、生成された80の動画から得られたピクセルの多様性を示しており、手と頭の動きに多様性がありながらも、背景は固定されることで、動画のリアルさを維持しているとのことです。

動画翻訳

VLOGGERは、動画の生成だけでなく、既存の動画の音声を翻訳する機能も備えています。

以下の動画は、英語の音声をスペイン語に翻訳している例です。

https://twitter.com/MessiyaAI/status/1771757739305251102?s=20

違和感のない自然な翻訳ができていますね。

また、翻訳だけでなく、話者の口の動きを翻訳先の言語に合わせて調整する機能も備えています！

従来の吹き替え、翻訳動画は、音声を上からかぶせているものが主流ですが、VLOGGERの登場により、完全に音声を置き換えて口の動きも自然な究極の吹き替え、翻訳動画を作成可能になりますね！

動画編集

VLOGGERは、既存の動画を編集することもできます。

以下の動画のように、入力された動画の人物の口の動きや目を閉じさせるなどして、表情を変えることができます。

https://twitter.com/MessiyaAI/status/1771757742811656663

具体的には、拡散モデルの柔軟性を利用して変化する画像部分を補間し、その編集部分をを元の変化していないピクセルと一致させることで、動画編集を実現しています。

今後VLOGGERがさらに進化すれば、動画の生成から編集まで完全にAIに任せられるようになる時代が来るかもしれませんね！

なお、Soraレベルの動画生成AIであるGoogle Lumiereについて知りたい方はこちらの記事をご覧ください。
→【Google Lumiere】Soraレベルの動画生成AIの仕組みを徹底解説

VLOGGERで誰でも簡単に動画作成、編集ができる時代に！

VLOGGERは、Googleが開発した最新の動画生成AIで、画像と音声を与えれば、たった1枚の人物の画像からその人物が話している動画を生成できます。

また、動画生成だけでなく、動画の編集や、動画音声の翻訳までできちゃう優れものなんです！

そんなVLOGGERは、以下の2つの主要な構成要素で構成されています。

確率論的拡散モデル：音声波形から中間体動作制御を生成
大規模画像拡散モデルを拡張した時間的な画像間変換モデル：予測された中間体動作制御から対応するフレームを生成

音声から動作を予測するという点が画期的であり、これまでの拡散モデルの成功をうまく組み合わせて、自然な動画生成を可能にしています。

Googleは、このモデルをまだ一般公開しておらず、その理由はまだ研究段階にあり、プロダクトとして完成されていないからです。

また、非常に自然な動画を画像と音声だけで生成できるこのモデルは、ディープフェイク動画などで悪用される危険性があり、その対策をしなければならないことも理由としてありそうです。

VLOGGERの開発が進み、さらに性能を高めてかつ安全性の懸念も払拭され、一般公開される日が来るのが待ち遠しいですね！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ