【Audio2Photoreal】Meta開発の音声入力だけで一瞬でAIアバターを作成できるツールを使ってみた
WEELメディア事業部LLMリサーチャーの中田です。
FacebookのMeta社とUCバークレーが、音声入力からアバターを生成できる「Audio2Photoreal」を公開しました。
このAIツールを使うことで、音声を入力するだけで、その音声を喋るアバターを生成できるんです…!
GitHubでのスター数は、すでに1,100を超えており、ある程度注目されていることが分かります。将来のゲーム開発や、メタバースでのアバター生成にも活用できそうです。
この記事ではAudio2Photorealの使い方や、有効性の検証まで行います。本記事を熟読することで、Audio2Photorealの凄さを実感し、普通の画像生成には戻れなくなるでしょう。
ぜひ、最後までご覧ください。
Audio2Photorealの概要
Meta社とUCバークレーが公開した「Audio2Photoreal」は、音声からアバターを生成できるAIモデルです。例えば、音声入力から全身アバターを生成したり、そのアバターの表情を表現したりできます。
Audio2Photorealを応用すれば、ゲーム開発やメタバースなど、仮想空間でイノベーションが起こるでしょう!この技術の鍵は、「ベクトル量子化による様々なサンプル」と「表現豊かなモーションを生成するための拡散モデル」の組み合わせです。
Audio2Photorealの料金体系
Audio2Photorealはオープンソースであるため、誰でも無料で利用可能です。
なお、Metaの音声生成AIについて知りたい方はこちらの記事をご覧ください。
→【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで
Audio2Photorealの使い方
今回は、Google ColabのT4を使用しました。以下のGoogle Colabページに、簡単なチュートリアルが載っています。
参考記事:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
まず、以下のコードを実行して、必要なライブラリのインストールを完了させましょう。
# Setup environment and install requirements
!git clone https://github.com/facebookresearch/audio2photoreal.git
%cd audio2photoreal/
!pip install -r scripts/requirements.txt
いったんランタイムを再起動しましょう。次に、以下のコードを実行して、モデル等のダウンロードをしてください。
# download models, rendering assets, and prerequisite models respectively
!wget http://audio2photoreal_models.berkeleyvision.org/PXB184_models.tar
!tar xvf PXB184_models.tar
!rm PXB184_models.tar
!mkdir -p checkpoints/ca_body/data/
!wget https://github.com/facebookresearch/ca_body/releases/download/v0.0.1-alpha/PXB184.tar.gz
!tar xvf PXB184.tar.gz --directory checkpoints/ca_body/data/
!rm PXB184.tar.gz
!wget http://audio2photoreal_models.berkeleyvision.org/asset_models.tar
!tar xvf asset_models.tar
!rm asset_models.tar
次に、以下のコードを実行して、pytorch3dをインストールしましょう。
# install pytorch3d
import sys
import torch
pyt_version_str=torch.__version__.split("+")[0].replace(".", "")
version_str="".join([
f"py3{sys.version_info.minor}_cu",
torch.version.cuda.replace(".",""),
f"_pyt{pyt_version_str}"
])
!pip install fvcore iopath
!pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/{version_str}/download.html
次に、以下のコードを実行して、Trueになることを確認してください
import torch
torch.cuda.is_available()
Trueであれば、以下のコードを実行すると、次のようなデモ画面に移ります。
!python -m demo.demo
Audio2Photorealを動かすのに必要なPCのスペック
■Pythonのバージョン
Python 3.9
■必要なパッケージ
CUDA 11.7
gcc/++ 9.0 for pytorch3d
Audio2Photorealを実際に使ってみた
先ほどのデモページで、以下の音声ファイルを入力に使ってみようと思います。
すると、以下のような結果に、、、
おっと、これは本物の人間さながらのアバターが生成されました!
ただ、これを利用すれば、今よりも精巧なフェイク動画が作れてしまうんじゃないでしょうか、、、
なお、日本語の発音が完璧な音声生成AIについて知りたい方はこちらの記事をご覧ください。
→【Style-Bert-VITS2 JP-Extra】日本語の発音・イントネーションが完璧な次世代AIを使ってみた
Audio2Photorealの推しポイントであるアバター生成能力は本当なのか?
なぜAudio2Photorealが、リアルなアバターを生成できるのかについては、以下の論文に詳しく書かれています。
参考記事:From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
この研究では、まず人間の話す音声を入力として使用し、この音声情報からアバターの動きを決定します。
特に、口の動きは事前に訓練されたリップレグレッサーを用いて予測し、顔の表情を拡散モデルを使用して生成します。そうして生成されたアバターの「体の動き」と「顔の表情」を組み合わせることで、以下の図のようにアバターが動くのです。
提案モデルは、既存のメソッドよりも高い「リアリズム」と「多様性」を実現しています。以下の表は本研究における精度比較を表すもので、一番上の行が「精度指標」、一番左の列が「各モデル」を表します。精度指標の矢印に関してですが、「↓」は「数字が低ければ、精度が高いこと」を表し、「↑」は「数字が高ければ、精度が高いこと」を表します。
この表の一番下の「Ours(本研究のモデル、つまりAudio2Photoreal)」を見ても、ほぼすべての指標において、他のモデルよりも高いことが分かります。
特に、顔の表情と体の動きが音声に同期しており、会話の流れに沿った自然な動きが生成可能なのです。
まとめ
Meta社とUCバークレーが公開した「Audio2Photoreal」は、音声からアバターを生成できるAIモデルです。例えば、音声入力から全身アバターを生成したり、そのアバターの表情を表現したりできます。Audio2Photorealを応用すれば、ゲーム開発やメタバースなど、仮想空間でイノベーションが起こるでしょう!
研究結果からも、既存のモデルよりも高い「リアリズム」と「多様性」を実現しています。
実際に試してみたところ、本物の人間さながらのアバターが生成されました!ただ、この技術を悪用したフェイク動画には、さらなる注意が必要になるでしょう。
数年後には、グラセフのようなリアルなアバターを、誰でも作れるようになっているのかもしれないですね。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。