【PhotoMaker】LoRA不要、わずか数秒、顔を保持したまま画像を自由に着せ替えできるAIを使ってみた

オープンソースAI その他画像生成生成AIずかん

2024-01-252024-07-12

WEELメディア事業部LLMライターのゆうやです。

PhotoMakerは、効率的なパーソナライズされたテキストから画像への生成方法です。

この手法は、特定の人物のID画像を任意の数だけスタックしたID埋め込みにエンコードすることで、その人物の特徴を維持し、画像内の人物のスタイライゼーション、年齢や性別の変更、異なるIDの統合などを行います。

簡単に説明すると、PhotoMakerでは以下のように人物の画像を入力して、その人物の特徴を維持しながらテキストプロンプトで指示された様々なスタイルの人物画像を生成できます。

PhotoMakerのリアルな人物の写真を生成し、そのアイデンティティを保持しつつ様々な変更を加える能力は、映画「ブレードランナー」や「マイノリティ・リポート」のような現実と仮想の境界が曖昧になった世界観を彷彿とさせます。

今回は、PhotoMakerの概要や使ってみた感想をお伝えします。

是非最後までご覧ください！

PhotoMakerの概要

PhotoMakerは、効率的なパーソナライズされたテキストから画像への生成方法です。

ここからはPhotoMakerでの生成例を紹介します。

まずは、入力された人物の特徴を維持しながら、テキストプロンプトで指示された様々なスタイルの人物画像を生成する例です。

見事に元の画像の人物の特徴を維持しながら、プロンプトに沿った新しい画像を生成していますね！

続いて、元の画像の人物の年齢や性別の変更を行った生成例です。

こちらもなかなか難しいタスクと考えられますが、非常に高い精度で生成できています。

また、PhotoMakerはこれまで紹介したようなリアルな画像の生成のほかに、元の画像の人物の特徴を維持しながら、以下のようにスケッチ風にしたりコミック風にしたりすることもできます。

リアルな画像でなくても、元の人物の特徴を完璧に維持しながら人物のスタイライゼーションができていますね！

現在、PhotoMakerは人物の特徴を維持したリアルな画像の生成と、スタイライゼーションした画像の生成が利用可能で、デモも公開されています。

ローカルに実装して使用することもできるので、まずはその方法から解説します。

PhotoMakerの使い方

PhotoMakerのオンラインデモは、以下のリンクにアクセスするだけで簡単に使用できます。

リアルな画像生成

TencentARC/PhotoMaker

スタイライゼーション

TencentARC/PhotoMaker-Style

続いてローカルで実装する方法です。

PhotoMakerの実行には、バージョン3.8以上のPythonとバージョン2.0.0以上のPyTorchのインストールが必要です。

また、AnacondaまたはMinicondaの使用が推奨されています。

まずは以下のコマンドを実行して、仮想環境の作成と依存関係をインストールします。

conda create --name photomaker python=3.10
conda activate photomaker
pip install -U pip

# Install requirements
pip install -r requirements.txt

# Install photomaker
pip install git+https://github.com/TencentARC/PhotoMaker.git

次にモデルのダウンロードを行います。

from huggingface_hub import hf_hub_download
photomaker_path = hf_hub_download(repo_id="TencentARC/PhotoMaker", filename="photomaker-v1.bin", repo_type="model")

ここまで完了したら、以下のコマンドを実行してGradio WebUIを起動します。

これで実装は完了です。

ここからはPhotoMakerを実際に使用して、その性能を確かめていきます。

なお、高性能の画像生成AIのFooocusついて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Fooocus】人気1位の最強画像生成AIツール！使い方・インストール方法～実践まで

PhotoMakerを実際に使ってみた

実際に、リアルな画像生成とスタイライゼーションのデモを使用してみます。

リアルな画像生成

以下の画像とプロンプトを入力します。

A woman img with red hair

なお、プロンプトには必ずトリガーワードとしてimgを入力する必要があります。（woman img、man imgなど）

こちらを実行すると以下のような画像が生成されました。

入力した画像の女性と若干違う気もしますが、とても高精細で美しい赤髪の女性の画像を生成してくれました。

入力する画像は1枚ではなく複数枚入力できるようなので、そうするとより特徴を保持した画像を生成してくれるでしょう。

PhotoMakerの推しポイントである特徴を保持した高品質な画像生成は本当なのか検証してみた

ここからは、PhotoMakerと同じような機能を持つIP-Adapterとの比較を行っていきます。

この比較では、画像とプロンプトを入力して、どちらがより元の画像の特徴を保持してプロンプトに従った画像を生成できるか検証します。

以下のトランプ元米大統領の画像を入力します。

プロンプトは以下のものを入力します。

SF, closeup portrait photo of a man img wearing an Iron man suit, face, slim body, high quality, film grain

結果はこのようになりました。

PhotoMaker

IP-Adapter

結果はどちらもトランプさんの特徴を維持しながら、プロンプトを忠実に再現した画像を生成してくれました。

しかし、IP-Adapterの方は若干リアルさに欠ける顔になっており、解像度も低いです。

一方のPhotoMakerは、とてもリアルで高精細な画像を生成してくれており、総合的な性能はPhotoMakerの方が上だと感じました。

PhotoMakerは、リアルな画像生成だけでなく、アニメ風にしたり人物の性別を変えたりなど様々なスタイルにカスタマイズできるので、性能面だけでなく機能面においても、その他の同様のツールよりも優れているといえます。

もしこの記事を読んで気になった方は、是非使ってみてください！

なお、最強のリアルタイム画像生成AISDXL Turboついて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【SDXL Turbo】最強のリアルタイム画像生成AI！使い方や導入方法、機能比較まで

まとめ

PhotoMakerは、効率的なパーソナライズされたテキストから画像への生成方法です。

このツールを使用すれば、元画像の人物の性別を変更したり、スタイルをアニメ風にするなど様々なスタイルの画像に変換できます。

実際に使ってみたところ、元の画像の人物の特徴を維持しながら、完璧にプロンプトに従った画像を生成してくれました。

元の人物の画像を複数枚入力することで、精度がかなり向上しました。

このような技術がさらに進化すれば、本当に現実と区別がつかないようなものを生成するAIが登場するかもしれませんね！

今回のPhotoMakerは、元の画像の特徴を保持して、テキストプロンプトに従い画像を生成するものでしたが、今後は、画像ではなくアニメーションを生成するモデルが登場するのではないでしょうか？

もし登場した場合は記事にしますのでブックマークをしてお待ちください！

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ