【ConsiStory】トレーニング不要で一貫性のある同一人物の画像を生成できるNvidiaの技術

2024-02-092024-04-04

WEELメディア事業部リサーチャーのいつきです。

今回ご紹介するのは、GPUメーカーとして世界的に知られているNvidia社が発表した「ConsiStory」について。

ConsiStoryはテキストtoイメージの画像生成AIですが、追加トレーニングなしで同じ被写体を出力できるところが注目を集め、Xの投稿からわずか3日で700いいねを超えています。

Nvidia presents ConsiStory

Training-Free Consistent Text-to-Image Generation

paper page: https://t.co/1shQjfjlxy

enable Stable Diffusion XL (SDXL) to generate consistent subjects across a series of images, without additional training. pic.twitter.com/Jy6L3TH6Kl
— AK (@_akhaliq) February 6, 2024

今回の記事では、ConsiStoryの概要や仕組みについて解説します。

最後まで目を通せば、画像生成AIの最新技術を把握できるので、今後自社の業務にいち早く導入できるかもしれません。

ぜひ最後までご覧ください。

なお弊社では、生成AIの導入について無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

ConsiStoryとは

ConsiStoryは、アメリカのNvidia社が発表した画像生成AIです。テキストを入力して画像を出力する点は従来モデルと変わりませんが、指定すれば毎回同じ被写体を出力できる点に違いがあります。

しかも、従来モデルのように追加のトレーニングや微調整は必要ありません。ConsiStoryは事前学習されたモデルの内部活性を共有しているので、プロンプトを変えても一貫性のある画像を生成できます。

ちなみに、これまで多様なプロンプトにまたがって同じ被写体を一貫して描写することは困難だとされていました。従来の方法では、画像条件をモデルに追加したり、モデルを微調整したりと、被写体ごとの最適化や大規模な事前学習を必要としていたからです。

しかし、ConsiStoryは、一般的なオブジェクトに対してトレーニングなしでパーソナライズすることを可能としています。

参考記事：Training-Free Consistent Text-to-Image Generation

なお、超高性能な画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【RPG-DiffusionMaster】超高性能画像生成AIでめちゃめちゃ可愛いAI美女を作ってみた

ConsiStoryの仕組み

ConsiStoryが毎回同じ被写体を出力できる仕組みを以下にまとめました。

プロンプトから繰り返される主題を認識できる
生成ステップごとに各画像の被写体をローカライズする
被写体の同一性をさらに絞り込むためのメカニズムを導入している

上記3つの仕組みを導入しているおかげで、ConsiStoryは複数のプロンプトにまたがって同じ被写体を生成できています。

生成AIの仕組みを細かく分析すると非常に複雑になってしまいますが、できる限り誰でもわかるように説明していくので、ぜひご覧ください。

プロンプトから繰り返される主題を認識できる

ConsiStoryは、複数のプロンプトを入力したときに、プロンプトで繰り返されている主題を認識できるように設計されています。上記の画像では3パターンのプロンプトで、同じ被写体を生成しています。

主題となるプロンプトを上から順番に翻訳してみました。

帽子をかぶっている老人の写真
昔話の子供のイラスト
超リアルなデジタルペインティングで描く茶色の目をした幸せそうな女の子

たとえば、1番上の老人の写真では、「公園を歩いている」のあとに「黒板に数字を書く」といった内容のプロンプトを入力しています。それぞれの写真でまったく同じ被写体が描かれていることがわかりますね！

生成ステップごとに各画像の被写体をローカライズする

「生成ステップごとに各画像の被写体をローカライズする」と聞くと少し難しいイメージを持たれると思います。噛み砕いて説明すると「プロンプトを跨いでも各画像間で被写体が同じになるように生成ステップごとに最適化している」といった処理を実行しています。

現在の生成ステップまでのクロスアテンションマップを利用し、上記画像のM1〜M3で表現されている被写体マスクとして変換。その後、U-netデコーダの標準的な自己注意層を画像右側のK1〜K3のように置き換えています。

さらに、特徴注入（Feature Injection）を追加して洗練度を高めているとのことです。

被写体の同一性をさらに絞り込むためのメカニズムを導入している

ConsiStoryでは、被写体の同一性をさらに絞り込むために、バッチ内の特徴をブレンドするメカニズムを導入しています。真ん中の画像が示すように、各画像ペア間のパッチ対応マップを抽出し、そのマップに基づいて画像間に特徴を注入しています（右側の画像）。

ちょっと話が難しいと感じるかもしれませんが、ようは猫の目や耳などの特徴を認識するためのマップを抽出して、抽出したマップに基づいて高精度な画像を出力しているというわけですね！

被写体の特徴をしっかり捉えられているので、背景が変わっても猫の見た目はほとんど変わっていません。

ConsiStoryの動作結果

ConsiStoryの開発チームは、最後にIP-Adapter・TI・DB-LORAなどを用いて、画像生成の結果をConsiStoryと比較測定しました。まず、1番上に並べられているConsiStoryの出力結果を参照すると、被写体の一貫性を確保できていることがわかります。

しかし、TIでは被写体の一貫性が崩れており、IP-AdapterとDB-LORAではプロンプトに従っていない画像が出力されました。したがって、今回の実験結果から、ConsiStoryがほかの画像生成技術より優れていることが確認されています。

この技術を活用すれば、比較的同じ被写体を描く必要のある漫画などで活かせそうですね！

なお、生成AIの法人利用方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIの法人利用方法10選！法人向け生成AIツールや実際の事例も解説

ConsiStoryの一般公開に期待しよう

ConsiStoryは、複数のプロンプト間で同じ被写体を共有できる画像生成AIです。追加のトレーニングや微調整を必要としないので、生成AIの開発に詳しくないユーザーでも手軽に扱えます。

ConsiStoryが毎回同じ被写体を出力できる仕組みを以下にまとめました。

プロンプトから繰り返される主題を認識できる
生成ステップごとに各画像の被写体をローカライズする
被写体の同一性をさらに絞り込むためのメカニズムを導入している

とくに、複数のプロンプトで繰り返される主題を認識できることが大きな強みです。

なお、ConsiStoryはIP-Adapter・TI・DB-LORAとの動作比較も実施しており、それぞれのモデルより一貫性のある画像を生成できることがわかりました。

比較的同じ被写体を描くことになる漫画などで使えそうなので、将来的にはこの技術を活用した漫画家がデビューするかもしれませんね！

ただ、ConsiStoryはまだ開発段階でソースコードが一般公開されていないので、今後の続報を待ちましょう！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ