【Latent Consistency Model（LCM）】最新画像生成AIを使って、高品質の変顔画像を作ってみた

2023-11-222024-07-12

メディア事業部AIライターの中井とLLMリサーチャーの中田です。この記事は専門的な内容を含むため、AIスペシャリストとの共同執筆となっています。

皆さんは、2023年10月に論文発表されたLatente Consistency Modelを知っていますか？

Latente Consistency Modelは、Latent Diffusion Modelsの効率を向上させるために開発された新世代の生成モデルです。

Latente Consistency Modelの最大の特徴は、高速に高品質な画像を生成できることです！特に、768×768ピクセルの画像を生成する際、Latente Consistency Modelは2〜4ステップで完了します。そのために必要なトレーニング時間は、約32A100GPU時間と非常に短いです。

そのため、Latente Consistency Modelを使用することで、Latent Diffusion Modelsの生成の速度と効率を改善できるのです。

この記事では、Latente Consistency Modelの概要や導入方法、実際に使ってみた感想を紹介します。

最後まで読んでいただくことで、Latente Consistency Modelの使い方がわかり、高解像度の画像をより速く効率的に生成できるようになるでしょう。

ぜひ最後までお読みいただき、参考にしてください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Latent Consistency Modelの概要

Latente Consistency Modelは、画像生成の効率を大幅に向上させた新しい技術です。このモデルは、画像潜在空間で一貫性モデルを採用し、トレーニング済みの潜在拡散モデルに対して、高速で高品質なサンプリングを可能にします。

従来のLatent Diffusion Modelsよりも高速で反復的なプロセスを減らすことで、高品質な画像を迅速に生成します。

Latente Consistency Modelは、768×768の高解像度画像を、わずか2〜4ステップで生成可能です。Latente Consistency Modelは、約32A100GPU時間でトレーニングされ、Stable Diffusionモデルからの情報を蒸留して使用します。

さらに、Latent Consistency Fine-tuningという技術を使用することで、あらかじめトレーニングされたモデルをカスタマイズ可能です。

具体的には、カスタマイズされた画像データセットに対して、あらかじめトレーニングされたモデルを微調整することで、高品質な画像を生成できます。

要するに、Latente Consistency Modelは高速で高品質な画像生成を実現するための画期的な方法であると言えます。

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

Latent Consistency Modelの料金体系

Latent Consistency ModelsはOSSであるため無料で使用できます。

なお、LCM以外の超高性能画像生成AIについて知りたい方はこちらをご覧ください。
→【RPG-DiffusionMaster】超高性能画像生成AIでめちゃめちゃ可愛いAI美女を作ってみた

Latent Consistency Modelの使い方

今回はGoogle Colabでの使い方を、ご紹介します。ちなみに、T4 GPUでも難なく動かせました。まずは、以下のコードを実行して、必要なライブラリをインストールしましょう。

!pip install --upgrade diffusers  # make sure to use at least diffusers >= 0.22
!pip install transformers accelerate

次に、モデルのロードを行いましょう。

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("SimianLuo/LCM_Dreamshaper_v7")

# To save GPU memory, torch.float16 can be used, but it may compromise image quality.
pipe.to(torch_device="cuda", torch_dtype=torch.float32)

最後に、プロンプトを入力して、テキストから画像を生成します。ここでは、リポジトリの例にもある「Self-portrait oil painting, a beautiful cyborg with golden hair, 8k（自画像油絵、金色の髪の美しいサイボーグ、8K）」を入力してみます。

prompt = "Self-portrait oil painting, a beautiful cyborg with golden hair, 8k"

# Can be set to 1~50 steps. LCM support fast inference even <= 4 steps. Recommend: 1~8 steps.
num_inference_steps = 4 

images = pipe(prompt=prompt, num_inference_steps=num_inference_steps, guidance_scale=8.0, lcm_origin_steps=50, output_type="pil").images

これで画像が生成されたので、その画像を以下のコードを実行して、ダウンロードしましょう。

images[0].save("output.png")

LCMによって生成されたoutput.pngは、以下の通りです。

精度は普通に高いですね！

これを従来の拡散モデルに比べて、高速にやってのけるのだから、大したものですね。

なお、Stable Diffusionの40倍の速さで画像を作れるAIについて知りたい方はこちらをご覧ください。
→【InstaFlow】Stable Diffusionの40倍の速さで画像生成できるAIの使い方〜実践まで

Latent Consistency Modelを実際に使ってみた

ここでは、「Elon 〇〇 making a funny face.（変顔をするイーロン・〇〇）」というプロンプトを入力してみます。結果は以下の通りです。

確かに変顔ではあるのですが、あまり似ていないかな・・・？

ただ、生成速度は驚異の7秒でした。素晴らしい！プロンプトを工夫すれば更に精度が上がることでしょう！
ただ、まだ少しAIっぽさがある点が気になります。

次のセクションでは、この結果を用いて、従来のStable DiffusionとLCMを比較します。

Latent Consistency Modelの推しポイントである高速な画像生成は本当なのか？

ここでは、従来のStable DiffusionとLCMを比較するために、以下の2つのポイントに着目して、検証したいと思います。

画像の品質
生成スピード

ここで、プロンプトは同じ文を入力します。Stable Diffusionによって生成された結果は、以下の通りです。

こちらの方が、イーロン・〇〇に似ていますね！

生成速度は13秒でした。こちらもかなり早い！これらを踏まえて、LCMとStable Diffusionの比較を、以下の表にまとめます。ここで、画像の品質については、私の主観で判断しました。

モデル	画像の品質	生成スピード
LCM	変顔だがイーロン・〇〇に似ていない。少しAIっぽかった	7秒
Stable Diffusion	LCMよりも、イーロン・〇〇に似せることができたが、変顔っぽかった。	13秒

個人的には、10秒前後で高品質な画像生成ができるため、どちらも素晴らしいと思いました。ただ、今回のLCMは、生成スピードがさらに強化され、Stable Diffusionに迫る精度を誇るという点では、強力なツールだと言えるでしょう。

なお、日本人が開発した高速画像生成AIについて知りたい方はこちらをご覧ください。
→【StreamDiffusion】世界最速！？のスピードで画像を出力する超高速画像生成AIの使い方から実践まで

まとめ

Latente Consistency Modelは、高品質な画像を高速に生成するツールです。

従来のLatent Diffusion Modelsとは違い、768×768の高解像度画像を、わずか2〜4ステップで生成可能です。また、トレーニング時間も32A100GPU時間で完了するため、短時間で済みます。

また、Latent Consistency Fine-tuningという技術を使用することでトレーニングされたモデルをカスタマイズし、より高品質な画像を生成することも可能です。

Latente Consistency Modelを利用することで、画像生成において作業効率がよくなるでしょう。

ぜひ、活用してみてください！

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ