Stable Diffusionの追加学習とは？好みの画像を生成するためのテクニックを徹底解説！

2024-04-25

Stable-Diffusion 追加学習とは好みの画像を生成するテクニック徹底解説

Stable Diffusionは、イメージをテキストで入力すると画像が生成できる昨今話題の画像生成AIです。ただ、テキストを入力しても自分が思うような画像を生成できなかった方が多いのではないでしょうか。

自分好みの画像を生成するには、作成したい画像のイメージを具体的に伝えるプロンプトの他にも、追加学習と呼ばれる手法が必要です。Stable Diffusionに追加学習をさせると、さらに自分好みの画像を簡単に生成できるようになります。

今回紹介するのは、Stable Diffusionの追加学習についてです。具体的な手法だけでなく、追加学習を行う流れや注意点もまとめているので、生成する画像のクオリティをあげて自分好みに変えたい方はぜひ参考にしてください。

Stable Diffusionの追加学習とは

Stable Diffusionの追加学習とは、統一したい内容をあらかじめ追加学習させて画像生成に反映させる手法です。

Stable Diffusionでは、モデルをインストールしてプロンプトを入力し、求める画像を生成します。プロンプトだけで画像を生成すると、既存の衣装や髪型・画風などを同じにするのは非常に難しいです。一方、Stable Diffusionに追加学習をさせると、持ち合わせている画像から特徴を抽出して画像に反映できます。

実際に追加学習させるときに必要なのは、LoRAなどの追加学習ファイルです。ダウンロードしたLoRAファイルをディレクトリに保存して追加学習を行います。モデルやプロンプトだけでなく追加学習も活用して思い描いた画像を生成しましょう。

なお、Stable Diffusionのプロンプトについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Stable Diffusionにおける代表的な追加学習の手法

Stable Diffusionでの追加学習方法には3つの方法があります。

転移学習（Transfer Learning）
蒸留 (Distilation)
ファインチューニング (fine tuning)

これら3つの手法で追加学習すると、イメージに合った画像を生成しやすくなります。以下、それぞれの学習方法を解説しますので、参考にしてみてください。

転移学習（Transfer Learning）

Stable Diffusionで代表的な追加学習手法の一つは転移学習（Transfer Learning）です。転移学習とは、別の学習で使用したモデルを活用し、別領域の学習に適用させる技術を指します。

この追加学習手法は、データが少なくても有効なのが特徴的です。対象モデルの一部を取り出して別データを入れ、モデルの追加学習を行います。

たとえば、犬の画像データを学習したモデルがあって、猫の画像を生成したい場合を考えてください。学習済みモデルは動物という知識の土台をすでに持っているので、一部のデータを取り出して猫の画像データを読み込ませると、猫の画像を生成できるようになります。

さらに、土台となる動物のデータはすでにあるので、新たなデータもすぐに学習して画像に反映できるのです。このように、転移学習は学習済みファイルを活用して効率的に追加学習ができます。

蒸留 (Distilation)

次に、Stable Diffusionで代表的な追加学習手法の一つは蒸留（Distilation）です。蒸留とは、教師モデルと呼ばれる膨大な学習済みモデルから重要な情報を抽出し、生徒モデルと呼ばれる小さなデータに情報を伝える手法です。

蒸留は大規模モデルの豊富な情報量を効率よく活用するので、時間や計算コストを抑えられるのがメリットです。また、何も学習していない生徒モデルを使用するので、追加学習させる生徒モデルを小さくできます。

ファインチューニング (fine tuning)

最後に、Stable Diffusionで代表的な追加学習手法はファインチューニング（fine tuning）です。ファインチューニングは転移学習の一種で、事前に学習したモデルにおいて一部のパラメーターを再学習させるプロセスを指します。

再学習するパラメーターに制限はなく、入力層・出力層のすべてが再学習の対象です。ファインチューニングを使用すると、大量に追加学習させる際に過学習が起きにくくなります。ただ、学習量が多いので時間と計算量が多くなりやすい点に注意しましょう。

追加学習を行う方法

次に、Stable Diffusionで追加学習を行う方法を紹介します。追加学習の方法は、主に以下の4つです。

アーキテクチャ	概要
U-Netのファインチューニング	エンコーダの特徴マップをデコーダに連結
LoRA	特定のタスクやスタイルにあわせて学習
DreamBooth	特定の内容を事後学習する技術
Testual Inversion	少ないサンプル画像でも新しい概念を学習できる

今回は、LoRaを使用して追加学習手法を行います。それぞれの手法と手順について解説しますので、ぜひ参考にしてみてください。