Stability AIのStable Diffusion 3.5とFLUXを徹底比較!最強画像生成AIの実力検証

Stability-AI Stable-Diffusion-3.5 FLUX 比較 画像生成AI

2024/10/22にStability AIから新たなモデル、Stable Diffusion 3.5がリリースされました!

Stable Diffusion 3.5はなんと80億ものパラメータを持つモデルであり、これまでのStable Diffusionモデルの中で最も強力であると発表されています!

また、今回発表されたモデルはStable Diffusion 3.5 LargeとStable Diffusion 3.5 Large Turboで、10月29日にはStable Diffusion 3.5 Mediumもリリース予定だそうです。

本記事ではStable Diffusion 3.5 LargeがこれまでのStable Diffusionモデルと何が変わったのか、Google Colabで実装するためにはどうすればいいのかについて解説!

本記事を最後まで読むことで、高品質な画像を生成できるようになります。ぜひ最後までお読みください!

目次

Stable Diffusion 3.5の概要

Stable Diffusion 3.5は、Stability AIが開発した最新の画像生成AIモデルシリーズです。

Stable Diffusion 3.5には、Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo、Stable Diffusion 3.5 Mediumの3つのモデルが含まれます。

  • Stable Diffusion 3.5 Large80億のパラメータ、優れた品質、迅速な適合性を持つのがStable Diffusion 3.5 Large。Stable Diffusionファミリーの中で最も強力であり、1メガピクセルの解像度でのプロフェッショナルな使用事例に最適。
  • Stable Diffusion 3.5 Large Turbo:Stable Diffusion 3.5 Large の蒸留版であり、わずか4ステップで高品質な画像を生成し、優れた即時適合性を実現。Stable Diffusion 3.5 Largeよりもはるかに高速です。
  • Stable Diffusion 3.5 Medium:26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計。0.25~2メガピクセルの解像度の画像が生成可能。

Stable Diffusion 3.5の特徴

Stable Diffusion 3.5は高いカスタマイズ性と使いやすさを兼ね備えており、特定のニーズに応じてモデルを簡単にファインチューニングできるだけでなく、カスタマイズされたワークフローに基づくアプリケーションを構築することが可能です。また、一般的な消費者向けハードウェアでも高負荷をかけずに実行できるように最適化されています。

さらに、Stable Diffusion 3.5 Largeは、1メガピクセルの解像度でプロフェッショナルな使用事例に最適な高品質な画像を生成します。Stable Diffusion 3.5 Large Turboはわずか4ステップで高品質な画像を生成し、より高速に処理が可能です。Stable Diffusion 3.5 Mediumは、0.25〜2メガピクセルの解像度で幅広い解像度の画像を生成でき、柔軟性に富んだオプションを提供。

参考:https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

さらに、Stable Diffusion 3.5は、多様な出力やスタイルをサポートしており、特定の人物に限らず、世界中のさまざまな肌の色や特徴を持つキャラクターを作成できるのが特徴。さらに、3D画像や写真、絵画、線画など、さまざまなスタイルで美しい画像の生成が可能です。

参考:https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

Stable Diffusion 3.5 Largeは、プロンプトの順守において市場をリードし、画像の品質でははるかに大きなモデルにも匹敵する性能を発揮します。Large Turboは、そのサイズで最速クラスの推論時間を提供し、画像の品質やプロンプトの再現性においても高い競争力を保っています。一方、Stable Diffusion 3.5 Mediumは他の中型モデルを上回る性能を誇り、プロンプトの再現性と画像の品質のバランスが非常に優れています。

参考:https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

Stable Diffusion 3.5の開発

Stable Diffusion 3.5の開発においては、カスタマイズ性が最優先事項として掲げられ、これはあらゆるクリエイターに広くアクセス可能で最先端のツールを提供するというStability AIのコミットメントを体現。

ユーザーがファインチューニング、LoRA、最適化、アプリケーション開発、アートワーク作成など、パイプライン全体にわたる作業や成果物の配布・収益化を容易に行えるように設計されています。

具体的には、Query-Key Normalizationをトランスフォーマーブロックに統合することで、モデルのトレーニングプロセスを改善し、ファインチューニングや開発の手間を大幅に軽減

参考:https://huggingface.co/stabilityai/stable-diffusion-3.5-large

ただし、このカスタマイズ性の向上にはトレードオフが伴い、異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性も。

参考:https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

このばらつきは、ベースモデルにおける広範な知識と多様なスタイルを維持するためには有用。しかし特定性の低いプロンプトでは、出力の不確実性が高まり、見た目の一貫性に影響を与えることがあります。

特にStable Diffusion 3.5 Mediumでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの改良が施されました。

その結果、Stable Diffusion 3.5は、テキストプロンプトへの準拠と画像の品質において最高水準のパフォーマンスを維持しながら、市場で最もカスタマイズ可能で使いやすい画像生成モデルの一つとなりました。

さらに、Stable Diffusion 3.5 MediumおよびStable Diffusion 3.5 Large Turboは、一般的な消費者向けハードウェアでも高負荷をかけずに実行できるように最適化されています。

Stable Diffusion 3.5のライセンス

Stable Diffusion 3.5のライセンスはStability AI Community Licenseです。

Stability AI Community Licenseは年間収入が100万ドル未満の個人や組織は研究用、非商用利用、商用利用が可能です。

もし年間収入が100万ドルを超える場合、商用利用にはStability AIからエンタープライズライセンスの取得が必要。

また、Stability AIのライセンスは3つあります。

  • 非商用ライセンス:個人開発者や研究者向けライセンスで無料
  • コミュニティライセンス:年間収入が100万ドル未満の個人や組織向けで無料
  • エンタープライズライセンス:年間収入が100万ドルを超える企業向けでカスタム価格
利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用不明(明記なし)
私的使用⭕️
参考:https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/LICENSE.md

なお、たった0.5秒で高精度な3Dモデルを生成できるStable Fast 3Dについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL
【Stable Fast 3D】たった0.5秒で高精度な3Dモデルを生成!最強AIの性能を徹底解説 | WEEL Stable Fast 3Dは、わずか0.5秒で高品質の3Dアセットを生成。実装方法とTripoSRとの比較を徹底解説。

Stable Diffusion 3.5の使い方

Stable Diffusion 3.5は現在以下の4つで利用可能です。特にHugging Faceではモデルのウェイトをセルフホスティング用に利用可能。

今回はStability AI API に掲載されているコードを元に、Google Colabで実装します。

また、Stable Diffusion 3.5を使うにはStability AIのAPIキーが必要です

Google ColabでStable Diffusion 3.5を実装

■Pythonのバージョン
Python 3.8以上

■使用ディスク量
32.3GB

■システムRAMの使用量
0GB

■GPU RAMの使用量
25.6GB

Stability AIのAPIを使って実装する場合、Stability AIのホームページGoogle Colabのページがリンクされています

基本的にはこれに則っていけばOKです

必要ライブラリのインストールはこちら
#@title Install requirements
from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output
APIキーの登録はこちら
import getpass
# @markdown To get your API key visit https://platform.stability.ai/account/keys
STABILITY_KEY = getpass.getpass('Enter your API Key')

ここでAPIキーを入力する入力欄が表示されるので、そちらに自身のAPIキーを入力しましょう。

関数の定義はこちら
#@title Define functions

def send_generation_request(
    host,
    params,
):
    headers = {
        "Accept": "image/*",
        "Authorization": f"Bearer {STABILITY_KEY}"
    }

    # Encode parameters
    files = {}
    image = params.pop("image", None)
    mask = params.pop("mask", None)
    if image is not None and image != '':
        files["image"] = open(image, 'rb')
    if mask is not None and mask != '':
        files["mask"] = open(mask, 'rb')
    if len(files)==0:
        files["none"] = ''

    # Send request
    print(f"Sending REST request to {host}...")
    response = requests.post(
        host,
        headers=headers,
        files=files,
        data=params
    )
    if not response.ok:
        raise Exception(f"HTTP {response.status_code}: {response.text}")

    return response
画像の生成コードはこちら
#@title SD3.5 Large

prompt = "cinematic film still, action photo of a cat riding a skateboard through the leaves in autumn. the cat has a mouse friend resting on their head" #@param {type:"string"}
negative_prompt = "" #@param {type:"string"}
aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"]
seed = 0 #@param {type:"integer"}
output_format = "jpeg" #@param ["jpeg", "png"]

host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3"

params = {
    "prompt" : prompt,
    "negative_prompt" : negative_prompt,
    "aspect_ratio" : aspect_ratio,
    "seed" : seed,
    "output_format" : output_format,
    "model" : "sd3.5-large",
    "mode" : "text-to-image"
}

response = send_generation_request(
    host,
    params
)

# Decode response
output_image = response.content
finish_reason = response.headers.get("finish-reason")
seed = response.headers.get("seed")

# Check for NSFW classification
if finish_reason == 'CONTENT_FILTERED':
    raise Warning("Generation failed NSFW classifier")

# Save and display result
generated = f"generated_{seed}.{output_format}"
with open(generated, "wb") as f:
    f.write(output_image)
print(f"Saved image {generated}")

output.no_vertical_scroll()
print("Result image:")
IPython.display.display(Image.open(generated))

生成された画像は以下です。

主なパラメータ

cfg_scale:どの程度プロンプトに厳密に従うかを指定する(デフォルトは7)
samples:生成する画像の数(デフォルトは1)
steps:Diffusionステップの数(デフォルトは30)
sampler:生成に使用するサンプラー
seed:ランダムノイズシード(デフォルトは0でランダム)

Stable Diffusion 3.5をSD3とFLUXと比較してみた

Stable Diffusion 3.5は過去のモデルよりも遥かにハイパフォーマンスであると発表しています。

また、FLUXは1.1が登場したことにより、従来よりも高品質で細かなディテールを再現できるようになっています。そこで、Stable Diffusion 3.5とSD3、FLUXそれぞれ同じプロンプトを入力して、どれが最も美しい画像を生成できるかを比較検証してみたいと思います!

入力するプロンプトは以下です。プロンプト自体はChatGPT-4oに生成してもらいました。

“A futuristic cityscape at sunset, with flying cars, towering skyscrapers, and detailed reflections on glass windows. The sky is filled with vibrant colors ranging from orange to deep purple, and people in futuristic clothing are walking on the streets.”
こちらのプロンプトでは「高度なディテールと複雑さ」を見れるように。

“A close-up of a medieval knight’s armor, showing intricate engravings, scratches, and reflections of light. The knight is holding a polished sword, and behind him, a castle can be seen in the distance, with a cloudy sky overhead.”
こちらのプロンプトでは「質感とリアリズム

“A serene beach at sunrise, with calm blue waves gently hitting the shore. The sky is painted with pastel shades of pink, orange, and light purple, and a single palm tree sways in the breeze. The soft light casts gentle shadows on the sand.”
こちらのプロンプトでは「色彩と光の描写」を見れるようにしています。

コードは先ほどと同じなので、プロンプトだけ変更すれば動作します。

検証コードはこちら
#@title SD3.5 Large

prompt = "cinematic film still, action photo of a cat riding a skateboard through the leaves in autumn. the cat has a mouse friend resting on their head" #@param {type:"string"}
negative_prompt = "" #@param {type:"string"}
aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"]
seed = 0 #@param {type:"integer"}
output_format = "jpeg" #@param ["jpeg", "png"]

host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3"

params = {
    "prompt" : prompt,
    "negative_prompt" : negative_prompt,
    "aspect_ratio" : aspect_ratio,
    "seed" : seed,
    "output_format" : output_format,
    "model" : "sd3.5-large",
    "mode" : "text-to-image"
}

response = send_generation_request(
    host,
    params
)

# Decode response
output_image = response.content
finish_reason = response.headers.get("finish-reason")
seed = response.headers.get("seed")

# Check for NSFW classification
if finish_reason == 'CONTENT_FILTERED':
    raise Warning("Generation failed NSFW classifier")

# Save and display result
generated = f"generated_{seed}.{output_format}"
with open(generated, "wb") as f:
    f.write(output_image)
print(f"Saved image {generated}")

output.no_vertical_scroll()
print("Result image:")
IPython.display.display(Image.open(generated))

ちなみにStable Diffusion 3.5のページ下部にはSD3のコードもあるので、そのままプロンプトを入力すればSD3で画像も生成可能です

ちなみにFLUXはReplicateでFLUX1.1 [pro]を使用して生成します!

正直、どれもクオリティ高いな…!って思いましたが、生成された画像を見てすごさを感じたのでやはりStable Diffusion3.5で生成された画像でした。

特に2枚目にある鎧の画像はかなり細かい模様も鮮明に作られており、天候も鎧にマッチしており、非常に精密に作られているな…と感じました。

ただ、ここは個人の嗜好の問題によっても左右されるとは思いますので、生成された画像を見比べてみて、最もクオリティが高いなと思うものを考えてもらえるといいかもしれません。

また、SD3.5とSD3を比較してみると、鮮明さや質感、色彩と光の描写など全体的にSD3.5の方が上かな、という印象を受けます。

ちなみにこちらはアートスタイルをゴッホ風に変えてSD3.5で生成した画像です

2枚目はゴッホっぽいですかね…?

アートスタイルを変更するには、プロンプトでスタイルを指示すればOKです。

今回の場合は、「painted in the style of Van Gogh」というプロンプトを追加しただけです。それ以外にも、”A futuristic city in cyberpunk style”(サイバーパンク風の未来都市)や”A highly detailed 3D render of a futuristic car”(未来的な車の高精細な3Dレンダリング)などもあるので、色々試してみてください

なお、ラフスケッチからリアルタイムで高画質な画像を生成する方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL
【img2img-turbo-sketch】ラフスケッチからリアルタイムで高画質な画像を生成! | WEEL Stable Diffusionなどのようにプロンプトを入力して、画像を生成するAIサービスは増えています。しかし、手書きの絵からリアルな画像を生成できるAIサービスがリリースされ...

まとめ

本記事ではStable Diffusion3.5を使って、Google Colabで画像を生成する方法についてお伝えしました!

Stable Diffusion3と比べると、全体的に生成されるクオリティは上がっている印象を受けます。かなり精緻に作られており、質感もリアリティがあります。ぜひ本記事を参考に、Stable Diffusion3.5で画像を生成してみてください!

作られた画像のAI感のなさに驚きます…!

最後に

いかがだったでしょうか?

高品質な画像生成で、コスト削減と生産性向上を実現する最適なソリューションをご提案いたします。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

まずは、無料相談にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
商用利用可能な画像生成AIレポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 翔平

    総合病院で10年間理学療法士として勤務し、その後Pythonを独学で学びデータアナリストとして転職。趣味はキックボクシング

  • URLをコピーしました!
  • URLをコピーしました!
目次