【SDXL Turbo】最強のリアルタイム画像生成AI！使い方や導入方法、機能比較まで

2024-04-272024-07-12

SDXL Turboは、2023年11月29日にStability AIより公開された最新のリアルタイムテキスト画像生成モデルです。

このモデルは、新しい蒸留技術によって画像生成に必要なステップ数を50ステップからなんと1ステップに削減することで、超高速で画像生成が可能になり、文字を入力した瞬間に画像を生成できるようになりました。

実際に動作している様子です。

Introducing SDXL Turbo: A real-time text-to-image generation model.

SDXL Turbo achieves state-of-the-art performance with a new distillation technology, enabling single-step image generation with unprecedented quality, reducing the required step count from 50 to just one.

The… pic.twitter.com/0NA4aUqKkD
— Stability AI (@StabilityAI) November 28, 2023

本当にプロンプトを入力した瞬間に画像が生成されていますね！　

この記事では、SDXL Turboの概要や使い方についてご紹介します。実際に使って見た感想もあるので、最後までお読みいただくとSDXL Turboのリアルな情報を手に入れられますので、ぜひ最後までご覧ください。

SDXL Turboの概要

SDXL Turboは、2023年11月29日にStability AIより公開された最新のリアルタイムテキスト画像生成モデル（Stable Diffusionシリーズ）です。

近年、画像生成速度を上げるための技術の開発が進み、潜在一貫性モデル（Latent Consistency Model：LCM）が注目されています。LCMとは簡単に説明すると、出力画像のクオリティを少し落として、生成スピードを高速化させるモデルのことです。

そんな画像生成の高速化が進む中、SDXL TurboはLCMとは異なる、敵対的拡散蒸留（Adversarial Diffusion Distillation：ADD）と呼ばれる新しい蒸留技術を用いることで、1ステップでの画像生成を可能にしました。これにより、画像の品質を維持しながらリアルタイムでテキストから画像への出力が行えるようになりました。

SDXL Turboは、SDXL 1.0に敵対的拡散蒸留（Adversarial Diffusion Distillation）を組み込むことで、GAN（Generative Adversarial Networks）に共通するシングルステップの画像出力など多くの利点を獲得しました。

また、それらの利点に加えてADDを実装することで、他の蒸留手法でよく見られるアーチファクトやぼやけを回避することに成功しています。

ここまでSDXL Turboの特徴をお伝えしましたが、画像の品質を維持しながら1ステップで生成できるようになるなんてそんなうまい話が本当にあるのかと思った方もおられると思います。

以下の画像をご覧ください。

この画像は、SDXL TurboをStyleGAN-T++、OpenMUSE、IF-XL、SDXL、LCM-XLと同じプロンプトで出力を生成して、その結果を比較した結果です。

この実験の評価方式は、人間の評価者にランダムに 2 つの出力を表示して、プロンプトの指示に最も近い出力を選ぶという方式が取られています。

結果は、SDXL TurboはLCM-XLの4ステップ構成に1ステップで勝り、SDXLの50ステップ構成にもわずか4ステップで上回る品質の画像を生成できました。

同じく高速画像生成が可能なLCM-XLより高精度の画像をより少ないステップで生成できるようなので、技術の進歩の速さには驚かされます。

なお、SDXl TurboはA100GPUの場合、512×512の画像を207msで生成できます。さて、ここからは実際にSDXl Turboを使用して、その性能を確かめていこうと思います。

まずは使い方から説明します。

SDXl Turboの使い方

SDXL Turboを利用するには、Stable Diffusion WebUIの導入もしくは、Stability AIの画像編集プラットフォームであるClipdropのベータデモへのアクセス、Googleのクラウドサーバーでコードを実行するColadで利用することができます。

その中でも、今回はClipdropの使い方についてご紹介します。

まずは、公式サイトにアクセスすると、以下のような画面になるので、まずはアカウント作成とログインを行います。

ログインすると、以下の画面になりすぐにSDXL Turboが使用できるようになります。

それでは早速使っていきましょう！

なお、Stable Diffusion WebUIでの使い方について知りたい方はこちらの記事をご覧ください。

SDXl Turboを実際に使ってみた

以下のプロンプトを入力して、リアルタイム画像生成してくれるのか見ていきます。

1girl, cute, smile

実行の様子は以下の動画をご覧ください。

最終的に生成された画像です。

プロンプト通りの画像を生成してくれていますが、黒目が大きくて少し不気味ですね笑

生成速度も非常に速く、本当にリアルタイムで画像を生成してくれます。

実際に使用できることが分かったので、ここからは同じくリアルタイム画像生成が可能なReal-Time Latent Consistency Modelとの比較を行っていきます。

SDXL Turboは本当に他のリアルタイム画像生成モデルを凌駕しているのか検証してみた

比較対象とするReal-Time Latent Consistency Modelは、以前記事にしてご紹介していますが、こちらのモデルもプロンプトを入力するとすぐに画像に反映されていました。

今回は、以前Real-Time Latent Consistency Modelで試したプロンプトをSDXL Turboでも入力して、どのような違いがあるか検証します。

まずは、以下のプロンプトを入力します。

1girl, collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, ponytail, freckles, red hair, dappled sunlight, smile, happy

生成の様子です。

SDXL Turbo

Real-Time Latent Consistency Model

結果は、SDXL Turboはベータ版ということもあり、プロンプトの文字制限があるようで途中までしか入力できませんでした。

しかし、生成スピードや品質はReal-Time Latent Consistency Modelとほぼ同等であり、どちらも超高速で高品質の画像を生成できることが分かりました。

生成の過程を見てみると、Real-Time Latent Consistency Modelは最初から一貫して女の子の画像を出力し続けているのに対して、SDXL Turboの方は、途中で犬の画像が出力されていたりするので、その点はReal-Time Latent Consistency Modelの方が優れています。

また、必要スペックについてもReal-Time Latent Consistency Modelは、家庭用のPCでも快適に動作するのに対して、SDXL TurboはA100GPUが必要とのことなので、実用性についても現段階ではReal-Time Latent Consistency Modelの方が優れていると言えます。

とはいえ、最終的に生成された画像を見てもわかるように、画像の品質は申し分ないので、今後のアップデートで実用性の面が強化されると、最強のリアルタイム画像生成モデルになると思います！

SDXL Turboの著作権について

SDXL Turboは、現状非商用研究ライセンスでリリースされているため、SDXL Turboで生成した画像は商用目的で利用することはできません。

しかし、「SDXL Turboはまだ商用利用を目的としていないことにご留意ください。」と公式サイトに記載があるので、将来的には商用利用が許可される可能性はあります。

また、CivitaiにはSDXL TurboをLoRAしたモデルも多数出ていますが、これらのLoRAも商用利用はできません。

SDXL Turboを商用利用した場合は、利用規約違反だけではなく著作権の侵害にもつながる可能性があるので、必ず個人利用の範囲内で収める必要があります。商用利用がしたい場合は、Stable Diffusion XLなどのモデルを利用しましょう。

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

なお、Stable Diffusionについて詳しく知りたい方は、下記の記事を合わせてご覧ください。

今後のSDXL Turboに期待

SDXL Turboは、2023年11月29日にStability AIより公開された最新のリアルタイムテキスト画像生成モデルです。

このモデルの最大の特徴は、敵対的拡散蒸留（Adversarial Diffusion Distillation：ADD）と呼ばれる新しい蒸留技術を用いることで、1ステップでの画像生成を可能にし、画像の品質を維持しながらリアルタイムでテキストから画像への出力を生成することです。

使ってみた感想は、同じリアルタイム画像生成モデルのReal-Time Latent Consistency Modelと比較して、性能面はほぼ同等ですが、実用性の面で劣っているところがあり、今後のアップデートで改善されることを期待しましょう。

しかし、Stable Diffusion WebUIはカスタマイズ性に優れているため、画質に納得いかない場合は、VAEを活用して画質を上げるなどの対策もできるので、使い方によっては自分好みの最強画像生成AIになる可能性もあります。

このモデルを使用することで、思いついたアイデアをすぐに画像にできるようになるので、気になった方は是非試してみてください。

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ