【Stable Diffusion 3】Stable Diffusion最新モデルがついに登場！DALL-E 3と性能を比較してみた

2024-02-242024-09-30

WEELメディア事業部LLMライターのゆうやです。

2024年2月23日、Stability AIから最新の画像生成AIである「Stable Diffusion 3」が公開されました！

2022年のStable Diffusion 1.4のリリース以来、Stability AIはStable Diffusion1.5、2.0 、2.1、XL、XL Turboと次々にバージョンアップモデルをリリースし、今回のStable Diffusion 3を発表しました。

その進化は目覚ましく、Stable Diffusion 3は前バージョンと比較して、複数の主題のプロンプトへの対応力、画像品質、テキスト生成の品質が大幅に向上しています。

以下が、Stable Diffusion 3で生成された画像とそのプロンプトです。

Prompt

Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.

キッチンテーブルの上に置かれているのは、「おやすみなさい」と書かれた刺繍入りの布と、虎の赤ちゃんの刺繍。布の横には火のついたろうそく。照明は薄暗く、ドラマチックだ。

引用元：https://twitter.com/andrekerygma/status/1760676723836993554

Stable Diffusion 3は、まだ一般公開されておらず、現在は一般公開前の先行プレビューのウェイティングリスト登録が始まっている段階です。

そのため、まだ実際に使用することはできませんが、今回は公開されている情報からその概要を紹介します。

是非最後までご覧ください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Stable Diffusion 3の概要

Stable Diffusion 3は、2024年2月23日にStability AIが公開した最新の画像生成AIです。

このモデルは、これまでのStable Diffusionシリーズと比較して、複数主題のプロンプト、画質、スペリング能力が大幅に向上しており、現在最も高性能な画像生成AIのうちの一つです。

特に注目すべき点は、従来の画像生成AIでは難しかった画像内での文字の表示も可能になっています。（アルファベット限定）

以下の画像は、Stable Diffusion 3で生成された画像です。

Prompt

Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

色とりどりのエネルギーでできた「Stable Diffusion 3」と書かれた宇宙の呪文を暗い空に唱える、夜の山の上の魔法使いの壮大なアニメ作品。

引用元：https://ja.stability.ai/blog/stable-diffusion-3

非常に高品質であることに加え、しっかりと指定した文字が画像内に表記されていますね！

試しに、これと全く同じプロンプトでStable Diffusion 2.1に出力させてみましょう。

結果はこのようになりました。

画像内に文字を表記することはできず、画像の品質もStable Diffusion 3より劣っていることが分かります。

これまでできなかったことができるようになったStable Diffusion 3ですが、更なる性能の向上と安全性評価のため、まだ一般公開はされていません。

現在、先行プレビューのウェイティングリストの登録が始まっており、先行プレビューでのユーザーのフィードバックをもとに更なる性能と安全性の向上が図られます。

ウェイティングリストへの登録は、以下のリンク先から行えるので、気になる方は登録してみてください。

SD 3 waitlist

そんなStable Diffusion 3は、800Mから8Bのパラメータを持つモデルが提供され、ユーザーのニーズに最適な形で応えるため、拡張性と品質に関するさまざまなオプションを用意するようです。

具体的な内容は公開されていませんが、おそらく小さいモデルから大きなモデルまで用意することで、様々なプラットフォームから使用できるようにするといった内容でしょう。

ここからは、Stable Diffusion 3で使用されている技術についてやStable Diffusion 3で生成された画像について、DALL-E 3と比較しながら紹介します。

Stable Diffusionをローカル環境で構築する方法について知りたい方は、こちらの記事をご覧ください。
→Stable Diffusionをローカル環境で構築する方法！メリット・デメリットも徹底解説

Stable Diffusion 3で使用されている技術

ここからは、Stable Diffusion 3で使用されている技術について紹介します。

なお、詳細な技術レポートはまだ公開されていませんので、ここでは軽い概要の紹介のみとなりますが、技術レポートが公開され次第判明した内容を追記します。

拡散トランスフォーマー・アーキテクチャ

Stable Diffusion 3は、拡散トランスフォーマー・アーキテクチャという方法を後述するフローマッチングという技術と組み合わせて使用し、画像を生成しています。

これは、先日公開されて大きな反響を呼んでいるOpen AIのSoraと同様の手法です。

拡散トランスフォーマー（Diffusion Transformer）は、従来の拡散モデルの主要コンポーネントであるU-Net畳み込みニューラルネットワーク（CNN）をトランスフォーマーに置き換えたものです。

これにより、画像からノイズを除去していく学習プロセスを改善しており、主に画像の潜在表現（より単純な形式）にノイズを加え、それを徐々に取り除くことで新しい画像を生成します。

このアプローチにより、効率的にスケールアップするだけでなく、より高品質の画像を生成できます。

以下の画像は、拡散トランスフォーマーのスケールアップによる効果を可視化したものです。

さらに、Stability AIのCEO、Emad Mostaque氏は、以下のポストの中で、「さらに拡張できるだけでなく、マルチモーダル入力にも対応できる」と述べています。

Some notes:
– This uses a new type of diffusion transformer (similar to Sora) combined with flow matching and other improvements.
– This takes advantage of transformer improvements & can not only scale further but accept multimodal inputs..
– More technical details soon
— Emad (@EMostaque) February 22, 2024

これは技術レポートの公開や、モデルの一般公開が楽しみですね！

なお、拡散トランスフォーマー・アーキテクチャの詳細については、以下の論文をお読みください。

Scalable Diffusion Models with Transformers

フロー・マッチング

Stable Diffusion 3では、ランダムなノイズから構造化された画像にスムーズに移行する方法を学習して画像を生成できるAIモデルを作成する技術である「フロー・マッチング」も利用しています。

フロー・マッチングは、連続正規化フロー（Continuous Normalizing Flows、CNF）を効率的に訓練するためのシミュレーションフリーなアプローチを提供し、生成したいデータの種類に応じて、より正確かつ高品質な結果を得ることが可能になります。

フロー・マッチングについて、より詳しく知りたい方は、以下の論文を参照してください。

Flow Matching for Generative Modeling

このように、Stable Diffusion 3は、新しい手法や技術を組み合わせることで、かつてない程高品質な画像生成および拡張性を獲得しました。

さらに、CEOのEmad Mostaque氏は、ユーザーの「Stability AIがより多くの GPU を獲得した場合、SD3とStablevideoをトレーニングしてSoraレベルのモデルを構築できる可能性がある」というポストに対して、以下のように返答しています。

Pretty much. The SD3 arch can accept more than video and image, more details soon.

We have 100x less (literally) the resources of some of the others in this field though, have to work hard. https://t.co/6udkySZWMx
— Emad (@EMostaque) February 22, 2024

本当に。SD3アーチはビデオや画像以上のものを受け入れることができる。

我々は、この分野で他社の100分の1以下のリソースしか持っていない。

リソースさえあればSoraレベルのモデルを開発できますが、リソースが圧倒的に足りないと言っています。

何とかリソースの問題を解決して、OpenAIに並ぶような企業になってほしいですね！

ここからは、Stable Diffusion 3で実際に生成された画像を紹介していきます。

Stable Diffusion 3で生成された画像をDALL-E 3で生成した画像と比較してみた！

ここからは、Stable Diffusion 3で実際に生成された画像を、同じプロンプトでDALL-E 3で生成した画像と比較しながら紹介します。

早速見ていきましょう！

まずは以下の画像です。

Prompt

cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk

教室のテーブルの上に置かれた赤いリンゴの映画のような写真、黒板にはチョークで「go big or go home」と書かれている

Stable Diffusion 3

プロンプトが忠実に再現され、指定した文字もしっかり表示されていますね！

以下が同じのプロンプトでDALL-E 3で生成した画像です。

DALL-E 3

さすがDALL-E 3ですね、プロンプトを忠実に再現した高品質な画像を生成してくれました。

クオリティも再現度もほぼ同等であり、Stable Diffusion 3はあのDALL-E 3に迫る性能を有していることが分かります。

もう一枚見てみましょう。

Prompt

Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

木のテーブルの上に置かれた3つの透明なガラス瓶。左側には赤い液体と数字の1。真ん中のものには青い液体が入っており、数字は2。右側には緑色の液体と数字の3。

Stable Diffusion 3

引用元：https://twitter.com/andrekerygma/status/1760676074491687310

こちらもプロンプトを忠実に再現した高品質な画像を生成できていますね。

そしてこちらがDALL-E 3で生成した画像です。

DALL-E 3

こちらもStable Diffusion 3と同様に、プロンプト通りの高品質な画像を生成しました。

今回の比較から、Stable Diffusion 3はDALL-E 3とほぼ同等の性能を有しているといえます。

また、Stable Diffusion 3がDALL-E 3より優れている点として、オープンソースモデルであることが挙げられます。

オープンソースモデルであるため、一般公開後はモデルをローカルにダウンロードして実行することも可能で、さらに出力を変更するための微調整も行うことができます。

Stable Diffusion 3が公開されれば、DALL-E 3レベルの画像生成AIがローカルで実行、チューニングができるようになるかもしれませんね！

なお、今回比較対象にしたDALL・E3について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【DALL-E 3】ChatGPTで画像生成できるDALL-E 3を使ってみた！無料での使い方も伝授

Stable Diffusion 3は、DALL-E 3レベルの超高性能画像生成AI！

Stable Diffusion 3は、2024年2月23日にStability AIが公開した最新の画像生成AIです。

話題沸騰中のOpenAI Soraにも使われている、「拡散トランスフォーマー・アーキテクチャ」という手法を、「フロー・マッチング」という技術と組み合わせることで、これまでにない高品質な画像生成を可能にしています。

具体的には、画像品質の向上やプロンプトの再現度向上はもちろん、これまで難しいといわれていた画像内での文字の表記を実現しています。

Stable Diffusion 3は、更なる安全性や性能の向上のため、先行プレビューのウェイティングリスト登録を行っており、まだ一般公開はされていないため、実際に使用することはできません。

しかし、いくつかStable Diffusion 3で生成された画像が公開されており、それらをDALL-E 3で全く同じプロンプトで生成した画像と比較したところ、ほぼ同等の品質とプロンプト再現度を有していました。

さらに、Stable Diffusion 3はオープンソースモデルであるため、ローカルにダウンロードして実行やチューニングを行って、自分好みにカスタマイズすることも可能であり、その点はユーザー目線で言えばDALL-E 3より優れているといえます。

しかし、今回公開されているStable Diffusion 3で生成された画像は、うまくいったもののみ抽出して公開している可能性があり、実際の性能はまだ分かりません。

さらに、DALL-E 3と同等の性能を有するのはおそらく最大サイズの8Bモデルになると思いますが、それを動かすには、かなり高性能なGPUが必要になるので、その点も課題と言えます。

実際の性能や必要要件などは、一般公開された後に改めてまとめて紹介します。

公開される日が待ちきれませんね！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ