【EvoSDXL-JP】10倍速で日本スタイルの画像を生成できるマージモデル

2024-04-23

ELメディア事業部LLMライターのゆうやです。

日本のAIベンチャーであるSakana AIが、最新の画像生成モデルである「EvoSDXL-JP」を公開しました！

Sakana AIが提案した「進化的モデルマージ」により構築した画像生成モデル「EvoSDXL-JP」を公開しました。構築したモデルは日本語に対応しており、従来の日本語モデルと比べ10倍高速に画像を生成できます。

ブログ → https://t.co/6NkcyT86BF
デモ → https://t.co/CQtkfSyhAC… pic.twitter.com/LFGI16SWhQ
— Sakana AI (@SakanaAILabs) April 22, 2024

このモデルは、Sakana AIが提案した進化的アルゴリズムを用いた基盤モデル構築の手法「進化的モデルマージ」に基づいて構築されています。

日本語の入力から日本スタイルの画像生成を得意とするモデルで、既存の日本語画像生成モデルと比較して、推論速度が最大10倍も速いことが特徴です。

EvoSDXL-JPは、オープンソースモデルですが、その利用は研究開発目的のみに限定されており、商用利用などは想定されていません。

今回は、EvoSDXL-JPの概要と使ってみた感想をお伝えします。

是非最後までご覧ください！

EvoSDXL-JPの概要

EvoSDXL-JPは、日本語のプロンプト入力から、日本スタイルの画像生成を得意とする画像生成モデルです。既存の日本語画像生成モデルと比較して、推論速度が最大10倍も速いことが特徴です。

実際にEvoSDXL-JPで生成された画像の例です。

プロンプト：

「お笑い芸人、編みぐるみ。」
「美味しいカツカレー、浮世絵。」
「江戸時代メンズスーツ、最高品質の浮世絵。」
「折り紙味噌汁。」

ぜひお試しください！ →https://t.co/CQtkfSyhAC pic.twitter.com/bxbkyjkwSO
— Sakana AI (@SakanaAILabs) April 22, 2024

このモデルは、「進化的モデルマージ」というSakana AIが提案した進化的アルゴリズムを用いた基盤モデル構築の手法に基づいて構築されています。

進化的モデルマージは、異なるAIモデルを組み合わせる最適化プロセスを進化アルゴリズムを使って自動化する手法で、ユーザーが指定した能力に長けた新しい基盤モデルを自動的に作成できます。

また、勾配ベースの訓練を全く必要とせず、比較的少ない計算資源とデータでモデルを構築でき、現在モデル構築で課題になっている膨大なコストを大幅に削減する可能性を秘めています。

EvoSDXL-JPは、以下の進化的モデルマージを二段階で適用して構築されました。

「日本特化の画像生成モデル」と「英語のベース画像生成モデル」をマージした、日本語対応の高性能な画像生成モデル（モデル6）
モデル6をさらに「高速画像生成モデル」とマージした、「日本語対応」かつ「高速」な画像生成モデルであるEvoSDXL-JP（モデル7）

このモデルを他のモデルと比較した評価結果がこちらです。

生成された画像と真の画像の近さを表すFID（小さい値ほど良い）、人間好みの度合いを測るHPS（大きい値ほど良い）が評価に利用され、EvoSDXL-JPはともに最高スコアを獲得しています。

また、ほとんどの画像生成モデルが画像の生成に40ステップかかっているところを、EvoSDXL-JPは4ステップで生成できており、10倍の推論速度を有していることが分かります。

EvoSDXL-JPは、今のところ研究教育目的での使用が想定されており、商用利用目的での使用は想定されていません。

ここからは、EvoSDXL-JPの使い方を紹介します。

なお、進化的モデルマージについてはこちらの記事で徹底解説していますので、詳しく知りたい方はこちらの記事をご覧ください。

WEEL

【EvoVLM-JP】存在しない最強のAIモデルを作れるSakana AIの「進化的アルゴリズム」を徹底解説！ | WEEL WEELメディア事業部LLMリサーチャーの中田です。 3月21日、進化的アルゴリズムを用いて既存モデルを融合し、新たな基盤モデルを開発する「進化的モデルマージ（Evolutionar…

EvoSDXL-JPのライセンス

EvoSDXL-JPは、Apache-2.0 licenseのもとで提供されているため、ライセンス的には商用利用も可能ですが、研究開発目的で構築されたモデルですので、商用利用には適していません。

利用用途	可否
商用利用	–
改変	⭕️
配布	⭕️
特許使用	⭕️
私的使用	⭕️

参考：https://www.apache.org/licenses/LICENSE-2.0

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

EvoSDXL-JPの使い方

ローカルに実装する方法を解説します。（Google Colabを使用する場合も同様です）

まず、EvoSDXL-JPのモデルカードをクローンします。

git clone https://huggingface.co/SakanaAI/EvoSDXL-JP-v1

ディレクトリに移動し、必要なパッケージをインストールします。

cd EvoSDXL-JP-v1
pip install -r requirements.txt

最後に、以下のコードで推論を実行します。

from evosdxl_jp_v1 import load_evosdxl_jp
 
prompt = "柴犬"
pipe = load_evosdxl_jp(device="cuda")
images = pipe(prompt, num_inference_steps=4, guidance_scale=0).images
images[0].save("image.png")

非常にシンプルに実装できますね！

また、Hugging Face Spaceでオンラインデモも公開されているため、以下のリンク先から気軽に試すこともできます。

SakanaAI/EvoSDXL-JP

それでは実際に試してみましょう！

EvoSDXL-JPを実際に使ってみた

以下のプロンプト入力します。

サメ、折り紙

結果はこのようになりました。

プロンプト通りの非常に高品質な画像を生成してくれました。

デモを使用した場合の生成時間は10秒ほどでした。

EvoSDXL-JPの実行に必要な環境

必要なパッケージ

diffusers==0.26.0
sentencepiece
transformers
accelerate

必要スペックに関する情報はありませんでしたが、快適に動作させる場合はそれなりのスペックのGPU（RTX4000シリーズなど）が必要と思われます。

ここからは、EvoSDXL-JPをJapanese Stable Diffusion XLとDALL-E3と比較していきます。

EvoSDXL-JPをJapanese Stable Diffusion XLとDALL-E3と比較してみた

それでは早速比較していきましょう。

なお、今回の比較では画像のクオリティを比較します。

まずは、EvoSDXL-JPが得意とする日本スタイルの画像を生成させるため、以下のプロンプトを入力します。

ノートパソコン、机、侍、最高品質の浮世絵、江戸時代

結果はこのようになりました。

EvoSDXL-JP

Japanese Stable Diffusion XL

DALL-E 3

結果はどれもプロンプトの内容に沿った画像を生成してくれました。

ただ、それぞれ微妙に差があり、最も浮世絵らしい画像を生成してくれたのはJapanese Stable Diffusion XLでした。

EvoSDXL-JPが生成したものは白黒で、多少画像感が強く、手やノートパソコンの描画も崩れてしまっています。

ただ、それはJapanese Stable Diffusion XLのものも同様で、最も品質の高い画像を生成したのはDALL-E 3でした。

次に、日本スタイルではない画像を生成させてみます。

以下のプロンプトを入力します。

水中を泳ぐ魚の群れとそれを狙うサメ

結果はこのようになりました。

EvoSDXL-JP

Japanese Stable Diffusion XL

DALL-E 3

EvoSDXL-JPとJapanese Stable Diffusion XLは、魚の群れではなくサメの群れを出力してしまっています。

画像のクオリティ、プロンプトの再現度ともにDALL-E 3が優れています。

ただ、画像のクオリティに関しては、EvoSDXL-JPも十分高く、生成速度も速いため、もう少しプロンプトの理解度が上がると、DALL-E 3にも張り合える画像生成モデルになると感じました

なお、今回比較対象としたDALL-E3については詳しく知りたい方はこちらをご覧ください！

WEEL

【DALL-E 3】ChatGPTで画像生成する方法！使い方や料金、プロンプトのコツを解説 | WEEL DALL-E 3の概要や使い方、他の画像生成AIとの比較をご紹介します。DALL-E 3は、OpenAI社が開発した最新の画像生成AIで、2023年10月からChatGPTで使えるようになります。最…

EvoSDXL-JPは日本語画像生成モデルの最先端を行くモデル

EvoSDXL-JPは、Sakana AIから公開された日本語の入力から日本スタイルの画像生成を得意とする画像生成モデルです。

既存の日本語画像生成モデルと比較して、推論速度が最大10倍も速いことが特徴で、さらに画像の品質も向上しています。

これは、Sakana AIが提案した「進化的モデルマージ」というモデル構築手法による効果です。

日本語画像生成モデルと英語の画像生成モデルをマージしたモデルを、超高速画像生成モデルとマージしてモデルを構築することで、性能と速度を両立させながら日本語にも対応しています。

この「進化的モデルマージ」手法は、モデルの構築コストを大幅に抑えながら、高性能なものが構築可能になるので、今後のモデル開発に大きな影響を与える可能性を秘めています。

実際に使ってみた感想は、高品質な日本スタイルの画像を高速で生成してくれますが、「日本スタイル」という点に関してはJapanese Stable Diffusion XLのほうが優れた画像を生成してくれると感じました。

日本語対応で使いやすく、かつ高速で高品質な画像が生成できるEvoSDXL-JP、もし気になった方は是非試してみてください！

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ