【Playground v2】Stable Diffusionの2.5倍美しい！芸術的な画像に特化したAIを使ってみた

2023-12-102024-07-20

WEELメディア事業部LLMリサーチャーの中田です。

12月5日、Playgroundの研究チームが「Playground v2 – 1024px Aesthetic Model」というText2Imageモデルを発表し、誰でもテキストから芸術的な絵を描けるようになりました。

これにより、誰でもピカソ級の絵画を作ることができるんです…！

本モデルのダウンロード数は、なんと8,500を超えており、既に多くの人に使われていることがわかります。

この記事ではPlayground v2 – 1024px Aesthetic Modelの使い方や、有効性の検証まで行います。本記事を熟読することで、Playground v2 – 1024px Aesthetic Modelの芸術的なセンスを実感し、普通の画像生成AIには戻れなくなるでしょう。

ぜひ、最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Playground v2 – 1024px Aesthetic Modelの概要

“Playground v2 – 1024px Aesthetic Model”は、Playgroundの研究チームによって開発された、テキストから高解像度（1024×1024ピクセル）の高画質な画像を生成する画像生成AIです。このモデルは、テキストプロンプトに基づいて「高画質で芸術的な画像」を生成でき、特に美的センスに優れているのだとか。

以下の図では、数千人のユーザーを対象にして、2,600以上のプロンプトにおいて「Playground v2によって生成された画像が、Stable Diffusion XLによって生成された画像よりも2.5倍好まれる」ということを意味しています。

また、以下の図は「様々なジャンルにおける生成画像の品質の良さ」を比較したものです。具体的には、FIDという数値を比較しているのですが、これは数値が小さければ小さいほど、そのジャンルの画像の生成精度が高いことを表します

この結果によると、すべての画像において、Playground v2 – 1024px Aesthetic Modelの方が優れた精度を達成していることが分かります。

Playground v2 – 1024px Aesthetic Modelの料金体系

Playground v2 – 1024px Aesthetic ModelはOSSであるため、無料で利用可能です。

なお、LoRA不要で画像ないの人物の着せ替えを行えるAIについて知りたい方はこちらの記事をご覧ください。
→【PhotoMaker】LoRA不要、わずか数秒、顔を保持したまま画像を自由に着せ替えできるAIを使ってみた

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

Playground v2 – 1024px Aesthetic Modelの使い方

今回はGoogle Colabで実行します。

まずは、以下のコードを実行して、必要なライブラリをインストールしましょう。

!pip install transformers accelerate safetensors diffusers

そして、以下のコードを実行すると、「Astronaut in a jungle, cold color palette, muted colors, detailed, 8k」というプロンプトで画像を生成できます。

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "playgroundai/playground-v2-1024px-aesthetic",
    torch_dtype=torch.float16,
    use_safetensors=True,
    add_watermarker=False,
    variant="fp16"
)
pipe.to("cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image  = pipe(prompt=prompt, guidance_scale=3.0).images[0]
image.save("astronaut.png")

生成された画像は、以下の通りです。

AIっぽさはあるものの、かなりセンスの良い絵ができました！

なお、以下のHugging Faceのデモページにアクセスすると、コードを書くことなく、簡単に画像生成を試すことができます。

参考記事：Playground v2

Playground v2 – 1024px Aesthetic Modelを動かすのに必要なPCのスペック

■Pythonのバージョン
Python 3.8以上

■必要なパッケージ
diffusers（バージョン0.24.0以上）
transformers
accelerate
safetensors

Playground v2 – 1024px Aesthetic Modelを実際に使ってみた

今回は、Playground v2 – 1024px Aesthetic Modelの強みでもある「画像の芸術性の高さ」を評価していこうと思います。

まずは、以下の3つのプロンプトを入力してみます。

an artistic picture like Picasso's work.
an artistic picture like Van Gogh's works.
an artistic picture.

すると、結果は以下の通りになりました（左から順番に1つ目、2つ目、3つ目のプロンプトで生成）。

1つ目と2つ目は、確かにピカソとゴッホっぽい！プロンプトをしっかりと理解できているようですね。

3つ目に関しても、絵のクオリティは高く、幻想的な世界を描けていますね。

なお、簡単にアニメ美少女の画像を作れるAIについて知りたい方はこちらの記事をご覧ください。
→【Animagine XL 3.0】誰でも簡単にアニメ美少女の画像を生成できる神AI！使い方や料金、使ってみた感想を紹介

Playground v2 – 1024px Aesthetic Modelの推しポイントである美的センスは本当なのか？

Playground v2 – 1024px Aesthetic Modelの公式ページでも比較対象として挙げられていた「Stable Diffusion XL」と、画像の芸術性において比較してみます。ここで、先ほどと同様のプロンプトを、SDXLにも入力してみます。結果は以下の通り。

こちらも高品質な画像ですが、やはり絵のクオリティとしてはPlayground v2 – 1024px Aesthetic Modelに軍配が上がるようです！

というわけで、芸術的な絵を生成したい場合は、Playground v2 – 1024px Aesthetic Modelを利用するのが良いでしょう。

まとめ

Stable Diffusionよりも、評価と精度が高いので、かなり期待できそうです！

絵のクオリティとしてはPlayground v2 – 1024px Aesthetic Modelに軍配が上がるようなので、芸術的な絵を生成したい場合は、Playground v2 – 1024px Aesthetic Modelを利用するのが良いでしょう。

数年後には、誰もがピカソになれる時代が来るかもしれないですね。

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ