【Playground v2】Stable Diffusionの2.5倍美しい!芸術的な画像に特化したAIを使ってみた
WEELメディア事業部LLMリサーチャーの中田です。
12月5日、Playgroundの研究チームが「Playground v2 – 1024px Aesthetic Model」というText2Imageモデルを発表し、誰でもテキストから芸術的な絵を描けるようになりました。
これにより、誰でもピカソ級の絵画を作ることができるんです…!
本モデルのダウンロード数は、なんと8,500を超えており、既に多くの人に使われていることがわかります。
この記事ではPlayground v2 – 1024px Aesthetic Modelの使い方や、有効性の検証まで行います。本記事を熟読することで、Playground v2 – 1024px Aesthetic Modelの芸術的なセンスを実感し、普通の画像生成AIには戻れなくなるでしょう。
ぜひ、最後までご覧ください。
Playground v2 – 1024px Aesthetic Modelの概要
“Playground v2 – 1024px Aesthetic Model”は、Playgroundの研究チームによって開発された、テキストから高解像度(1024×1024ピクセル)の高画質な画像を生成する画像生成AIです。このモデルは、テキストプロンプトに基づいて「高画質で芸術的な画像」を生成でき、特に美的センスに優れているのだとか。
以下の図では、数千人のユーザーを対象にして、2,600以上のプロンプトにおいて「Playground v2によって生成された画像が、Stable Diffusion XLによって生成された画像よりも2.5倍好まれる」ということを意味しています。
また、以下の図は「様々なジャンルにおける生成画像の品質の良さ」を比較したものです。具体的には、FIDという数値を比較しているのですが、これは数値が小さければ小さいほど、そのジャンルの画像の生成精度が高いことを表します
この結果によると、すべての画像において、Playground v2 – 1024px Aesthetic Modelの方が優れた精度を達成していることが分かります。
Playground v2 – 1024px Aesthetic Modelの料金体系
Playground v2 – 1024px Aesthetic ModelはOSSであるため、無料で利用可能です。
なお、LoRA不要で画像ないの人物の着せ替えを行えるAIについて知りたい方はこちらの記事をご覧ください。
→【PhotoMaker】LoRA不要、わずか数秒、顔を保持したまま画像を自由に着せ替えできるAIを使ってみた
\画像生成AIを商用利用する際はライセンスを確認しましょう/
Playground v2 – 1024px Aesthetic Modelの使い方
今回はGoogle Colabで実行します。
まずは、以下のコードを実行して、必要なライブラリをインストールしましょう。
!pip install transformers accelerate safetensors diffusers
そして、以下のコードを実行すると、「Astronaut in a jungle, cold color palette, muted colors, detailed, 8k」というプロンプトで画像を生成できます。
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-1024px-aesthetic",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
image.save("astronaut.png")
生成された画像は、以下の通りです。
AIっぽさはあるものの、かなりセンスの良い絵ができました!
なお、以下のHugging Faceのデモページにアクセスすると、コードを書くことなく、簡単に画像生成を試すことができます。
参考記事:Playground v2
Playground v2 – 1024px Aesthetic Modelを動かすのに必要なPCのスペック
■Pythonのバージョン
Python 3.8以上
■必要なパッケージ
diffusers(バージョン0.24.0以上)
transformers
accelerate
safetensors
Playground v2 – 1024px Aesthetic Modelを実際に使ってみた
今回は、Playground v2 – 1024px Aesthetic Modelの強みでもある「画像の芸術性の高さ」を評価していこうと思います。
まずは、以下の3つのプロンプトを入力してみます。
an artistic picture like Picasso's work.
an artistic picture like Van Gogh's works.
an artistic picture.
すると、結果は以下の通りになりました(左から順番に1つ目、2つ目、3つ目のプロンプトで生成)。
1つ目と2つ目は、確かにピカソとゴッホっぽい!プロンプトをしっかりと理解できているようですね。
3つ目に関しても、絵のクオリティは高く、幻想的な世界を描けていますね。
なお、簡単にアニメ美少女の画像を作れるAIについて知りたい方はこちらの記事をご覧ください。
→【Animagine XL 3.0】誰でも簡単にアニメ美少女の画像を生成できる神AI!使い方や料金、使ってみた感想を紹介
Playground v2 – 1024px Aesthetic Modelの推しポイントである美的センスは本当なのか?
Playground v2 – 1024px Aesthetic Modelの公式ページでも比較対象として挙げられていた「Stable Diffusion XL」と、画像の芸術性において比較してみます。ここで、先ほどと同様のプロンプトを、SDXLにも入力してみます。結果は以下の通り。
こちらも高品質な画像ですが、やはり絵のクオリティとしてはPlayground v2 – 1024px Aesthetic Modelに軍配が上がるようです!
というわけで、芸術的な絵を生成したい場合は、Playground v2 – 1024px Aesthetic Modelを利用するのが良いでしょう。
まとめ
“Playground v2 – 1024px Aesthetic Model”は、Playgroundの研究チームによって開発された、テキストから高解像度(1024×1024ピクセル)の高画質な画像を生成する画像生成AIです。このモデルは、テキストプロンプトに基づいて「高画質で芸術的な画像」を生成でき、特に美的センスに優れているのだとか。
Stable Diffusionよりも、評価と精度が高いので、かなり期待できそうです!
絵のクオリティとしてはPlayground v2 – 1024px Aesthetic Modelに軍配が上がるようなので、芸術的な絵を生成したい場合は、Playground v2 – 1024px Aesthetic Modelを利用するのが良いでしょう。
数年後には、誰もがピカソになれる時代が来るかもしれないですね。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。