【OpenDalle】DALL-E 3レベルの画像を無料で生成できるオープンソースツールを使ってみた

OpenDalle DALL-E-3 無料 オープンソースツール

WEELメディア事業部LLMリサーチャーの中田です。

dataautogpt3らが、「OpenDalle」というText2Imageの画像生成AIを、HuggingFace上で公開しました。

この技術によって、よりプロンプトに忠実な画像を生成できるんです…!

OpenDalleのモデルのダウンロード数は、なんと13,000を超えており、数多くの人に使われていることが分かります。

この記事ではOpenDalleの使い方や、有効性の検証まで行います。本記事を熟読することで、OpenDalleの凄さを実感し、他の画像生成との違いに驚くことでしょう。

ぜひ、最後までご覧ください。

目次

OpenDalleの概要

OpenDalleは、テキストから画像を生成できる画像生成AIで、プロンプトの文章にかなり即した画像を生成できます。

このモデルは、DALLE-3と比較してプロンプト理解において一歩進んでいるとされています。また、さまざまな画像生成プラットフォームで、OpenDalleを使用できるように設計されています。

OpenDalleの料金体系

OpenDalleはオープンソースのため、無料で利用可能です。

なお、OpenAIのDALL-E 3について知りたい方はこちらの記事をご覧ください。
【DALL-E 3】ChatGPTで画像生成する方法!使い方や料金、プロンプトのコツを解説

OpenDalleの使い方

今回は、Google ColabのT4を用いて実行します。まずは、以下のコードを実行して、必要なライブラリをインストールしましょう。

!pip install diffusers
!pip install accelerate

次に、以下のコードを実行して、画像を生成しましょう。

from diffusers import AutoPipelineForText2Image
import torch

pipeline = AutoPipelineForText2Image.from_pretrained('dataautogpt3/OpenDalle', torch_dtype=torch.float16).to('cuda')
image = pipeline('Manga from the early 1990s, characterized by its surreal aesthetic. The artwork is depicted in matte colors and created using a digital medium. Notable illustrators include Junji Ito, Yoshiyuki Sadamoto, and Rumiko Takahashi.').images[0]
image

ここで、プロンプトとなる文は「Manga from the early 1990s, characterized by its surreal aesthetic. The artwork is depicted in matte colors and created using a digital medium. Notable illustrators include Junji Ito, Yoshiyuki Sadamoto, and Rumiko Takahashi.(シュールな美学を特徴とする1990年代前半のマンガ。作品はマットな色彩で描かれ、デジタル媒体を使って制作される。著名なイラストレーターには、伊藤潤二、貞本義行、高橋留美子などがいる。)」です。このプロンプトによる生成結果は、以下の通りです。

かなり高精度ですね!

特に、プロンプトの「1990年代前半のマンガ。作品はマットな色彩で描かれ、デジタル媒体を使って制作される」の部分が、とてもよく画像に反映されているかと思います。

OpenDalleを動かすのに必要なPCのスペック

■Pythonのバージョン
Python 3.8以上

■必要なパッケージ
diffusers
accelerate

OpenDalleを実際に使ってみた

ここでは、面白そうなプロンプトを打ち込んで、画像を生成してみます。まずは、

A futuristic night view of Tokyo in the year 2070. Flying cars fill the sky, buildings are illuminated with neon lights, and glowing billboards float in the air. 
People walk the streets alongside robots and aliens. A giant moon rises in the background.

(2070年の東京の未来的な夜景。空には飛ぶ車があり、建物はネオンライトで照らされ、光る広告板が空中に浮かんでいる。通りには人々が歩き、ロボットや異星人の姿も見られる。背景には巨大な月が昇っている。)

というプロンプトで生成した結果は、以下の通りです。

画像のクオリティは高いですね!ただ、プロンプトにある「ロボット」や「異星人」「空中に浮かぶ広告板」は見られないのが残念です…

続いて、

In the middle of the forest, animals stand up like humans and hold a secret dance party. 
A bear is the DJ, a rabbit wearing sunglasses dances on the dance floor. Squirrels and turtles chat while sipping cocktails, and an owl watches curiously from above a tree.(

森の中で、動物たちが人間のように立って秘密のダンスパーティーを開いている。熊がDJを務め、サングラスをかけたウサギがダンスフロアで踊っている。リスとカメがカクテルを飲みながら談笑しており、木の上からフクロウが好奇心旺盛に見ている。)

というプロンプトで生成した画像は、以下の通りです。

こちらも高品質ですが、プロンプト中の「リスとカメがカクテルを飲みながら談笑しており」という記述が、画像に反映されていませんね。「フクロウが好奇心旺盛に見ている」ような様子も、描かれていません。

なお、高品質な画像を作れるAIはこちらをご覧ください。
【RPG-DiffusionMaster】超高性能画像生成AIでめちゃめちゃ可愛いAI美女を作ってみた

OpenDalleの推しポイントであるプロンプトに即した生成は本当なのか?

ここでは、先ほどと同じタスクを、Stable Diffusionで試してみようと思います!

その際に、以下の3点に着目して、OpenDalleと比較してみましょう。

  • 画像の品質
  • 生成速度
  • プロンプトとの整合性

Stable Diffusionで

A futuristic night view of Tokyo in the year 2070. Flying cars fill the sky, buildings are illuminated with neon lights, and glowing billboards float in the air. 
People walk the streets alongside robots and aliens. A giant moon rises in the background.

(2070年の東京の未来的な夜景。空には飛ぶ車があり、建物はネオンライトで照らされ、光る広告板が空中に浮かんでいる。通りには人々が歩き、ロボットや異星人の姿も見られる。背景には巨大な月が昇っている。)

というプロンプトで生成した結果は、以下の通りです。

次に、

In the middle of the forest, animals stand up like humans and hold a secret dance party.
 A bear is the DJ, a rabbit wearing sunglasses dances on the dance floor. 
Squirrels and turtles chat while sipping cocktails, and an owl watches curiously from above a tree.

(森の中で、動物たちが人間のように立って秘密のダンスパーティーを開いている。熊がDJを務め、サングラスをかけたウサギがダンスフロアで踊っている。リスとカメがカクテルを飲みながら談笑しており、木の上からフクロウが好奇心旺盛に見ている。)

というプロンプトで生成した結果は、以下の通りです。

生成速度は約10秒でした。これより、OpenDalleと通常のStable Diffusionの比較表は、以下の通りになるかと思います。

モデルOpenDalleStable Diffusion
画像の品質良い良い
生成速度48秒10秒
プロンプトとの整合性ほぼプロンプトの記述に即しているほぼプロンプトの記述に即している

ちなみに、「画像の品質」と「プロンプトとの整合性」に関しては完全個人的な意見です。

画像の品質もプロンプトとの整合性も、どちらも同じくらいのレベル感だったと思います。なお、生成速度に関しては、Stable Diffusionに軍配が上がりました。

なお、高速な画像生成AIのStreamDiffusionについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【StreamDiffusion】世界最速!?のスピードで画像を出力する超高速画像生成AIの使い方から実践まで

まとめ

OpenDalleは、テキストから画像を生成できる画像生成AIで、プロンプトの文章にかなり即した画像を生成できます。実際に試したところ、品質の良い画像が生成され、なおかつプロンプトの内容もほぼ完ぺきに捉えられていました。

Stable Diffusionと比較したところ、画像の品質もプロンプトとの整合性も、どちらも同じくらいのレベル感だったと思います。なお、生成速度に関しては、Stable Diffusionに軍配が上がりました。

数年後には、ハリーポッターの世界のような、呪文を唱えるとオブジェクトを生成できるようになっているのかもしれないですね。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 中田

    データサイエンス専攻の大学院生。大学では、生成系AIの拡散モデルを用いた音楽生成について研究。 趣味は作曲、サッカー、コーヒー。

  • URLをコピーしました!
  • URLをコピーしました!
目次