【DALL-E 3】ChatGPTで画像生成する方法!使い方や料金、プロンプトのコツを解説
皆さんはDALL-E 3をご存じですか?
先日、OpenAI社から発表された最新の画像生成AIで、ChatGPTを使って画像を生成することができるんです!従来のものから大幅に性能が向上しており、プロンプトのニュアンスを理解して入力に忠実な画像を生成してくれます。
今回はDALL-E 3の概要や使い方、他の画像生成AIとの比較、OpenAIの公式リリース前からDALL-E 3を使う方法を紹介していきます。ぜひ最後までご覧ください!
DALL-E 3とは
DALL-E 3は2023年9月21日にOpenAI社が公開したばかりの最新の画像生成AIで、テキストプロンプトからその内容を反映した画像を生成するDALLシリーズの最新版です。
ちなみにDALL-E3読み方は(ダリ・スリー)です。名前の由来はサルバドール・ダリ(Salvador Dalí)とピクサーアニメ映画の「ウォーリー」(WALL-E)だというから驚きですね。
そんなDALL-E 3の特徴は以下の4つです。
- 理解力
前のバージョンであるDALL・E2よりも、遥かに高いプロンプトのニュアンスや詳細を理解する能力を持っています。これにより、ユーザーのテキストプロンプトに正確に従った画像を簡単に生成できます。 - ChatGPTとの統合
ChatGPT上でネイティブに構築されており、アイデアを提示すると、それをもとにアイデアを具体化する詳細な画像をChatGPTが自動的に生成します。 - 安全性
暴力的、成人向け、または憎悪的なコンテンツを生成する能力は制限されており、フェイクニュースなどに悪用されないために、公人などの名前を含むリクエストを拒否するといった対策も進められています。 - クリエイティブコントロール
DALL・E 3で生成されたものの所有権はユーザー側にあるが、著作権侵害対策として、存命アーティストのスタイルでの画像のリクエストを拒否するように設計されています。
さらに、クリエーターは、将来の画像生成モデルのトレーニングから自分の作品の仕様を拒否することができます。
やはり、とても大規模で高性能なモデルであるため、多くの人が使用することが予想されています。したがって悪用されないための対策や、プロクリエイターの方を守るような対策を積極的に行っているようです。
DALL-E 3の性能
ここからは、実際にDALL-E 3で生成された画像と、DALL・E2との比較を公式サイトや公式Xからの情報をもとに紹介していきます。
まず、生成された画像をいくつかピックアップしてご紹介します。
1. モダンな建物
A modern architectural building with large glass windows, situated on a cliff overlooking a serene ocean at sunset.
夕暮れ時の穏やかな海を望む崖の上に建つ、大きなガラス窓を備えたモダンな建築の建物。
とっても綺麗な画像ですね!これをAIが生成したと思うと驚きです。
画像の内容も、プロンプトを忠実に再現したものになっており、それほど詳しく指定しなくても、高品質の画像を生成してくれることが分かります。
2. 人間の心臓
An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea.
Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within.
The quote 'Find the universe within you' is etched in bold letters across the horizon.
嵐の海で台座の上に立っている半透明のガラスでつくられた人間の心臓のイラスト。太陽光線が雲を突き抜けて心臓を照らし、その中に小さな宇宙が見える。水平線の向こう側には、『Find the universe within you 』という言葉が太い文字で刻まれている
こちらは、かなり詳細で複雑な指定をしていますが、こちらも忠実に再現されており、かつとても詳細で綺麗な画像が生成されています。
DALL-E 3の認識能力の高さが伺えますね!このような超高性能画像生成AIがChatGPTで簡単に使用できるので、他の画像生成AIは太刀打ちできないかもしれません。
次に、DALL-E 2からどれほど進化したのか示す比較を見ていきましょう。
以下のプロンプトを入力し、出力された画像です。
An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.
星雲の爆発として描かれたバスケットボール選手のダンクを表現した油絵
【DALL-E 2】
【DALL-E 3】
こう見るとディテールが全然違いますよね!
どちらも正しくプロンプトを認識して画像を出力していますが、DALL-E 3は一つ一つの指定を忠実に高精細に表現しており、もはやアートのような感じさえあります。
これは一刻も早く自分で試してみたいので、早速使っていきましょう!
まずはDALL-E3の使い方から説明します。
DALL-E 3の商用利用や著作権について
DALL-E 3のヘルプを見ると次のような記載があります。
コンテンツポリシーおよび利用規約に従う限り、DALL-Eで作成した画像の所有権はあなたにあります。これには、無料または有料のクレジットを通じて生成された画像に関係なく、再印刷、販売、商品化の権利も含まれます。
引用元:https://help.openai.com/en/collections/3643409-dall-e-content-policy
上記のことからDALL-Eで生成した画像については著作権はユーザー側にあり、商用利用も可能だということです。
そして、コンテンツポリシーには「AI の関与について視聴者を誤解させないでください。」「他人の権利を尊重します。」といった項目も存在します。
つまり「DALL-Eで生成したものは自由に使っていいけれど、生成する際には著作権などを考えて使ってください」ということですね。
ただし、Microsoft Bing Image Creatorは個人の非商業目的のみ利用可能で、商用利用不可となっていますのでご注意ください。
性能については、DALL・E2と比べて遥かに向上しているそうなので、どれほどのものなのか後ほど実際に試しますが、まずは公式から公開されている情報から、性能を見ていきましょう!
\画像生成AIを商用利用する際はライセンスを確認しましょう/
DALL-E 3の利用料金
DALL-E 3はChatGPTとMicrosoftのBing Image Creatorで使えます。ChatGPTは月20ドルのChatGPT Plusと、企業向けのTeam / Enterpriseの3つの有料プランでDALL-E 3を利用可能です。
Bing Image CreatorはMicrosoftアカウントがあればDALL-E3を無料で使えます。ChatGPTに課金できない方は、Bing Image Creatorを使いましょう。
ただし、「DALL-E 3の商用利用や著作権」でお伝えしたとおり、Microsoft Bing Image Creatorは個人の非商業目的のみ利用可能で、商用利用不可なので気をつけてください。
DALL-E 3と画像生成AI「Midjourney」との違い
画像生成AIは種類が増えてきており、どれを使えばいいか迷ってしまう方も多いと思います。
ここでは、DALL-E 3とMidjourneyの違いについてお伝えします。
結論はDALL-E 3はMidjourneyに比べるとリアリティが高く、Midjourneyは機械的です。そのため、アーティスティックな画像を生成したい場合には、Midjourneyを使うことをお勧めします。
ちなみに値段はそれぞれ以下のようになっています。
DALL-E 3 | Midjourney |
---|---|
Freeプラン:無料 | Basicプラン:月10ドル |
Plusプラン:月20ドル | Standardプラン:月30ドル |
Team:月25ドル | Proプラン:月60ドル |
– | Megaプラン:月120ドル |
また、DALL-E 3は日本語に対応しており、思ったことをそのままプロンプトとして入力すれば簡単にイラストが生成できますが、商用利用はChatGPTに課金している場合のみ可能です。
一方で、Midjourneyは商用利用が可能なため、副業のイラストとして活用できますが、日本語でのプロンプトには対応していません。そのため、DALL-E 3に比べるとMidjourneyを使って画像生成をするハードルが若干高いかもしれません。
DALL-E 3で使われている技術
DALL-E 3は短く抽象的なプロンプトでも、画像を生成することができます。
その背景には、より詳細で正確なキャプションを生成する専用のキャプショナーを用意し、トレーニングデータを再キャプションしたためです。ここからは、OpenAIが報告している論文を元に解説をします。
再キャプションには、次の3つの技術が使われています。
- 詳細なキャプションの生成
- CLIPモデルの利用
- 生成されたキャプションと実データのバランス調整
詳細なキャプションの生成
まずは詳細なキャプションの生成についてです。
キャプショナーによって、画像の主題だけでなく背景や関連するオブジェクト、色彩、配置、テキストなども含む非常に詳細なキャプションが生成されます。これにより、抽象的なプロンプトでも関連するビジュアル情報が充実し、少ない情報からもイメージを生成する力が向上。
詳細なキャプションの生成に関しては、論文内ではアップサンプリングとしても説明しています。
アップサンプリングでは、キャプションの拡張、GPTモデルによる詳細化に触れており、実際にアップサンプリングされたキャプションを使うことで、DALL-E 3は通常のプロンプトよりも精度の高い画像生成ができることを確認しています。
CLIPモデルの利用
次にCLIPモデルの利用です。
キャプショナーのトレーニングにはCLIP(Contrastive Language–Image Pretraining)を活用し、画像の内容を抽象的なテキスト情報に結びつける能力が向上。この結果、モデルは画像を生成する際に、キャプション内の細かなニュアンスも反映できるようになっています。
Figure4は元のキャプション、短い合成キャプション、詳細な合成キャプションでトレーニングされたモデルのCLIPスコアを比較したグラフです。
CLIPスコアは、テキストと画像の一致度を示す評価指標であり、図の結果から、詳細な合成キャプションを使用したモデルが最も高いCLIPスコアを達成しており、キャプションの詳細さが画像生成の精度に重要な役割を果たしていることが示されています。
さらにFigure5は、詳細な合成キャプションと元のキャプションの混合比率によるCLIPスコアの変化を示しています。
具体的には、80%、90%、95%の詳細な合成キャプションを含むデータセットでトレーニングされたモデルの性能を比較。この図から、合成キャプションの割合を増やすほどCLIPスコアが向上する傾向が見られ、詳細なキャプションがモデルの性能向上に寄与していることがわかります。
生成されたキャプションと実データのバランス調整
最後が生成されたキャプションと実データのバランス調整。
モデルがキャプションの「偏り」から誤った出力を生成しないよう、キャプショナーで生成したキャプションと元のキャプションを混ぜ合わせる「ブレンド」を実施。これにより、モデルはリアルな人間が記述したキャプションのスタイルやフォーマットにも対応でき、短いプロンプトからでも自然な画像を生成することが可能になっています。
DALL-E 3の使い方
それでは、DALL-E 3の使い方を解説します。
ChatGPT
現在DALL-E3はChatGPT Plusユーザー(月額20ドル)でなければ利用ができません。
使い方は簡単、ChatGPTにDALL-E3を使ってもらえるように〇〇を書いてください。とプロンプトを入力すれば、DALL-E3が画像生成をしてくれます。。
プロンプトを入力し、しばらく時間が経つとこのように画像が出力されます!
以前、DALL-E3は一度のプロンプトで4つの画像を生成していました。アップデートによって1枚の画像でしか生成されなくなっています。一度のプロンプトで以前のように何パターンが欲しい場合、プロンプトの中で枚数を指定すれば、分割された画像が生成されます。
プロンプト
ふわふわのキジトラ柄の猫を4パターン書いてください。
Bing Image Creator
今すぐにDALL-E 3を使う方法はBingのImage Generatorを使うことです。
Bing Image Generatorの使い方は非常に簡単で、以下のImage Creatorのサイトにアクセスし、Microsoftアカウントでログインする事で利用できます。
ログインすると以下のような画面になります。
赤枠の部分にテキストプロンプトを入力すると画像を生成してくれます。
試しに、「キッチンで音楽を聴きながら踊る猫」と入力してみました。
本当の写真のように高精細で可愛らしい画像が出力されました。Bing Image Creatorはこちらが指定せずとも4枚の生成された画像を並べてくれます。
また、QAのところには英語のみ対応と書いてあったのですが、これを見ると日本語にもしっかり対応していそうです!
ChatGPTと違って無料で使えるので、ChatGPTの有料プランに入っていない方やDALL-E 3だけを目当てに有料プランに入会する予定の方は、Bing Image Creatorを使った方がよさそうです。
MicrosoftCopilot(旧:Bing Chat)
MicrosoftCopilotでもDALL-E 3を無料で使うことができるようになっています。ただし、こちらで生成した画像は商用不可になっています。
使い方は非常に簡単です。まずはMicrosoftCopilotにログインします。
ログイン後、Copilotの画面に移りますので、あとはメッセージを送るだけです。今回は「可愛い猫のイラストを生成してください」と指示を与えています。
生成された画像はこちら。
DALL-E 3を手軽に使ってみたい方は、MicrosoftCopilotで画像生成するのもおすすめです。
Perplexity
Perplexityは検索型のAIサービスですが、PerplexityでもDALL-E 3を使って画像を生成することができます。画像生成できるのはProに契約している場合にのみですね。
ログインせずにPerplexityで画像生成できるか確認したのですが、設定画面がなく画像生成モデルを選択することができません。
Perplexityで画像を生成するには、一度テキストを送信する必要があります。その後、画面向かって右側に「画像を生成する」というメッセージが表示されるので、そこをクリックし、4種類の画風から好きなものを選んで、画像を生成します。
生成された画像はこちら
なお、ChatGPTの法人向け有料プランについて知りたい方はこちらをご覧ください。
DALL-E 3のAPIを経由して利用する手順
次にAPI経由でDALL-E 3を動かす手順と使い方についても紹介していきます。ちなみに今回はGoogle Colabのpython環境上にて、DALL-E 3を使ってみました。
ではさっそく、APIキーの発行からみていきましょう!
なお、DALL-E3をAPI経由での使い方・料金について詳しく詳しく知りたい方は、下記の記事を合わせてご確認ください。
OpenAIアカウントからAPIキーを発行
まずはOpenAIのアカウントを使って、APIキーを発行していきます。手始めに以下のリンクから、発行用の画面に移動してください。
ここからログインすると、以下のような画面が表示されます。
次はグレーのボタン「+ Create new secret Key」をクリック!するとNameの画面が出てくるので、APIに付けたい名前を入力してください。入力を終えると……
APIキーが発行されましたね。あとはAPIキーの右側、緑色の部分をクリックするとコピーができます。
必要なライブラリをインストール
続いて、Pythonの実行環境(今回はGoogle Colab)での操作に移ります。
PythonでDALL-E 3を含むOpenAIのモデルを使いたい場合、以下のライブラリ&モジュールが必要です。
- OpenAI Pythonライブラリ / openai
- OSモジュール / os
- getpassモジュール / getpass
この3つのうち、OpenAI Pythonライブラリはデフォルトで入っていないはず。ということで下記のコードを実行して、インストールしてみましょう!
!pip install openai
このようにインストールが終われば、実行環境側での下準備は完了です。
API キーの設定
もうひとつ、DALL-E 3を使う直前に必要な準備を紹介します。
というのは、実行環境側でのAPIキーの設定です。まずは下記のコードを実行してください。
import os
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass('OpenAI API Key:')
実行するとプロンプト「OpenAI API Key:」が返ってきます。
ここで先ほどのAPIキーを入力してEnterを押せば、連携が完了します。
DALL-E 3を呼び出して画像を生成
さてここからは、python環境上でDALL-E 3のAPIを動かしていきます。
まず下記のコードについて、プロンプト・画像サイズ・画像の品質・生成回数を指定して、実行するのですが……
from openai import OpenAI
client = OpenAI()
#プロンプト・画像サイズ・画像の品質・生成回数を指定
response = client.images.generate(
model="dall-e-3",
prompt="プロンプトを指定",
size="画像サイズを指定",
quality="画像の品質を指定",
n=1,
)
image_url = response.data[0].url
print(image_url)
DALL-E 3では、指定できる画像サイズ・画像の品質・生成回数が決まっています。詳細は以下をご覧ください。
DALL-E3で選べる設定
- 画像サイズ / size:1024×1024 / 1024×1792 / 1792×1024
- 画像の品質 / quality:standard / HD
- 生成回数 / n:1回
先ほどのコードを実行すると画像が生成され、URLで返ってきます。これにてAPI経由でのDALL-E 3の使い方の説明は終わりです。
API経由でDALL-E3を使ってみた!
次はGoogle ColabのPython環境上から、API経由でもDALL-E3を使ってみます。まずは画像サイズを1024×1024の正方形に指定して、スポーツカーの画像を生成してみましょう!
from openai import OpenAI
client = OpenAI()
#プロンプト・画像サイズ・画像の品質・生成回数を指定
response = client.images.generate(
model="dall-e-3",
prompt="サーキットを駆け抜けるスポーツカーの画像を生成してください。",
size="1024x1024",
quality="standard",
n=1,
)
image_url = response.data[0].url
print(image_url)
これを実行してみると……
先ほど説明したとおり、画像のURLが返ってきます。果たして、画像はちゃんと生成されているのでしょうか……
お見事です!躍動感のある構図にしてくれていますね。
続いて画像サイズを1792×1024の長方形に変えて、今度はトラックの画像を生成してもらいます。
#プロンプト・画像サイズ・画像の品質・生成回数を指定
response = client.images.generate(
model="dall-e-3",
prompt="荒野にたたずむトラックの画像を生成してください。",
size="1792x1024",
quality="standard",
n=1,
)
image_url = response.data[0].url
print(image_url)
こちらもGoogle Colab上で実行、URLにアクセスしてみると……
レトロなトラックが生成されています!ノスタルジックな雰囲気が素敵ですね。
次の項目では、実際にChatGPTからDALL-E 3を動かしていきます。先代DALL・E2から進化した、その実力をご覧あれ。
ChatGPTでDALL-E 3を使って画像生成してみた
ChatGPTのDALL-E 3はPCブラウザとスマホアプリの両方で使うことができます。ここではそれぞれのデバイスでDALL-E 3を使い、画像生成を行いました。
ブラウザ版ChatGPTのDALL-E3で画像生成してみた
実際にChatGPTでDALL-E 3を使い、プロンプトを入力して画像を出力してみます。以下のようなChatGPTのプロンプトを入力しました。
プロンプト「黒髪ショートの日本人女性」
すると「黒髪ショートの日本人女性」という内容から、DALL-E3用の英語でのプロンプトを考えてくれました。考えてくれました。
プロンプト
A Japanese woman with short black hair, capturing a modern and elegant appearance. Her hairstyle is chic and neatly trimmed, framing her face with precision. She wears a subtle, refined makeup that highlights her natural beauty, with a focus on her gentle and expressive eyes.
Her attire is fashionable yet timeless, embodying a blend of traditional elegance and contemporary style. The setting is minimalist, emphasizing her poised and serene demeanor, with natural light softly illuminating her features, creating a harmonious balance between shadow and light.
This portrait aims to convey the grace and sophistication of a Japanese woman, showcasing her confidence and cultural identity.
2024年4月現在では、DALL-E3で生成された画像に対して編集機能が与えられています。例えば、先ほど生成された黒髪ショートの女性をくっきり二重の目を一重に変えたいと思った場合は選択ツールを使って目元をカーソルで覆います。
目元をマウスでなぞり、プロンプトで「目を一重にしてください」と指定
どちらかといえば奥二重な黒髪ショートの日本人女性が生成されました。
プロンプト
A Japanese woman with short black hair, capturing a modern and elegant appearance. Her hairstyle is chic and neatly trimmed, framing her face with precision.
In this version, her eyes are monolid, which adds a distinct and authentic touch to her portrait, reflecting a common feature among many East Asian individuals. She wears subtle, refined makeup that highlights her natural beauty, focusing on her gentle and expressive monolid eyes. Her attire is fashionable yet timeless, blending traditional elegance with contemporary style.
The setting is minimalist, underlining her poised and serene demeanor, with natural light softly illuminating her features, creating a perfect balance of shadow and light. This portrait conveys the grace and sophistication of a Japanese woman, showcasing her confidence and cultural identity.」
今までのDALL-E3は同じプロンプトを入力しても、全く同じ画像は生成できませんでした。今では生成された画像から気になる部分を指定してより自分のイメージに近づけられるような細かな調整が可能となりました。
生成される画像は、リアル風 / アニメ・イラスト風 / CG風、と調整も可能です。
DALL-E 3で作られたAI画像は商標利用可かつ著作権フリーのため、AI美女をまとめた本をコンテンツとして売ることもできます。
スマホでChatGPTのDALL-E3で画像生成してみた
次に、スマホ版のChatGPTにてDALL-E3を使って猫の画像を生成してみました。
プロンプト「宇宙を旅する猫の画像を生成してください。」
・・・かわいいっ!プロンプト通り、宇宙を旅する猫の画像が生成されました。
りんごを食べるけど苦手な顔をする猫の画像を生成してください。
超不機嫌!なんなら今すぐにでも噛みつきそうな猫の画像が生成されました。
ちょっとありえないような組み合わせでプロンプトを入力したのですが、かなりの再現度でびっくりしました。
スマホ版ChatGPT+DALL-E3はこれだけ高精度な画像が簡単に生成できるのがメリットですが、生成速度はPC版のほうが早いと感じました。
DALL-E 3の「入力のニュアンスを正確に理解できる」という強みは本当なのか?
さて、次はDALL-E 3の推しポイントである「入力のニュアンスを正確に理解できる」は本当なのかを検証します。
以下の抽象的な画像を生成するプロンプトを入力し、Midjourneyと比較します。
A mysterious landscape in a dream, painted in watercolor. Floating islands and stars fill the space.
水彩画で描かれた、夢の中の不思議な風景。浮遊する島々と星々が空間を埋め尽くしている。
検証するポイントは、以下の5つです。
● 具体的な要素の確認:画像に「浮遊する島々と星々」という具体的な要素が明確に表示されているか
● スタイルの確認:生成された画像が「水彩画」のスタイルであるか
● テーマや雰囲気の照らし合わせ:画像が「夢の中の不思議な風景」というテーマや雰囲気を適切に反映しているか
● 詳細な要素のチェック:プロンプトに記された要素が全て画像に反映されているか
● 主観的な評価:プロンプトに合致していると感じるか
まずはDALL-E 3で作った画像がこちらです。
DALL-E 3の評価
- 具体的な要素の確認
画像は、光を放つ星々と、雲の上に浮かぶいくつかの島々を特徴としています。星々は夜空を美しく飾り、島々は夢のような雰囲気を漂わせており、「浮遊する島々と星々」という具体的な要素が鮮明に描かれています。
- スタイルの確認
画像は水彩画特有の滲みと柔らかな色合いを用いており、色の重なりや光のグラデーションが見事に表現されています。このスタイルは「水彩画」というスタイル要求を見事に満たしています。
- テーマや雰囲気の照らし合わせ
神秘的で幻想的な要素が強いこの画像は、まさに「夢の中の不思議な風景」というテーマを捉えています。雲と光の演出がこの雰囲気をさらに強調しています。
- 詳細な要素のチェック
プロンプトで要求された「浮遊する島々「星々」がはっきりと描かれていること、そして「水彩画」スタイルで表現されていることが確認できます。 - 主観的な評価
この画像は抽象的なプロンプトに見事に応えています。夢の中の風景という抽象的であり描く難しさにもかかわらず、DALL-E3によって生成された画像はそれらを巧みに表現しており、神秘的で夢想的な美しさは見る者をその場に引き込む力があります。
DALL-E 3によって生成された画像は、プロンプトの要求に非常によく応えていると評価できます。特に「夢の中の不思議な風景」や「浮遊する島々と星々」といった部分が明確に表現されており、これはDALL-E 3の高度な生成能力を示しています。
類似の画像生成サービスであるMidjourneryで作った画像はこちらです。
4枚全ての評価は難しいので、左上の画像だけについて言及しますが以下の通りです。
Midjourneyの評価
- 具体的な要素の確認
画像は、様々な大きさの島々が浮遊している様子と、その間を舞う星々が見事に捉えられています。月の光が雲を照らし出し、それぞれの島には緑豊かな樹木が描かれており、「浮遊する島々と星々」という要素を鮮明に反映しています。 - スタイルの確認
水彩画特有の色の流れや滲みがあり、明るい月光と星々によって生み出される光の効果が繊細に描かれています。色彩の豊かさと滲みによる境界の柔らかさが、スタイルは「水彩画」という要求を満たしていると言えるでしょう - テーマや雰囲気の照らし合わせ
画像は神秘的で夢のような雰囲気を持っており、静寂と平和を感じさせる空間を作り出しています。「夢の中の不思議な風景」というテーマに合致しています。 - 詳細な要素のチェック
画像はプロンプトに記述された要素、特に「浮遊する島々と星々」を包括しており、水彩画としての表現も適切になされています。 - 主観的な評価
この画像は、抽象的なプロンプトを実にうまく表現しており、夢幻的なシーンを鮮やかに捉えています。水彩画の技術を駆使して、視覚的にも感情的にも訴えかける作品に仕上がっています。全体として、幻想的で思索的な美しさを放っており、観る者に深い印象を与えるでしょう。
Midjourneyによって生成された画像も、その独自のスタイルでプロンプトの要求を満たしています。特に「水彩画」という部分に関しては、非常に繊細かつリアルな質感を持っており、この点での評価は高いです。
しかし、全体的な雰囲気やテーマに関しては、DALL-E 3がより「夢の中の不思議な風景」という部分を強調していると感じます。この点において、DALL-E 3は入力のニュアンスをより正確に理解し、それを画像として表現する能力に優れていると言えるでしょう。
今回はDALL-E3とMidjourneyで「入力のニュアンスを正確に理解できるか」を検証しましたが、ローカルでも画像生成ができるStable Diffusionとの比較も気になるところですね。
以上で、DALL-E 3の検証パートは終わりです。
なお、DALL-E3以外の画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
DALL-E 3のプロンプトを作るコツ
DALL-E3では、シンプルな日本語プロンプトでも精度の高い画像が作成できるような、独自の仕組みを持っています。
簡単な単語のプロンプトでも意味が通じるよう、ChatGPTが書き換えてくれているのです。思いついた日本語で指示をすれば大丈夫。より精度の高い画像を生成可能なプロンプトを教えます!
日本語入力した後に「rewrite natural English and then use this prompt」と入力すると、ユーザーが書いた日本語を英語に翻訳してプロンプトをChatGPTに命令できるので、「rewrite natural English and then use this prompt」を辞書登録して活用してみてください。
さらに精度の高い画像を作成するために、以下のコツを押さえておくと良いかもしれません。
具体的で明確な指示
頭の中のイメージを、なるべく正確な言葉で表現しましょう。
例えば「花」と指示するよりも「真っ赤な一輪のバラの花」と書いた方が正確に伝わります。
また、具体的で明確な指示を与えるためには、DALL-E 3の各所パラメータについての理解も必要です。
- プロンプト:プロンプトはどんな画像を生成するか指示を与える部分。プロンプトを具体的に詳細に記述することで、理想的な画像生成に近づけます。
- シード値:シード値は画像生成時に使われるランダムな値。同じ値を使えば同じ人物・モノの生成ができます。
- 生成ID:生成IDは生成された画像に割り当てられる識別子。生成IDを使うことで特定の画像を参照することができます。
- アスペクト比:アスペクト比は生成する画像の縦横比
また、それ以外にもプロンプトの与え方も重要です。
例えば「ゴッホのような作画でひまわりを描いてください」というプロンプトでは以下のような画像が生成されます。
これをもう少し生成AIが理解しやすい構造かデータの一種であるyaml形式で指示を与えてみます。
ひまわり:
スタイル: “ゴッホ風”
特徴:
– 鮮やかな黄色とオレンジの花びら
– 暗い背景で花を際立たせる
– 厚みのある筆触と渦を巻いたタッチ
配置:
– 花瓶にまとめられたひまわり
– 花瓶の形: 円筒形
– 花数: 12本
色:
背景: “暗い青または深い緑”
花瓶: “土色または淡い茶色”
花:
– 花びら: “黄色とオレンジ”
– 茎と葉: “緑”
光と影:
– 光源: “画面左上から差し込む自然光”
– 花びらの陰影: “強調された立体感”
テクスチャ:
– 筆触: “厚塗りで立体感がある”
– 花びらや茎にざらつき感と流れるような筆跡
雰囲気:
– 表現: “感情的で生き生きとした印象”
このプロンプトを与えた時の画像が以下です。
文章は私たち人間が理解しやすいデータですが、生成AIモデルが理解しやすいとは限りません。どちらかというと構造化データの方がわかりやすいため、構造化データでプロンプトを与えた方がより理想的な画像を生成することができるでしょう。
何度も修正をする
最初から完璧な絵を描こうとするよりも、柔軟に修正していくイメージを持つ方が良いかもしれません。
DALL-E3の特徴として「完成した画像に追加で指示を出して修正できる」という点があります。その特徴を最大限に活かして、トライアンドエラーで画像を作成しましょう。
ChatGPTを使ってプロンプトを作成する
ChatGPTのテキスト機能を使って、プロンプトを作成するのもオススメです。
チャットをしながら「〇〇の絵を描きたいんだけど、プロンプトはどうすればいい?」などと質問すれば、ChatGPTが答えを導き出してくれます。使える機能はどんどん活用しましょう。
シード値や画像IDを指定
シード値や画像IDを使うことで、理想とする画像に近づくことができます。前述しましたが、シード値と画像IDは同じ値を使えば生成する人物やモノは同一の状態で、周囲の環境のみを変更したりすることができます。
人物やモノは現状のままでいいんだけど、それ以外の環境を変更したいな、という場合にはシード値や画像IDをうまく使ってみてください。
一度に生成できる画像の枚数を増やす設定
一度に生成できる画像の枚数を増やすことで、バリエーションが豊富になります。
バリエーションが豊富になるということは、それだけ自分が理想とする画像が生成される確率が高くなります。
1枚の画像を生成するより、複数の画像を生成する方が時間はかかってしまいますが、何度も何度も画像生成を繰り返すよりも、生成枚数を増やして画像を生成した方が理想の画像に近づけるでしょう。
画像に文字を入れるプロンプトを利用
生成する画像に文字を入力することもあると思います。画像に文字を入れることはできますが、日本語を入力するよりも英語で入力をした方が精度は高いです。
一枚目は日本語で「自然」と入力されている石鹸を作って、というプロンプトです。
それに対して二枚目は「natural」と入力されている石鹸、というプロンプトです。
これだけでも日本語を含む画像の生成が苦手なのがわかります。
そのため、画像内に文字を入力したい時には英語で入力するようにプロンプトを出した方が良いでしょう。
画像のサイズを指定
画像サイズを指定することも大切です。
例えば人物の全身が写っている画像を生成したい場合には、1024×1024 (スクエア)よりも1024×1792 (フルボディ)の方が全身が写っている画像を生成できる可能性が高いです。
それに対して胸元より上の画像でよければ1024×1792 (フルボディ)にする必要はないので、生成したい画像に応じて画像サイズを指定することも重要です。
DALL-E 3のプロンプトの作成方法
上でも解説しましたが、プロンプトの作成にはChatGPTを活用するのが効果的です。例えば、ChatGPTに以下のような文章を打ち込んで、プロンプトを作成してもらいましょう。
「あなたはAIに関する経験が豊富な、優秀なプロンプトエンジニアです。
以下の「プロンプト作成のルール」に従って、DALL-E3に効果的な指示を与えるためのプロンプトを考えてください。
<プロンプト作成のルール>
- 具体的で明確な表現をすること
- 繊細で想像力豊かな画像を作成すること
- ビジュアルが鮮明になるよう色・形・動き・状況などを具体的に記述すること
何を書くかは、このあと指示します。よろしいですか?」
実際にChatGPTが作ってくれたプロンプトを使って、画像を生成してみましょう。
「食べたくなるような美味しいリンゴ」を描くためのプロンプトを考えてもらいます。
以下のようなプロンプトを作成してくれました。かなり詳細まで表現してくれています。プロンプトの修正が必要な場合は、改めて指示をしましょう。
今回は問題なさそうだったので、そのままDALL-E3に画像を作成してもらいます。
完成したのが、以下の画像です。
みずみずしいリンゴが鮮やかに描かれていますね!
ちなみに、事前に何も指定せず「食べたくなるような美味しいリンゴ」とだけ入力した場合は、以下のような画像になりました。
悪くはないですが、少し繊細さやリアルさに欠ける気がしますね。
描く内容によると思いますが、自分の目的に合わせてChatGPTを使いこなしてください。
DALL-E 3で使えるプロンプト例10選
プロンプトに迷った場合はChatGPTに任せても良いと思いますが、具体的な例のあった方がイメージしやすいかもしれません。
DALL-E3で絵を描くときに使いやすいプロンプト例を10個ご紹介しておきます。
影のような絵のプロンプト
プロンプト例
モノクロームの影絵スタイルで描かれた、動物のシルエットが特徴的な森の風景
影絵の美しさとシンプルさを強調するため、モノクロームで動物のシルエットを用いた森の風景を描きます。
アニメ風の絵のプロンプト
プロンプト例
明るく鮮やかな色彩のアニメスタイルで、都市の風景を背景に持つ元気な若者のグループ
アニメ独特の色彩と表現を活かし、都市風景と若者の活力ある姿を描きます。
リアルな絵のプロンプト
プロンプト例
詳細な質感とリアルな光の表現を用いた、朝日が昇る海辺の風景
リアリスティックな質感と光の表現を重視し、自然の美しさをリアルに描きます。
サイズ指定のプロンプト
プロンプト例
1024x1792サイズで、緑豊かな庭園を散策するエレガントな女性の全身像
特定のサイズに合わせて、風景と人物の関係を強調する全身像です。
アブストラクトな絵のプロンプト
プロンプト例
幾何学的な形と鮮やかな色彩を使った、抽象的な都市の風景画
抽象芸術の特徴である幾何学的形と、色の強調を用いた都市風景です。
水彩画スタイルのプロンプト
プロンプト例
柔らかい水彩画風で描かれた、春の花が咲く公園の風景
水彩画の独特の優しさと、透明感を活かした春の公園風景です。
ヴィンテージ風の絵のプロンプト
プロンプト例
セピア色を基調としたヴィンテージスタイルで描かれた、古い街並みと古典的な自動車
セピア色とヴィンテージな雰囲気で、古い街並みと車を描きます。
ファンタジー風の絵のプロンプト
プロンプト例
魔法と幻想的な生物が満ちる、カラフルで神秘的なファンタジーの世界
ファンタジーの要素を強調し、魔法や幻想的な生物を取り入れたカラフルな世界を表現します。
ポートレート風の絵のプロンプト
1792x1024サイズで、ロマンティックな光の中で微笑む若い女性のポートレート
特定のサイズで、ロマンティックな雰囲気の中にいる女性の表情を捉えたポートレート。
夜景の絵のプロンプト
夜空と星の光が反映される静かな湖の風景、周囲には点灯した街の灯りが見える
夜の美しさと静けさを表現し、湖面に映る星と街の灯りを特徴とする風景を描きます。
これらのプロンプトは、様々なスタイルやシチュエーションに対応するため役立ちます。ぜひ活用してみてください。
なお、DALL-E3の他のプロンプト例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
DALL-E 3の活用事例
ここからはDALL-3の活用事例についていくつか紹介します。
絵画のアイデア
DALL-E 3では画風の指示も反映してくれるため、絵画のデザインに活かすことができます。
感情表現を重視した抽象絵画もDALL-E 3を使った絵画のアイデアのひとつです。「喜び」や「孤独」、「希望」など特定の感情や気分を絵画に反映させることで、観る人の心に深く訴えかける画像が生まれます。
また、抽象的な指示をDALL-E 3に与えると、色彩や形状が感情を視覚的に表現するための要素として選ばれ、独創的な抽象絵画を生成することが可能。こうして、漠然としたイメージが鮮明なビジュアルに変換され、感情豊かな作品が完成します。
サムネイル作成
DALL-E 3を使うことで、視覚的にインパクトを与えるサムネイルの作成も可能です。
例えば、サムネイルのテーマが「シンプルで目立つデザイン」であれば、DALL-E 3に「シンプルで明るい背景に強調されたタイトルテキスト」「注目を集める色合いを使用したデザイン」などの指示を与えると、視認性が高くクリックを促すサムネイルが生成されます。
背景や色、イメージの配置に関する具体的なキーワードも付け加えることで、さらに意図に近いビジュアルを得やすいです。こうしたカスタマイズがDALL-E 3を使う大きな利点で、独自性の高いサムネイルが実現します。
広告作成
DALL–E 3では広告の作成も可能です。しかし、前述したように、日本語を表示させることは苦手なので、日本語テキストが必要な場合には、画像が生成された後に編集でテキストを入力するのがいいでしょう。
英語のテキストのみであれば、DALL-E 3のみで完結します。DALL-E 3を使うことで、ターゲットとしている年齢層に応じた広告を生成することができ、ブランドイメージに再的な画像を作ることができます
DALL-E 3によくある3つの質問
DALL-E 3に関してよくある3つの質問について回答します。
DALL-E 3は日本語で使えるか?
DALL-E 3は日本語でも問題なく使えます。
実際に日本語で指示した画像を提示してみましょう。
先ほどご紹介した画像は、占い師の画像をDALL-E 3に命じて生成してもらいました。プロンプトは「霊視と波動を扱える人」という抽象的な命令です。
そこから細かく調整していった結果、先ほどご紹介した男性の画像が出力されました。映画のワンシーンを切り抜いたと言われたら信じてしまうくらい出来がいいです。
将来、ここから生成した画像が動画として動くようになったらと考えると楽しみですね。
DALL-E 3は無料で使えるか?
DALL-E 3は無料で使えません。DALL-E 3を使いたい方は、ChatGPT4に課金が必要です。
ただ、DALL-E 3ならBing Image Creatorを。DALL-Eの場合はCanvaを使えば無料で利用できます。
DALL-E 3の利用制限回数は?
DALL-E 3に利用制限回数はありません。
しかし、2024年4月5日時点で、ChatGPT Plus自体に40メッセージ/3時間の制限があります。画像生成する際にクレジット上限などはありませんが、メッセージ上限のせいで実質制限がかかっている状態です。
なお、DALL-E 3の活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
DALL-E 3をChatGPTで使いこなそう!
DALL-E 3は2023年9月21日にOpenAI社が公開したばかりの最新の画像生成AIで、テキストプロンプトからその内容を反映した画像を生成するDALL-Eシリーズの最新版です。
Microsoft BingのImage Creatorと、ChatGPTのPlusとEnterpriseの2つの有料プラン向けに提供され、誰でも簡単にChatGPTでDALL-E 3を使用することができます。
先代のDALL・E2から大幅に進化しており、入力の認識能力だけでなく、生成画像も超高精細になっています。ぜひ活用してみてください。
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。