FLUX.1で最新画像生成AIモデルを使ってトルコの無課金おじさんを生成してみた
2024年8月1日、「FLUX.1」という新たな画像生成AIが発表されました!
FLUX.1は「Stable Diffusion」の開発者たちが新たに立ち上げた会社「Black Forest Labs」が、新たに開発した画像生成AIです。FLUX.1の強みは、プロンプトの指示に忠実に従ってくれ、画像中に文字も入れられる点。
Black Forest LabsがFLUX.1を発表したXのポストは30万人以上の方々が見ており、非常に関心の高い画像生成AIであることがわかります。
本記事では、FLUX.1の使い方について、google colaboratoryでの実装方法、FLUX.1の3種類のモデルについて、実際にどういった画像が生成できるのかについて解説をします。
本記事を最後まで読むことで、google colaboratoryでFLUX.1を使えるようになるので、ぜひ最後までお読みください!
FLUX.1の概要
FLUX.1はStable Diffusionの開発者たちが新たに立ち上げた「Black Forest Labs」が発表した画像生成AIです。
FLUX.1は3種類のモデルが用意されています。
- Pro
- dev
- schnell
それぞれ解説します。
なお、ラフ絵をリアルタイムで高画質な画像生成ができる画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
FLUX.1 Pro
FLUX.1 ProはFLUX.1シリーズ最高モデルです。画像生成の入力プロンプトを忠実に再現し、見た目の美しさや画像の繊細さ、出力の多様性がProの魅力です。
FLUX.1 Proを使うにはAPI経由もしくはReplicate、fal.ai経由で使用します。
FLUX.1 Proを使うには、GitHubのサインインが必要です。もし使用を検討している場合には、GitHubのアカウントを用意しておきましょう。
Flex.1 Proで生成された画像はこちら。
この画像は14.1秒で生成されており、非常に高速かつ高品質な画像が生成できるのがよくわかります。
プロンプトは以下です。
「The world’s largest black forest cake,the size of a building,surrounded by tree of the black forest」
和訳:黒い森の木に囲まれた世界最大の黒い森のケーキ
プロンプトを忠実に再現していますね。
FLUX.1 dev
FLUX.1 devは非商用モデルです。
FLUX.1 devはFLUX.1 Proからガイダンス蒸留バリアントされています。そのため、Proと同等の品質と忠実なプロンプト再現を備えつつ、FLUX.1 Proよりも効率的に画像生成が可能。
FLUX.1 devを使用するには、Hugging FaceもしくはReplicate、fal.ai経由で使用します。
Replicate、fal.ai経由であれば、そのまま試すことができます。
FLUX.1 devで生成された画像がこちら。生成速度は12.3秒で、FLUX.1 devも高速かつ高品質な画像が生成できることがよくわかります。
プロンプトは以下です。
「black forest gateau cake spelling out the words “FLUX DEV”,tasty,food photography,dynamic shot」
和訳:FLUX DEVと書かれた黒い森のガトーケーキ、おいしい、料理写真、ダイナミックショット
FLUX.1 devでもプロンプトを忠実に再現しているのがわかります。
FLUX.1 schnell
FLUX.1 schnellは3モデルの中で最速のモデルです。ローカル環境での使用および個人開発向けに開発された、ガイダンスとステップ蒸留バリアントモデルです。
ステップ蒸留は画像生成プロセスのステップ数を減らすための技術。通常、拡散モデルなどは多数のステップを経て画像を生成しますが、FLUX.1 schnellでは画像生成プロセスをより少ないステップ数で行えるように最適化されています。
また、ガイダンスというのはガイダンス蒸留を指しており、より大きな「教師」モデルの知識をより小さな「生徒」モデルに転移させる技術を指します。ガイダンス蒸留の過程で、元のモデルのパフォーマンスを維持しつつモデルサイズを縮小したり推論速度を向上させることが可能です。
FLUX.1 schnellはFLUX.1 devと同様にHugging Faceで利用できます。
FLUX.1に用いられている技術
FLUX.1の全てのモデルで12Bパラメーターにスケールされたマルチモーダルおよびパラレル拡散変換ブロックのハイブリッドアーキテクチャに基づいています。
これらのモデルは、従来の拡散モデルに対して、概念的にシンプルな生成モデルのトレーニング方法であるフローマッチングに基づいて構築され、拡散を特別なケースとして含んでいます。
さらに、回転位置埋め込みと並列注意層を組み込むことで、モデルの性能を向上させ、ハードウェアの効率を改善しています。つまり、これらの技術を活用しているため、より高速により高品質に画像が生成できるということです。
- マルチモーダル:複数種類のデータを扱えることを指す。
- パラレル拡散変換ブロック:従来の拡散モデルとトランスフォーマーアーキテクチャを組み合わせ、並列処理を導入した新しいアプローチ
- ハイブリッドアーキテクチャ:複数の異なるアプローチや技術を組み合わせていることを意味。ここではマルチモーダルとパラレル拡散変換ブロック、トランスフォーマー構造を組み合わせたアーキテクチャであることを示しています。
- 回転位置埋め込み:シーケンス内の要素の相対位置を効果的にエンコード
- 並列注意層:注意機構の計算を並列化して処理速度を向上
それぞれ詳しい内容については、論文が出ているのでそちらも参考にしてください。
また、2024年10月3日にFLUXはバージョン1.1がリリースされています。
詳しく知りたい方は、以下の記事でFLUX1.1 [Pro]をご紹介していますので参考にしてみてください!
FLUX.1のライセンス
FLUX.1のライセンスはモデルによりそれぞれ異なります。
なお人気の画像生成AIツールについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
FLUX.1 Pro
FLUX.1 ProはAPIでのみ使用可能。APIにはレート制限がかけられており、制限に到達したらアクセスが制限されますが、どのくらいの回数かまでは明記されていません。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | 不明(明記なし) |
配布 | 不明(明記なし) |
特許使用 | 不明(明記なし) |
私的使用 | ⭕️ |
FLUX.1 dev
FLUX.1 devはNon-Commercial Licenseです。商用利用は不可ですが、個人使用や非商用研究、評価目的での使用は許可されています。
また、配布も可能ですが配布時にはライセンスのコピーを記載し、適切な帰属表示が必要です。
利用用途 | 可否 |
---|---|
商用利用 | ❌ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | 不明(明記なし) |
私的使用 | ⭕️ |
FLUX.1 schnell
FLUX.1 schnellのライセンスはApache License 2.0に基づいています。
配布をする場合、変更を加えた場合にはその旨を明示する必要があります。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | ⭕️ |
私的使用 | ⭕️ |
FLUX.1の料金
FLUX.1の利用料金は選択するモデルと利用方法によって異なります。
商用利用が可能なFLUX.1 [Pro]は有料モデルで、画像1枚あたり約0.05ドル(約8円)の料金がかかります。
以下はモデル別の料金表です。
モデル | 料金(1画像あたり) | 利用方法 |
---|---|---|
FLUX.1 [Pro] | 約0.05ドル / 1画像あたり | API, Replicate, fal.ai |
FLUX.1 [dev] | 無料 | Hugging Face, ローカル環境 |
FLUX.1 [schnell] | 無料 | Hugging Face, ローカル環境 |
ご自身のローカル環境で利用する場合は、基本的に追加料金は発生しませんが、具体的な料金プランや条件は、プラットフォームや利用方法によって異なるため、利用する際には最新の情報をチェックするようにしましょう。
FLUX.1の使い方
ここからは実際にgoogle colaboratoryを使ってFLUX.1を実装します。
実装するモデルはHugging Faceに掲載されているFLUX.1 schnellとdevです。
FLUX.1を動かすのに必要な動作環境
google colaboratoryで動かす際にGPUを使って動かす必要がありますが、無料版のGPUだとGPU RAMがオーバーしてしまうので、課金してA100で動かす必要があります。
■Pythonのバージョン
Python 3.8以上
■使用ディスク量
62.2GB
■システムRAMの使用量
21.7GB
■GPU RAMの使用量
25.6GB
FLUX.1 schnellの実装
まずはFLUX.1 schnellを実装します。Hugging Faceに詳細が書かれているので、そちらも参考にしてください。
基本的には以下のコードをコピペでプロンプトだけ変えればOKです。
状況に応じてStep数や画像サイズなどを変更してください。サンプルコードの条件では大体40秒くらいで画像生成が終了しました。
FLUX.1 schnellのコードはこちら
# パッケージのインストール
!pip install git+https://github.com/huggingface/diffusers.git
パイプライン準備のコードはこちら
import torch
from diffusers import FluxPipeline
# パイプラインの準備
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-schnell",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
画像生成のコードはこちら
# プロンプトの準備
prompt = "An emotive anime-style illustration of a contemplative scene in an expansive outdoor setting. The scene features a character sitting on a hill during sunset, overlooking a serene landscape with rolling hills, a distant forest, and a small river reflecting the orange and pink hues of the sky. The atmosphere is peaceful and introspective, capturing the essence of a quiet moment in nature."
# 画像生成の実行
out = pipe(
prompt=prompt,
guidance_scale=0.,
width=1024,
height=1024,
num_inference_steps=4,
max_sequence_length=256,
).images[0]
out.save("image.png")
生成された画像がこちら
FLUX.1 devの実装
次にFLUX.1 devを実装します。FLUX.1 devも一般公開されていますが、使用する場合にはHugging Faceにアクセスして連絡先情報を共有する必要があります。
Hugging Faceログインのコードはこちら
from huggingface_hub import login
login()
必要パッケージのインストールコードはこちら
# パッケージのインストール
!pip install git+https://github.com/huggingface/diffusers.git
パイプライン準備のコードはこちら
import torch
from diffusers import FluxPipeline
# パイプラインの準備
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-dev",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
画像生成の実行コードはこちら
# プロンプトの準備
prompt = "An emotive anime-style illustration of a contemplative scene in an expansive outdoor setting. The scene features a character sitting on a hill during sunset, overlooking a serene landscape with rolling hills, a distant forest, and a small river reflecting the orange and pink hues of the sky. The atmosphere is peaceful and introspective, capturing the essence of a quiet moment in nature."
# 画像生成の実行
out = pipe(
prompt=prompt,
guidance_scale=3.5,
width=1024,
height=1024,
num_inference_steps=50,
).images[0]
out.save("image.png")
実際に生成された画像がこちら
FLUX.1とStable Diffusion 3との比較
FLUX.1はプロンプトに忠実に従ってくれ、高品質な画像を生成できますが、他の画像生成AIと比較するとどうなのでしょうか?
今回はFLUX.1 ProとStable Diffusion 3で同じプロンプトを入力して、画像生成を3回繰り返して見ました。
FLUX.1 Proの実行例は、以下の通りです。
また、FLUX.1は画像内にテキストを入れることもできるので、文字ありバージョンと文字なしバージョンの2種類を生成しています。
花火大会の広告を作成させてみた
花火大会の開催日、開催時間、開催場所を明記して広告を作ってくださいと依頼をしてみます。
プロンプトは以下です。
「A visually stunning advertisement poster for a Japanese fireworks festival. The background features a beautiful night sky illuminated by vibrant fireworks of various colors. The poster includes event details such as the date ‘7.27’, the time ’19:00-20:30′, and the location in clear, modern typography. The design captures the excitement and festive atmosphere of a traditional Japanese summer fireworks display, with additional elements like a serene river, silhouetted bridges, and a crescent moon to enhance the visual appeal.」
和訳:日本の花火大会の広告ポスター。背景には、様々な色の花火に照らされた美しい夜空が描かれている。ポスターには、日付「7.27」、時間「19:00-20:30」、場所などのイベントの詳細が、明瞭でモダンなタイポグラフィで記載されています。日本の伝統的な夏の花火大会の興奮と祝祭の雰囲気を表現し、穏やかな川、シルエットの橋、三日月などの要素を加えて視覚的な魅力を高めています。
結果はこちらです。
パリ五輪で話題の「トルコの無課金おじさん」を生成させてみた
パリオリンピックで話題になった無課金トルコおじさんを生成させてみます。
文字なしバージョンのプロンプトは以下です。
「A realistic digital illustration of an athlete during a precision shooting event. The athlete has white hair, is wearing glasses and a white t-shirt with the word ‘TURKIYE’ on it, and is aiming a pistol straight ahead. The athlete’s left hand is in their pants pocket. The background shows a sports venue with a crowd of photographers and a blue banner that says ‘PARIS 2024.’ The overall mood is focused and intense, capturing the moment of concentration in a competitive sports setting.」
和訳:精密射撃競技中のアスリートのリアルなデジタルイラスト。選手は白髪で、眼鏡をかけ、「TURKIYE」と書かれた白いTシャツを着て、ピストルをまっすぐ前に向けている。選手の左手はズボンのポケットに入っている。背景には、大勢のカメラマンと『PARIS 2024』と書かれた青い横断幕が掲げられたスポーツ会場が映っている。全体的に集中した激しいムードで、競技スポーツの場での集中の瞬間をとらえている。
結果は以下の通りです。
比較結果の考察
FLUX.1 ProもStable Diffusion 3どちらも概ねプロンプトに従ってくれていますが、文字なしバージョン(トルコの無課金おじさん生成タスク)を比べてみるとFLUX.1 Proの方が再現性は高そうです。
というのも、Stable Diffusion 3では腕が3本生えてしまったり、Tシャツの文字がタブっていたりしているためです。
一方、文字ありバージョンの方(花火大会の広告生成タスク)では、どちらも日本語が文字化けのようになっています。もしかしたらFLUX.1 ProもStable Diffusion 3も日本語が苦手なのかもしれません。英語は明瞭に生成されているため、今後日本語の生成クオリティが改善するのに期待です。
なおStabilityAIの動画生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
まとめ
本記事ではBlack Forest Labsが新たにリリースしたFLUX.1について解説をしました。FLUX.1はgoogle colaboratory環境でも簡単に実行できるため、画像生成がより一層流行りそうですね。
また、生成時間も短くプロンプトを忠実に再現してくれるため、これまでの画像生成AIでは作成することができなかった画像も生成できるかもしれません。
ぜひこの機会にgoogle colaboratoryでFLUX.1を使ってみてください!
最後に
いかがだったでしょうか?
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。