【最新】FLUX1.1[pro]で最新画像生成AIモデルを使ってトルコの無課金おじさんを生成してみた
2024年8月1日、「FLUX1」という新たな画像生成AIが発表されました!
FLUX.1は「Stable Diffusion」の開発者たちが新たに立ち上げた会社「Black Forest Labs」が、新たに開発した画像生成AIです。FLUX.1の強みは、プロンプトの指示に忠実に従ってくれ、画像中に文字も入れられる点。
Black Forest LabsがFLUX.1を発表したXのポストは30万人以上の方々が見ており、非常に関心の高い画像生成AIであることがわかります。
本記事では、FLUX.1の使い方について、google colaboratoryでの実装方法、FLUX.1の3種類のモデルについて、実際にどういった画像が生成できるのかについて解説をします。
本記事を最後まで読むことで、google colaboratoryでFLUX.1を使えるようになるので、ぜひ最後までお読みください!
FLUX.1の概要
FLUX.1はStable Diffusionの開発者たちが新たに立ち上げた「Black Forest Labs」が発表した画像生成AIです。
FLUX.1は3種類のモデルが用意されています。
- Pro
- dev
- schnell
それぞれ解説します。
なお、ラフ絵をリアルタイムで高画質な画像生成ができる画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
FLUX.1 Pro
FLUX.1 ProはFLUX.1シリーズ最高モデルです。画像生成の入力プロンプトを忠実に再現し、見た目の美しさや画像の繊細さ、出力の多様性がProの魅力です。
FLUX.1 Proを使うにはAPI経由もしくはReplicate、fal.ai経由で使用します。
FLUX.1 Proを使うには、GitHubのサインインが必要です。もし使用を検討している場合には、GitHubのアカウントを用意しておきましょう。
Flex.1 Proで生成された画像はこちら。
この画像は14.1秒で生成されており、非常に高速かつ高品質な画像が生成できるのがよくわかります。
プロンプトは以下です。
「The world’s largest black forest cake,the size of a building,surrounded by tree of the black forest」
和訳:黒い森の木に囲まれた世界最大の黒い森のケーキ
プロンプトを忠実に再現していますね。
FLUX.1 dev
FLUX.1 devは非商用モデルです。
FLUX.1 devはFLUX.1 Proからガイダンス蒸留バリアントされています。そのため、Proと同等の品質と忠実なプロンプト再現を備えつつ、FLUX.1 Proよりも効率的に画像生成が可能。
FLUX.1 devを使用するには、Hugging FaceもしくはReplicate、fal.ai経由で使用します。
Replicate、fal.ai経由であれば、そのまま試すことができます。
FLUX.1 devで生成された画像がこちら。生成速度は12.3秒で、FLUX.1 devも高速かつ高品質な画像が生成できることがよくわかります。
プロンプトは以下です。
「black forest gateau cake spelling out the words “FLUX DEV”,tasty,food photography,dynamic shot」
和訳:FLUX DEVと書かれた黒い森のガトーケーキ、おいしい、料理写真、ダイナミックショット
FLUX.1 devでもプロンプトを忠実に再現しているのがわかります。
FLUX.1 schnell
FLUX.1 schnellは3モデルの中で最速のモデルです。ローカル環境での使用および個人開発向けに開発された、ガイダンスとステップ蒸留バリアントモデルです。
ステップ蒸留は画像生成プロセスのステップ数を減らすための技術。通常、拡散モデルなどは多数のステップを経て画像を生成しますが、FLUX.1 schnellでは画像生成プロセスをより少ないステップ数で行えるように最適化されています。
また、ガイダンスというのはガイダンス蒸留を指しており、より大きな「教師」モデルの知識をより小さな「生徒」モデルに転移させる技術を指します。ガイダンス蒸留の過程で、元のモデルのパフォーマンスを維持しつつモデルサイズを縮小したり推論速度を向上させることが可能です。
FLUX.1 schnellはFLUX.1 devと同様にHugging Faceで利用できます。
FLUX.1に用いられている技術
FLUX.1の全てのモデルで12Bパラメーターにスケールされたマルチモーダルおよびパラレル拡散変換ブロックのハイブリッドアーキテクチャに基づいています。
これらのモデルは、従来の拡散モデルに対して、概念的にシンプルな生成モデルのトレーニング方法であるフローマッチングに基づいて構築され、拡散を特別なケースとして含んでいます。
さらに、回転位置埋め込みと並列注意層を組み込むことで、モデルの性能を向上させ、ハードウェアの効率を改善しています。つまり、これらの技術を活用しているため、より高速により高品質に画像が生成できるということです。
- マルチモーダル:複数種類のデータを扱えることを指す。
- パラレル拡散変換ブロック:従来の拡散モデルとトランスフォーマーアーキテクチャを組み合わせ、並列処理を導入した新しいアプローチ
- ハイブリッドアーキテクチャ:複数の異なるアプローチや技術を組み合わせていることを意味。ここではマルチモーダルとパラレル拡散変換ブロック、トランスフォーマー構造を組み合わせたアーキテクチャであることを示しています。
- 回転位置埋め込み:シーケンス内の要素の相対位置を効果的にエンコード
- 並列注意層:注意機構の計算を並列化して処理速度を向上
それぞれ詳しい内容については、論文が出ているのでそちらも参考にしてください。
FLUX.1のライセンス
FLUX.1のライセンスはモデルによりそれぞれ異なります。
なお人気の画像生成AIツールについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
FLUX.1 Pro
FLUX.1 ProはAPIでのみ使用可能。APIにはレート制限がかけられており、制限に到達したらアクセスが制限されますが、どのくらいの回数かまでは明記されていません。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | 不明(明記なし) |
配布 | 不明(明記なし) |
特許使用 | 不明(明記なし) |
私的使用 | ⭕️ |
FLUX.1 dev
FLUX.1 devはNon-Commercial Licenseです。商用利用は不可ですが、個人使用や非商用研究、評価目的での使用は許可されています。
また、配布も可能ですが配布時にはライセンスのコピーを記載し、適切な帰属表示が必要です。
利用用途 | 可否 |
---|---|
商用利用 | ❌ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | 不明(明記なし) |
私的使用 | ⭕️ |
FLUX.1 schnell
FLUX.1 schnellのライセンスはApache License 2.0に基づいています。
配布をする場合、変更を加えた場合にはその旨を明示する必要があります。
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | ⭕️ |
私的使用 | ⭕️ |
FLUX.1の使い方
ここからは実際にgoogle colaboratoryを使ってFLUX.1を実装します。
実装するモデルはHugging Faceに掲載されているFLUX.1 schnellとdevです。
FLUX.1を動かすのに必要な動作環境
google colaboratoryで動かす際にGPUを使って動かす必要がありますが、無料版のGPUだとGPU RAMがオーバーしてしまうので、課金してA100で動かす必要があります。
■Pythonのバージョン
Python 3.8以上
■使用ディスク量
62.2GB
■システムRAMの使用量
21.7GB
■GPU RAMの使用量
25.6GB
FLUX.1 schnellの実装
まずはFLUX.1 schnellを実装します。Hugging Faceに詳細が書かれているので、そちらも参考にしてください。
基本的には以下のコードをコピペでプロンプトだけ変えればOKです。
状況に応じてStep数や画像サイズなどを変更してください。サンプルコードの条件では大体40秒くらいで画像生成が終了しました。
FLUX.1 schnellのコードはこちら
# パッケージのインストール
!pip install git+https://github.com/huggingface/diffusers.git
パイプライン準備のコードはこちら
import torch
from diffusers import FluxPipeline
# パイプラインの準備
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-schnell",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
画像生成のコードはこちら
# プロンプトの準備
prompt = "An emotive anime-style illustration of a contemplative scene in an expansive outdoor setting. The scene features a character sitting on a hill during sunset, overlooking a serene landscape with rolling hills, a distant forest, and a small river reflecting the orange and pink hues of the sky. The atmosphere is peaceful and introspective, capturing the essence of a quiet moment in nature."
# 画像生成の実行
out = pipe(
prompt=prompt,
guidance_scale=0.,
width=1024,
height=1024,
num_inference_steps=4,
max_sequence_length=256,
).images[0]
out.save("image.png")
生成された画像がこちら
FLUX.1 devの実装
次にFLUX.1 devを実装します。FLUX.1 devも一般公開されていますが、使用する場合にはHugging Faceにアクセスして連絡先情報を共有する必要があります。
Hugging Faceログインのコードはこちら
from huggingface_hub import login
login()
必要パッケージのインストールコードはこちら
# パッケージのインストール
!pip install git+https://github.com/huggingface/diffusers.git
パイプライン準備のコードはこちら
import torch
from diffusers import FluxPipeline
# パイプラインの準備
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-dev",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
画像生成の実行コードはこちら
# プロンプトの準備
prompt = "An emotive anime-style illustration of a contemplative scene in an expansive outdoor setting. The scene features a character sitting on a hill during sunset, overlooking a serene landscape with rolling hills, a distant forest, and a small river reflecting the orange and pink hues of the sky. The atmosphere is peaceful and introspective, capturing the essence of a quiet moment in nature."
# 画像生成の実行
out = pipe(
prompt=prompt,
guidance_scale=3.5,
width=1024,
height=1024,
num_inference_steps=50,
).images[0]
out.save("image.png")
実際に生成された画像がこちら
FLUX.1とStable Diffusion 3との比較
FLUX.1はプロンプトに忠実に従ってくれ、高品質な画像を生成できますが、他の画像生成AIと比較するとどうなのでしょうか?
今回はFLUX.1 ProとStable Diffusion 3で同じプロンプトを入力して、画像生成を3回繰り返して見ました。
FLUX.1 Proの実行例は、以下の通りです。
また、FLUX.1は画像内にテキストを入れることもできるので、文字ありバージョンと文字なしバージョンの2種類を生成しています。
花火大会の広告を作成させてみた
花火大会の開催日、開催時間、開催場所を明記して広告を作ってくださいと依頼をしてみます。
プロンプトは以下です。
「A visually stunning advertisement poster for a Japanese fireworks festival. The background features a beautiful night sky illuminated by vibrant fireworks of various colors. The poster includes event details such as the date ‘7.27’, the time ’19:00-20:30′, and the location in clear, modern typography. The design captures the excitement and festive atmosphere of a traditional Japanese summer fireworks display, with additional elements like a serene river, silhouetted bridges, and a crescent moon to enhance the visual appeal.」
和訳:日本の花火大会の広告ポスター。背景には、様々な色の花火に照らされた美しい夜空が描かれている。ポスターには、日付「7.27」、時間「19:00-20:30」、場所などのイベントの詳細が、明瞭でモダンなタイポグラフィで記載されています。日本の伝統的な夏の花火大会の興奮と祝祭の雰囲気を表現し、穏やかな川、シルエットの橋、三日月などの要素を加えて視覚的な魅力を高めています。
結果はこちらです。
パリ五輪で話題の「トルコの無課金おじさん」を生成させてみた
パリオリンピックで話題になった無課金トルコおじさんを生成させてみます。
文字なしバージョンのプロンプトは以下です。
「A realistic digital illustration of an athlete during a precision shooting event. The athlete has white hair, is wearing glasses and a white t-shirt with the word ‘TURKIYE’ on it, and is aiming a pistol straight ahead. The athlete’s left hand is in their pants pocket. The background shows a sports venue with a crowd of photographers and a blue banner that says ‘PARIS 2024.’ The overall mood is focused and intense, capturing the moment of concentration in a competitive sports setting.」
和訳:精密射撃競技中のアスリートのリアルなデジタルイラスト。選手は白髪で、眼鏡をかけ、「TURKIYE」と書かれた白いTシャツを着て、ピストルをまっすぐ前に向けている。選手の左手はズボンのポケットに入っている。背景には、大勢のカメラマンと『PARIS 2024』と書かれた青い横断幕が掲げられたスポーツ会場が映っている。全体的に集中した激しいムードで、競技スポーツの場での集中の瞬間をとらえている。
結果は以下の通りです。
比較結果の考察
FLUX.1 ProもStable Diffusion 3どちらも概ねプロンプトに従ってくれていますが、文字なしバージョン(トルコの無課金おじさん生成タスク)を比べてみるとFLUX.1 Proの方が再現性は高そうです。
というのも、Stable Diffusion 3では腕が3本生えてしまったり、Tシャツの文字がタブっていたりしているためです。
一方、文字ありバージョンの方(花火大会の広告生成タスク)では、どちらも日本語が文字化けのようになっています。もしかしたらFLUX.1 ProもStable Diffusion 3も日本語が苦手なのかもしれません。英語は明瞭に生成されているため、今後日本語の生成クオリティが改善するのに期待です。
なおStabilityAIの動画生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【2024年10月】FLUX1.1 [pro]が公開!
2024年10月3日にBlack Forest Labsが新たにFLUX1.1 [pro]をリリースしました!
FLUX1.1 [pro]はFLUX.1 [pro] に比べ、画像の生成速度が6倍になっており、非常に高速化されています。また、新たな機能も搭載されており、FLUX.1 [pro] に比べ使いやすく、ユーザーが意図した画像を生成可能です。
ここからはFLUX1.1 [pro]について、詳しく紹介します!
FLUX1.1 [pro]の概要
FLUX1.1 [pro]はFLUX.1 [pro] よりも 生成速度が6 倍速く、画像品質、プロンプトの再現性、出力の多様性が改善。
また、FLUX1.1 [pro] は、新しいプロンプトアップサンプリング機能を搭載しており、ユーザーのプロンプトをより詳細なプロンプトに自動的に拡張することで、より多様な出力を得られるようになっています。さらに、FLUX.1 [pro] も生成速度が 2 倍に高速化され、品質は維持されています。
FLUX1.1 [pro]は、開発コードネーム「blueberry」として、テキスト画像生成モデルの一般的なベンチマークであるArtificial Analysis image arenaでテストされています。
その結果、FLUX1.1 [pro]は、リーダーボード上の他のすべてのモデルを凌駕し、最高の総合Eloスコアを達成。 これは、FLUX1.1 [pro]が現在利用可能なオープンソースの画像生成モデルの中で最も優れたモデルであることを示しています。
参考:https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/
プロンプトアップサンプリング: FLUX1.1 [pro]には、プロンプトアップサンプリング機能が搭載されています。これは、大規模言語モデルを使用してプロンプトを自動的に拡張し、より長く詳細なものにすることで、より多様な出力を得られるようにするものです。
●高速高解像度生成: FLUX1.1 [pro]は、高速な超高解像度生成をネイティブにサポートしており、近日中にAPIで利用できるようになります。これにより、最大2kの画像を生成することが可能。
FLUX1.1 [pro]の使い方
FLUX1.1 [pro]は以下のプラットフォームで利用可能。
●BFL API: Black Forest Labs独自のAPIであり、開発者や企業が最先端の画像生成機能を独自のアプリケーションに統合することを可能にします。BFL APIは、高度なカスタマイズオプション、優れたスケーラビリティを提供。FLUX1.1 [pro]の価格は、画像1枚あたり4セントです。
●Replicate: FLUX1.1 [pro]は、Replicateプラットフォームでも利用可能。ReplicateでのFLUX1.1 [pro]の価格は、画像1枚あたり0.04ドルです。
●その他のプラットフォーム: FLUX1.1 [pro]は、Together.ai、fal.ai、Freepikでも利用できるようになる予定です。
FLUX1.1 [pro]を実際に使ってみた
今回はReplicateでFLUX1.1 [pro]を使っていきます。
Replicateで画像を生成する場合、GitHubへのサインインが必要です。また、サインイン後は支払いクレジットカードの登録も必要になりますので、ReplicateでFLUX1.1 [pro]を使う場合には、登録をしておきましょう。
クレジットカードの登録が正常に完了すれば、プロンプトを入力できるようになります。
FLUX.1とStable Diffusion 3との比較をしているので、同じプロンプトをFLUX1.1 [pro]にも入力して、生成される画像を比較してみます。
生成された画像を比較してみると、かなり画質がよくなっていることがわかるかと思います。そしてかなりリアリティがあります。一枚の画像を生成するのにかかる時間は20秒くらいです。20秒と聞くと長いと感じる方もいるかもしれません。
しかし、このクオリティで20秒はかなり短いと思います。
FLUX.1とStable Diffusion 3に比べても断然パフォーマンスが良いのはFLUX1.1 [pro]ということがわかるでしょう。
文字ありのバージョンでは、3枚目で意味の伝わる内容になっており、FLUX.1よりもプロンプトの再現性も向上している印象を受けます。ただ、日本の花火大会のポスターとして指定をしているのですが、日本語の出力は英語に比べるとまだ精度が低いのかもしれません。
まとめ
本記事ではBlack Forest Labsが新たにリリースしたFLUX.1について解説をしました。FLUX.1はgoogle colaboratory環境でも簡単に実行できるため、画像生成がより一層はやりそうですね。
また、生成時間も短くプロンプトを忠実に再現してくれるため、これまでの画像生成AIでは作成することができなかった画像も生成できるかもしれません。
ぜひgoogle colaboratoryを使ってFLUX.1を楽しんでください。
また、FLUX1.1 [pro]がリリースされたので、FLUX1.1 [pro]の使い方についても紹介をしました。FLUX1.1 [pro]で生成される画像は、かなりリアリティのある画像で、画質もかなり改善しているので、ぜひ使ってみてください。
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。