【FLUX.1】最新画像生成AIモデルを使ってトルコの無課金おじさんを生成してみた

FLUX.1 Stable-Diffusion ライバルAI 使って トルコ 無課金おじさん 生成してみた

2024年8月1日、「FLUX.1」という新たな画像生成AIが発表されました!

FLUX.1は「Stable Diffusion」の開発者たちが新たに立ち上げた会社「Black Forest Labs」が、新たに開発した画像生成AIです。FLUX.1の強みは、プロンプトの指示に忠実に従ってくれ、画像中に文字も入れられる点。

Black Forest LabsがFLUX.1を発表したXのポストは30万人以上の方々が見ており、非常に関心の高い画像生成AIであることがわかります。

本記事では、FLUX.1の使い方について、google colaboratoryでの実装方法、FLUX.1の3種類のモデルについて、実際にどういった画像が生成できるのかについて解説をします。

本記事を最後まで読むことで、google colaboratoryでFLUX.1を使えるようになるので、ぜひ最後までお読みください!

目次

FLUX.1の概要

FLUX.1はStable Diffusionの開発者たちが新たに立ち上げた「Black Forest Labs」が発表した画像生成AIです。

FLUX.1は3種類のモデルが用意されています。

  • Pro
  • dev
  • schnell

それぞれ解説します。

なお、ラフ絵をリアルタイムで高画質な画像生成ができる画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL
【img2img-turbo-sketch】ラフスケッチからリアルタイムで高画質な画像を生成! | WEEL Stable Diffusionなどのようにプロンプトを入力して、画像を生成するAIサービスは増えています。しかし、手書きの絵からリアルな画像を生成できるAIサービスがリリースされ...

FLUX.1 Pro

FLUX.1 ProはFLUX.1シリーズ最高モデルです。画像生成の入力プロンプトを忠実に再現し、見た目の美しさや画像の繊細さ、出力の多様性がProの魅力です。

FLUX.1 Proを使うにはAPI経由もしくはReplicatefal.ai経由で使用します。

参考:https://replicate.com/black-forest-labs/flux-pro

FLUX.1 Proを使うには、GitHubのサインインが必要です。もし使用を検討している場合には、GitHubのアカウントを用意しておきましょう。

Flex.1 Proで生成された画像はこちら。

参考:https://replicate.com/black-forest-labs/flux-pro

この画像は14.1秒で生成されており、非常に高速かつ高品質な画像が生成できるのがよくわかります。

プロンプトは以下です。

「The world’s largest black forest cake,the size of a building,surrounded by tree of the black forest」

和訳:黒い森の木に囲まれた世界最大の黒い森のケーキ

プロンプトを忠実に再現していますね。

FLUX.1 dev

FLUX.1 devは非商用モデルです。

FLUX.1 devはFLUX.1 Proからガイダンス蒸留バリアントされています。そのため、Proと同等の品質と忠実なプロンプト再現を備えつつ、FLUX.1 Proよりも効率的に画像生成が可能。

FLUX.1 devを使用するには、Hugging FaceもしくはReplicatefal.ai経由で使用します。

Replicatefal.ai経由であれば、そのまま試すことができます。

FLUX.1 devで生成された画像がこちら。生成速度は12.3秒で、FLUX.1 devも高速かつ高品質な画像が生成できることがよくわかります。

参考:https://replicate.com/black-forest-labs/flux-dev

プロンプトは以下です。

「black forest gateau cake spelling out the words “FLUX DEV”,tasty,food photography,dynamic shot」

和訳:FLUX DEVと書かれた黒い森のガトーケーキ、おいしい、料理写真、ダイナミックショット

FLUX.1 devでもプロンプトを忠実に再現しているのがわかります。

FLUX.1 schnell

FLUX.1 schnellは3モデルの中で最速のモデルです。ローカル環境での使用および個人開発向けに開発された、ガイダンスとステップ蒸留バリアントモデルです。

ステップ蒸留は画像生成プロセスのステップ数を減らすための技術。通常、拡散モデルなどは多数のステップを経て画像を生成しますが、FLUX.1 schnellでは画像生成プロセスをより少ないステップ数で行えるように最適化されています。

また、ガイダンスというのはガイダンス蒸留を指しており、より大きな「教師」モデルの知識をより小さな「生徒」モデルに転移させる技術を指します。ガイダンス蒸留の過程で、元のモデルのパフォーマンスを維持しつつモデルサイズを縮小したり推論速度を向上させることが可能です。

FLUX.1 schnellはFLUX.1 devと同様にHugging Faceで利用できます。

FLUX.1に用いられている技術

FLUX.1の全てのモデルで12Bパラメーターにスケールされたマルチモーダルおよびパラレル拡散変換ブロックのハイブリッドアーキテクチャに基づいています。

これらのモデルは、従来の拡散モデルに対して、概念的にシンプルな生成モデルのトレーニング方法であるフローマッチングに基づいて構築され、拡散を特別なケースとして含んでいます。

さらに、回転位置埋め込みと並列注意層を組み込むことで、モデルの性能を向上させ、ハードウェアの効率を改善しています。つまり、これらの技術を活用しているため、より高速により高品質に画像が生成できるということです。

  • マルチモーダル:複数種類のデータを扱えることを指す。
  • パラレル拡散変換ブロック:従来の拡散モデルとトランスフォーマーアーキテクチャを組み合わせ、並列処理を導入した新しいアプローチ
  • ハイブリッドアーキテクチャ:複数の異なるアプローチや技術を組み合わせていることを意味。ここではマルチモーダルとパラレル拡散変換ブロック、トランスフォーマー構造を組み合わせたアーキテクチャであることを示しています。
  • 回転位置埋め込み:シーケンス内の要素の相対位置を効果的にエンコード
  • 並列注意層:注意機構の計算を並列化して処理速度を向上

    それぞれ詳しい内容については、論文が出ているのでそちらも参考にしてください。

FLUX.1のライセンス

FLUX.1のライセンスはモデルによりそれぞれ異なります。

なお人気の画像生成AIツールについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL
【Fooocus】人気1位の最強画像生成AIツール!使い方・インストール方法~実践まで | WEEL 本記事では、Fooocusという画像生成ツールの概要や導入方法、そして実際に触ってみた感想を紹介します。無料で、しかも簡単にハイクオリティな画像が作れる優れもの。最新...

FLUX.1 Pro

FLUX.1 ProはAPIでのみ使用可能。APIにはレート制限がかけられており、制限に到達したらアクセスが制限されますが、どのくらいの回数かまでは明記されていません。

利用用途可否
商用利用⭕️
改変不明(明記なし)
配布不明(明記なし)
特許使用不明(明記なし)
私的使用⭕️
参考:https://docs.bfl.ml/agreement/

FLUX.1 dev

FLUX.1 devはNon-Commercial Licenseです。商用利用は不可ですが、個人使用や非商用研究、評価目的での使用は許可されています。

また、配布も可能ですが配布時にはライセンスのコピーを記載し、適切な帰属表示が必要です。

利用用途可否
商用利用
改変⭕️
配布⭕️
特許使用不明(明記なし)
私的使用⭕️
参考:https://github.com/black-forest-labs/flux/blob/main/model_licenses/LICENSE-FLUX1-dev

FLUX.1 schnell

FLUX.1 schnellのライセンスはApache License 2.0に基づいています。

配布をする場合、変更を加えた場合にはその旨を明示する必要があります。

利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用⭕️
私的使用⭕️
参考:https://github.com/black-forest-labs/flux/blob/main/model_licenses/LICENSE-FLUX1-schnell

FLUX.1の使い方

ここからは実際にgoogle colaboratoryを使ってFLUX.1を実装します。

実装するモデルはHugging Faceに掲載されているFLUX.1 schnellとdevです。

FLUX.1を動かすのに必要な動作環境

google colaboratoryで動かす際にGPUを使って動かす必要がありますが、無料版のGPUだとGPU RAMがオーバーしてしまうので、課金してA100で動かす必要があります。

■Pythonのバージョン
Python 3.8以上

■使用ディスク量
62.2GB

■システムRAMの使用量
21.7GB

■GPU RAMの使用量
25.6GB

FLUX.1 schnellの実装

まずはFLUX.1 schnellを実装します。Hugging Faceに詳細が書かれているので、そちらも参考にしてください。

基本的には以下のコードをコピペでプロンプトだけ変えればOKです。

状況に応じてStep数や画像サイズなどを変更してください。サンプルコードの条件では大体40秒くらいで画像生成が終了しました。

FLUX.1 schnellのコードはこちら
# パッケージのインストール
!pip install git+https://github.com/huggingface/diffusers.git
パイプライン準備のコードはこちら
import torch
from diffusers import  FluxPipeline

# パイプラインの準備
pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-schnell", 
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
画像生成のコードはこちら
# プロンプトの準備
prompt = "An emotive anime-style illustration of a contemplative scene in an expansive outdoor setting. The scene features a character sitting on a hill during sunset, overlooking a serene landscape with rolling hills, a distant forest, and a small river reflecting the orange and pink hues of the sky. The atmosphere is peaceful and introspective, capturing the essence of a quiet moment in nature."

# 画像生成の実行
out = pipe(
    prompt=prompt, 
    guidance_scale=0., 
    width=1024, 
    height=1024, 
    num_inference_steps=4, 
    max_sequence_length=256,
).images[0]
out.save("image.png")

生成された画像がこちら

FLUX.1 devの実装

次にFLUX.1 devを実装します。FLUX.1 devも一般公開されていますが、使用する場合にはHugging Faceにアクセスして連絡先情報を共有する必要があります。

参考:https://huggingface.co/black-forest-labs/FLUX.1-dev
Hugging Faceログインのコードはこちら
from huggingface_hub import login
login()
必要パッケージのインストールコードはこちら
# パッケージのインストール
!pip install git+https://github.com/huggingface/diffusers.git
パイプライン準備のコードはこちら
import torch
from diffusers import  FluxPipeline

# パイプラインの準備
pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
画像生成の実行コードはこちら
# プロンプトの準備
prompt = "An emotive anime-style illustration of a contemplative scene in an expansive outdoor setting. The scene features a character sitting on a hill during sunset, overlooking a serene landscape with rolling hills, a distant forest, and a small river reflecting the orange and pink hues of the sky. The atmosphere is peaceful and introspective, capturing the essence of a quiet moment in nature."

# 画像生成の実行
out = pipe(
    prompt=prompt,
    guidance_scale=3.5,
    width=1024,
    height=1024,
    num_inference_steps=50,
).images[0]
out.save("image.png")

実際に生成された画像がこちら

FLUX.1とStable Diffusion 3との比較

FLUX.1はプロンプトに忠実に従ってくれ、高品質な画像を生成できますが、他の画像生成AIと比較するとどうなのでしょうか?

今回はFLUX.1 ProとStable Diffusion 3で同じプロンプトを入力して、画像生成を3回繰り返して見ました。

FLUX.1 Proの実行例は、以下の通りです。

また、FLUX.1は画像内にテキストを入れることもできるので、文字ありバージョンと文字なしバージョンの2種類を生成しています。

花火大会の広告を作成させてみた

花火大会の開催日、開催時間、開催場所を明記して広告を作ってくださいと依頼をしてみます。

プロンプトは以下です。

A visually stunning advertisement poster for a Japanese fireworks festival. The background features a beautiful night sky illuminated by vibrant fireworks of various colors. The poster includes event details such as the date ‘7.27’, the time ’19:00-20:30′, and the location in clear, modern typography. The design captures the excitement and festive atmosphere of a traditional Japanese summer fireworks display, with additional elements like a serene river, silhouetted bridges, and a crescent moon to enhance the visual appeal.

和訳:日本の花火大会の広告ポスター。背景には、様々な色の花火に照らされた美しい夜空が描かれている。ポスターには、日付「7.27」、時間「19:00-20:30」、場所などのイベントの詳細が、明瞭でモダンなタイポグラフィで記載されています。日本の伝統的な夏の花火大会の興奮と祝祭の雰囲気を表現し、穏やかな川、シルエットの橋、三日月などの要素を加えて視覚的な魅力を高めています。

結果はこちらです。

パリ五輪で話題の「トルコの無課金おじさん」を生成させてみた

パリオリンピックで話題になった無課金トルコおじさんを生成させてみます。

文字なしバージョンのプロンプトは以下です。

A realistic digital illustration of an athlete during a precision shooting event. The athlete has white hair, is wearing glasses and a white t-shirt with the word ‘TURKIYE’ on it, and is aiming a pistol straight ahead. The athlete’s left hand is in their pants pocket. The background shows a sports venue with a crowd of photographers and a blue banner that says ‘PARIS 2024.’ The overall mood is focused and intense, capturing the moment of concentration in a competitive sports setting.

和訳:精密射撃競技中のアスリートのリアルなデジタルイラスト。選手は白髪で、眼鏡をかけ、「TURKIYE」と書かれた白いTシャツを着て、ピストルをまっすぐ前に向けている。選手の左手はズボンのポケットに入っている。背景には、大勢のカメラマンと『PARIS 2024』と書かれた青い横断幕が掲げられたスポーツ会場が映っている。全体的に集中した激しいムードで、競技スポーツの場での集中の瞬間をとらえている。

結果は以下の通りです。

比較結果の考察

FLUX.1 ProもStable Diffusion 3どちらも概ねプロンプトに従ってくれていますが、文字なしバージョン(トルコの無課金おじさん生成タスク)を比べてみるとFLUX.1 Proの方が再現性は高そうです。

というのも、Stable Diffusion 3では腕が3本生えてしまったり、Tシャツの文字がタブっていたりしているためです。

一方、文字ありバージョンの方(花火大会の広告生成タスク)では、どちらも日本語が文字化けのようになっています。もしかしたらFLUX.1 ProもStable Diffusion 3も日本語が苦手なのかもしれません。英語は明瞭に生成されているため、今後日本語の生成クオリティが改善するのに期待です。

なおStabilityAIの動画生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL
【Stable Video 4D】1つの動画からマルチアングルやビューを生成! | WEEL 2024年7月25日にStability AIから新たなAIモデルが登場しました! 新たに登場したStable Video 4Dはこれまでにない画期的なAIモデル。1本の入力動画から8つの異なる角度/視...

まとめ

本記事ではBlack Forest Labsが新たにリリースしたFLUX.1について解説をしました。FLUX.1はgoogle colaboratory環境でも簡単に実行できるため、画像生成がより一層はやりそうですね。

また、生成時間も短くプロンプトを忠実に再現してくれるため、これまでの画像生成AIでは作成することができなかった画像も生成できるかもしれません。

ぜひgoogle colaboratoryを使ってFLUX.1を楽しんでください。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • URLをコピーしました!
  • URLをコピーしました!
目次