【InstaFlow】Stable Diffusionの40倍の速さで画像生成できるAIの使い方〜実践まで

2024-01-112024-07-12

皆さんは「InstaFlow」という超高速の画像生成AIをご存じですか？

Instaflowは、日本でもよく知られているStable Diffusionをベースに作られており、クオリティをそのままに、モデルの構造や生成方法の最適化をすることで、生成時間をなんと約10倍も早くしたものなんです！

今回はそんな皆さんの疑念を晴らすため、InstaFlowの概要や仕組み、想定される活用方法などの紹介をしていきます。

是非最後までご覧ください！

InstaFlowの概要

InstaFlowは、テキストから画像を生成するためのAIツールで、Stable Diffusionをベースに開発されています。Stable Diffusionで使用されているDiffusionモデルは、テキストから画像を生成する際に非常にクオリティの高い画像を生成できますが、推論時の計算上の制約が大きいため、生成に時間がかかるという課題がありました。

そこで、InstaFlowでは学習方法の工夫や生成方法の変更などを行うことによって課題を解決し、Stable Diffusionのクオリティをそのままに、画像の生成時間を約10倍ほど速くすることに成功しました！

そんなInstaFlowの特徴は以下の4つです。

超高速生成：InstaFlowはワンステップのジェネレータとして動作し、ノイズと呼ばれるランダムな情報を直接画像にマッピングすることで、画像生成の時間を大幅に短縮しています。
分かりやすく言うと、通常の画像生成ツールであれば10ステップかかるところを、InstaFlowは1ステップで完了できるということです。

高品質な画像生成：InstaFlowはStable Diffusionと同じくらいの高品質な画像を生成できます。これにより、細かいディテールやリアルなテクスチャも再現できます。

シンプルで効率的な学習：学習プロセスがシンプルで、教師あり学習のみを行います。また、事前に学習されたDiffusionモデルを活用するので、さらに効率的に学習できます。

直線的な生成：テキストを条件としたリフロー技術を使用して、直線的な生成確率の流れを作り出しています。これにより、複雑な計算や中間ステップを省略できます。

分かりやすく言うと、複雑な道を通らずに、直線的な短い道を選んで早く目的地に到着するみたいなイメージです。

また、InstaFlowは、高品質な画像を超高速で生成できるので、以下のような活用方法があると考えられます。

広告やマーケティング：企業や組織が、特定のキャンペーンやプロモーションのための高品質なビジュアルコンテンツを迅速かつ簡単に作成できると考えられます。

教育：先生や学生が、テキストベースの情報を視覚的に表現するために使用できると考えられます。例えば、言葉だけでは伝わりにくいような事も、このツールを使えば瞬時に画像にして視覚的に説明できます。

コンセプトアートの生成：デザイナーや映画制作者が、特定のシーンやキャラクターのコンセプトアートを思いついてすぐに視覚化するために使用できます。

この他にも色々なことにInstaFlowは活用できると考えられ、作業を大幅に効率化してくれるだけでなく、そのクオリティと迅速さによって、AIを使った新たなサービスの可能性を開拓してくれると確信しています！

この後は、InstaFlowの高品質・超高速生成を可能にしている、学習方法と生成方法について詳しく解説していきます。

なお、その他の生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【無料あり】画像生成AI！超おすすめの神ツール比較まとめ5選

Instaflowの仕組み

ここからは、Instaflowの学習方法および生成の仕組みについて詳しく分かりやすく説明していきます。

学習方法

Instaflowは以下のような手順で学習を行っています。

1. 基盤となるモデル
Instaflowの学習は「Stable Diffusion」という既存のモデルを基盤として開始します。このモデルは、前述したようにテキストから高品質の画像を生成する能力を持っていますが、生成時に計算上の制約があるため、そこを克服する学習を行います。

2. トリプレットの生成
Stable Diffusionを使って、（テキスト、ノイズ、画像）の3つの組み合わせ、いわゆる「トリプレット」を生成します。これを新しいモデルの学習データとして使用します。

もっと分かりやすく言うと、英語の文とそれに対応する正しい発音と意味を組み合わせたカードを作るみたいなイメージです。

3. 直線的な学習
生成されたトリプレットを使用して、ノイズと呼ばれるランダムな情報から画像への変換を直線的に学習します。これによって、複雑な中間ステップを省略でき、ワンステップで画像を生成できます。

4. 完成したInstaFlowモデル
上記の段階を経て、InstaFlowモデルが完成します。このモデルは、テキストからの情報とノイズをもとに、画像をワンステップで生成できます。

Instaflowは、既存の知識（既存モデル）をもとにすることで、効率的に学習をするとともに、複雑な計算や中間ステップを省略して、直線的に学習する事を可能にしたと言えます。

生成の仕組み

Instaflowの生成の仕組みについて説明します。

Instaflowはどのような仕組みでStable Diffusionをはるかに超える速さで画像を生成しているのでしょうか。

1. ノイズの役割：InstaFlowは、ランダムに生成されたノイズと呼ばれるデータを入力として使用します。先ほどから何回か出てきている言葉ですが、もっと砕いて言うとノイズはレシピの材料のようなもので、この材料を使って、画像を生成するという流れです。

2. テキストの指示：ユーザーから与えられたテキストの指示に基づいて、ノイズを特定の画像に変換します。

3. 条件付き生成：ユーザーが入力したテキストの指示を条件として使用することで、ノイズを直接画像にマッピングできます。これにより、複雑な中間ステップが省略され、生成時間を大幅に短縮できます。

このような学習や生成方法の工夫で、画像生成にかかる時間を10分の1ほどにしたInstaFlowは、まさに魔法のようなツールだと言っても良いでしょう！

しかしまだ研究段階で、公開はされていないようなので、実際に使えるようになる日が待ち遠しいです！

InstaFlowのサンプル紹介

本来であれば、実際にさわってみた感想をお伝えしたかったのですが、まだデモ版も公開されていないようなので、以下の公式GitHubページに載っているサンプルをいくつかピックアップして紹介します。

また、これまで解説してきた学習方法などの詳しい説明もここに載っていますので、もし興味のある方は是非ご覧ください。

参考ページ：InstaFlow! One-Step Stable Diffusion with Rectified Flow

InstaFlowには2つのバージョンがあるようで、それぞれInstaFlow!-0.9BとInstaFlow!-1.7Bと呼ばれています。

主な違いはモデルサイズです。1.7Bの方がより大きなモデルを持っていることから、よりクオリティの高い画像を生成できるようです。

バージョンの違いについての具体的な情報を表でまとめてみました。

	InstaFlow!-0.9B	InstaFlow!-1.7B
モデルサイズ	標準	標準より大きい
生成時間	0.09秒	0.12秒
画像品質	高品質	さらに高品質

生成時間や品質、生成ステップに関して説明したものが以下の画像です。

左が従来の生成ステップとInstaFlowの生成ステップの違いを表したもので、こうして画像で見るととても分かりやすいですね。

右の表は、横軸が生成時間で縦軸が「FID」というモデルの品質を評価する指標の値で、低いほど高品質ということになります。

この表からInstaFlowは、Stable Diffusionと同等の品質を維持しながら、大幅に生成時間を短縮できており、最先端のStyleGAN-Tと同等の性能を有することが分かります。

次に、実際の出力画像を紹介します。

まずはInstaFlow!-0.9Bから。

テキストでどのような指示を出したか載っていなかったのですが、かなり高精細な画像が出力されていることが分かります。

これが0.09秒で出力されるのですから驚きです。

次にInstaFlow!-1.7B。

こちらもどのような指示を出したのか不明ですが、1枚目の空や２枚目の滝のディテールが非常に細かく再現されており、２枚目に関しては写真と言われても納得してしまうほどです。

最後に、InstaFlow!-0.9BとStable Diffusionの生成時間の違いを比較したGIfを紹介します。

左がInstaFlow!-0.9Bで、右がStable Diffusionです。テキストプロンプトは、

“A photograph of a snowy mountain near a beautiful lake under sunshine.”です。

どちらもテキストの指示通りの画像を生成していますが、速度が全く違うことが分かります。

この比較は、速度の違いを直感的に理解できて非常に分かりやすいですね！

なお、Stable Diffusion搭載の画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Fooocus】人気1位の最新Stable Diffusion環境！使い方～実践まで

まとめ

InstaFlowはテキストから画像を生成するAIモデルで、Stable Diffusionをベースにそのクオリティを維持しながら、サンプリングプロセスを一つのステップに集約することで、生成時間を大幅に短縮し、超高速な画像生成を実現しています。

InstaFlowには、InstaFlow!-0.9BとInstaFlow!-1.7Bという2つの異なるモデルサイズのバージョンがあり、それぞれ生成速度を重視しているか、画像の品質を重視しているかの違いがあります。これにより、ユーザーは自身の要件に応じて最適なモデルを選択できます。

現在はまだ公開されておらず、実際に使用することはできませんが、InstaFlowの超高速・高品質な画像生成は、多くの活用方法があるため、今後多岐にわたるサービスやアプリケーションに導入されることが期待できます。

＼画像生成AIを商用利用する際はライセンスを確認しましょう／

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ