【MobileDiffusion】スマホで高精度画像が作れる画像生成AI！性能を徹底解説

AI応用編

2024-05-102024-07-10

MobileDiffusion スマホ高精度画像作れる画像生成AI 性能徹底解説

WEELメディア事業部AIライターの2scです。

みなさん！Googleの画像生成AI「MobileDiffusion」はご存知ですか？

MobileDiffusionはなんと、スマホ上で動く画像生成AIで……

参考：https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

このクオリティの画像を最短0.2秒で生成できちゃう優れものなんです。

当記事ではそんなMobileDiffusionの仕組みや従来からの改良点を徹底解説！エンコーダ / デコーダ等の専門用語も噛み砕いて、わかりやすくお届けします。

完読いただくと、画像生成AIの原理までつかめる……かも！ぜひ、最後までお読みください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

MobileDiffusionの概要

「MobileDiffusion」は、2023年11月にGoogleが発表した研究段階の画像生成AIです。（※1）その特徴・すごいところは……

● プロンプトから画像が生成できるText-to-Imageモデル
● スマートフォン上で、0.2秒以内に512×512画像が生成可能（※2）
● Stable Diffusion同様拡散モデルだが、パラメータ数は5億2000万とコンパクト
（→Stable Diffusion系は数十億）
● 既製の画像生成AIの学習結果を学習すること（蒸留）で、推論を8ステップにまで削減
● さらに拡散UNetの構成の見直しで、推論を1ステップにまで削減

以上のとおり。従来の画像生成AI比ではパラメータ数・推論のステップ数がそれぞれ削減されていますが、生成画像についても……

このように、申し分ないクオリティになっています。

MobileDiffusionの構成要素

MobileDiffusionはStable Diffusion（web UI） / DALL-E 3 / Midjourney同様、プロンプトから画像が生成できる「Text-to-Imageモデル」です。そんなMobileDiffusionは、他のText-to-Imageモデル同様……

テキストエンコーダ：プロンプトをベクトルに翻訳する
ディフュージョンネットワーク：ベクトルを参考に画像の大枠（潜在表現）を生成
画像デコーダ：画像の大枠から高精度な画像を生成

の3パートからなる「拡散UNet」を搭載しています。拡散UNetの各構成要素について、以下で詳しくみていきましょう！

テキストエンコーダ

画像生成AIの本体は画像の特徴を学習し、それをもとに新たな画像を生成するAIモデルに過ぎません。プロンプトを理解するためには別途、「テキストエンコーダ」が必要です。　

このテキストエンコーダは、プロンプトを（画像の特徴を表した）ベクトルに変換する役割を担います。人間と画像生成AIの間を取り持つ、いわば通訳です。

今回のMobileDiffusionも、このテキストエンコーダを搭載。具体的には、小型（125Mパラメータ）のテキストエンコーダ「CLIP-ViT/L14」を採用しています。

ディフュージョンネットワーク

画像の特徴を表したベクトルを参考にして、新たな画像を生成するのは「ディフュージョンネットワーク」の仕事。MobileDiffusionやStable Diffusionの名前は、この処理に由来しています。

このディフュージョンネットワークの仕組みは……

学習時：画像をまっさらなキャンバスに戻す（ノイズをかける）過程を学習する
画像生成時：学習した過程の逆処理で、荒削りな画像（潜在表現）を描画する

以上のとおりです。

画像デコーダ

ディフュージョンネットワークが生成する画像は荒削り。人間が制作した写真・イラストに近づけるには、あともう一段階「画像デコーダ」が必要です。

この画像デコーダは、ベクトルで表現された荒削りな画像（潜在表現）を精細なピクセル画像に変換するためのもの。MobileDiffusionは後述するように、専用に改良された画像デコーダを搭載しています。

なお、ベクトルの概念について詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

ChatGPTのベクトルデータベースとは？院生がわかりやすく解説 | WEEL ChatGPTのベクトルデータベースの概要について、従来のデータベースと比較しながら説明しています。AIについて研究している大学院生の方と協力して書きました。ChatGPTの専…

MobileDiffusionと従来型画像生成AIの違い

MobileDiffusionには、従来の画像生成AI（Stable Diffusion等）と比較して、3つの改良点があります。それは……

拡散UNetの構成：Transformerの割合を増やした
画像デコーダの種類：小型かつ高精度な画像デコーダを独自開発・採用した
学習の方法：既製の画像生成AIの学習結果を学習させた（蒸留）

以上のとおり。まずは、先ほども紹介した拡散UNetについて、詳しい改良点をみていきましょう！

拡散UNetの構成

MobileDiffusionの拡散UNetでは、従来型比でTransformer（ChatGPTと同じブレイン）の比率が増えています。

Transformerの比率が増えた結果、

高解像度における画像の特徴抽出のパートを省略、計算コストを削減
生成画像のクオリティはキープ

といったスペックが実現しました。一言でまとめると……

Transformer採用で賢くなったので、画像の特徴説明が省けるようになった

というわけです。

画像デコーダの種類

MobileDiffusionでは、生成画像の品質をブラッシュアップする画像デコーダにも改良が加わっています。Google独自開発の画像デコーダが採用されており……

Decoder	パラメータ数	PSNR↑	SSIM↑	LPIPS↓
Stable Diffusion の画像デコーダ	49.5M	26.7	0.76	0.037
MobileDiffusion の画像デコーダ	39.3M	30.0	0.83	0.032
MobileDiffusion の画像デコーダ（軽量版）	9.8M	30.2	0.84	0.032

指標の大まかな意味

パラメータ数：小さいほど処理が速い
PSNR（ピーク信号対雑音比）：大きいほど画像がキメ細やか
SSIM（構造的類似性指数）：大きいほど画像が目にみえて綺麗
LPIPS（Learned Perceptual Image Patch Similarity）：大きいほど入力に対する生成画像の再現度が高い

というふうにLPIPSはそのまま、処理速度・精度が従来比で改善しているんです。

学習の方法

MobileDiffusionでは、トレーニング回数が10,000回未満に抑えられています。その秘訣は学習に用いられた手法「蒸留」で……

従来型画像生成AIの学習方法：ゼロから、大量の画像を全て学習
MobileDiffusionの学習方法（蒸留）：既存のAIモデルを流用し、抽出済みの画像の要点だけを学習

このようにして、学習についても効率化がなされているんです。

なお、Apple発のスマホで動くマルチモーダルAIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Ferret-UI】Appleが開発したスマホ専用のマルチモーダルAI | WEEL WEELメディア事業部LLMリサーチャーの中田です。 4月9日、スマホのUI（画面）を理解するのに特化したマルチモーダル大規模言語モデル(MLLM)である「Ferret-UI」を、Appleが…

MobileDiffusionにできること

精度はそのまま、従来比で処理が軽くなったMobileDiffusion。そんなMobileDiffusionなら……

スマートフォン上での高速画像生成
スマートフォン上での高精度画像生成

が、可能です。それぞれ、以下で詳しくみていきましょう！

スマホ上での高速画像生成

MobileDiffusionなら、スマートフォン上でもたったの半秒ほどで画像が生成できます。

iPhone 15 ProおよびSamusung S24で、MobileDiffusionにおける画像生成までの待ち時間（Total Latency）を測ってみたところ……

このように、従来の画像生成AI（Stable Diffusion 1.5 / SnapFusion）比で大幅にスピードがUP。iPhone 15 Proにいたっては、なんと0.2秒で画像生成が完了しているんです。

スマホ上での高精度画像生成

MobileDiffusionは精度の面も抜かりありません。スマートフォン上でMobileDiffusionに画像を生成させると……

このように、リアルな画像が512×512サイズで返ってきます。

MobileDiffusion搭載のスマホは？

今回のMobileDiffusionを応用して、将来的には画像生成AIを搭載したスマートフォンが開発できるかもしれません。

実はすでに、Googleは小型LLM・Gemini Nanoを搭載した生成AIスマホ「Pixel 8 Pro」をリリース済み。Pixel 8 Proの時点で、

録音の文字起こしと要約
返信メールの文章生成
撮影した写真や動画の合成 / 加工…etc.

がオフラインのモバイル端末上で実現しています。ここに画像生成機能が加わるとなると……将来が楽しみですね！

なお、Pixel 8 Proを含むGeminiの活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Google Geminiのおすすめ活用事例】GPT-4超えAIの仕事が鬼捗る使い方10選 | WEEL Geminiの活用事例10選を紹介します。GeminiはGPT-4を上回る性能を持つマルチモーダルモデルと言われており、Google Bardにて誰でも無料で利用できます。Geminiの活用方法に…

スマホ上でサクサク画像生成できるMobileDiffusion

当記事ではスマートフォン上で動くGoogleの画像生成AI「MobileDiffusion」について解説しました。このMobileDiffusionの特徴・すごいところは……

● プロンプトから画像が生成できるText-to-Imageモデル
● スマートフォン上で、0.2秒以内に512×512画像が生成可能
● Stable Diffusion同様拡散モデルだが、パラメータ数は5億2000万とコンパクト
（→Stable Diffusion系は数十億）
● 既製の画像生成AIの学習結果を学習すること（蒸留）で、推論を8ステップにまで削減
● さらに拡散UNetの構成の見直しで、推論を1ステップにまで削減

以上のとおりでした。すでに生成AIスマホをリリースしているGoogleがこれを発表した、ということは……今後のPixelシリーズにも期待がもてそうですね。

参考記事

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ