【MobileDiffusion】スマホで高精度画像が作れる画像生成AI!性能を徹底解説

MobileDiffusion スマホ 高精度画像 作れる 画像生成AI 性能 徹底解説

WEELメディア事業部AIライターの2scです。

みなさん!Googleの画像生成AI「MobileDiffusion」はご存知ですか?

MobileDiffusionはなんと、スマホ上で動く画像生成AIで……

参考:https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

このクオリティの画像を最短0.2秒で生成できちゃう優れものなんです。

当記事ではそんなMobileDiffusionの仕組みや従来からの改良点を徹底解説!エンコーダ / デコーダ等の専門用語も噛み砕いて、わかりやすくお届けします。

完読いただくと、画像生成AIの原理までつかめる……かも!ぜひ、最後までお読みください。

目次

MobileDiffusionの概要

「MobileDiffusion」は、2023年11月にGoogleが発表した研究段階の画像生成AIです。(※1)その特徴・すごいところは……

● プロンプトから画像が生成できるText-to-Imageモデル
スマートフォン上で、0.2秒以内に512×512画像が生成可能(※2)
Stable Diffusion同様拡散モデルだが、パラメータ数は5億2000万とコンパクト
(→Stable Diffusion系は数十億)
● 既製の画像生成AIの学習結果を学習すること(蒸留)で、推論を8ステップにまで削減
● さらに拡散UNetの構成の見直しで、推論を1ステップにまで削減

以上のとおり。従来の画像生成AI比ではパラメータ数・推論のステップ数がそれぞれ削減されていますが、生成画像についても……

参考:https://arxiv.org/pdf/2311.16567

このように、申し分ないクオリティになっています。

MobileDiffusionの構成要素

MobileDiffusionはStable Diffusion(web UI) / DALL-E 3 / Midjourney同様、プロンプトから画像が生成できる「Text-to-Imageモデル」です。そんなMobileDiffusionは、他のText-to-Imageモデル同様……

  1. テキストエンコーダ:プロンプトをベクトルに翻訳する
  2. ディフュージョンネットワーク:ベクトルを参考に画像の大枠(潜在表現)を生成
  3. 画像デコーダ:画像の大枠から高精度な画像を生成

の3パートからなる「拡散UNet」を搭載しています。拡散UNetの各構成要素について、以下で詳しくみていきましょう!

テキストエンコーダ

画像生成AIの本体は画像の特徴を学習し、それをもとに新たな画像を生成するAIモデルに過ぎません。プロンプトを理解するためには別途、「テキストエンコーダ」が必要です。 

このテキストエンコーダは、プロンプトを(画像の特徴を表した)ベクトルに変換する役割を担います。人間と画像生成AIの間を取り持つ、いわば通訳です。

今回のMobileDiffusionも、このテキストエンコーダを搭載。具体的には、小型(125Mパラメータ)のテキストエンコーダ「CLIP-ViT/L14」を採用しています。

ディフュージョンネットワーク

画像の特徴を表したベクトルを参考にして、新たな画像を生成するのは「ディフュージョンネットワーク」の仕事。MobileDiffusionやStable Diffusionの名前は、この処理に由来しています。

このディフュージョンネットワークの仕組みは……

学習時:画像をまっさらなキャンバスに戻す(ノイズをかける)過程を学習する
画像生成時:学習した過程の逆処理で、荒削りな画像(潜在表現)を描画する

以上のとおりです。

画像デコーダ

ディフュージョンネットワークが生成する画像は荒削り。人間が制作した写真・イラストに近づけるには、あともう一段階「画像デコーダ」が必要です。

この画像デコーダは、ベクトルで表現された荒削りな画像(潜在表現)を精細なピクセル画像に変換するためのもの。MobileDiffusionは後述するように、専用に改良された画像デコーダを搭載しています。

なお、ベクトルの概念について詳しく知りたい方は、下記の記事を合わせてご確認ください。

MobileDiffusionと従来型画像生成AIの違い

MobileDiffusionには、従来の画像生成AI(Stable Diffusion等)と比較して、3つの改良点があります。それは……

  • 拡散UNetの構成:Transformerの割合を増やした
  • 画像デコーダの種類:小型かつ高精度な画像デコーダを独自開発・採用した
  • 学習の方法:既製の画像生成AIの学習結果を学習させた(蒸留)

以上のとおり。まずは、先ほども紹介した拡散UNetについて、詳しい改良点をみていきましょう!

拡散UNetの構成

MobileDiffusionの拡散UNetでは、従来型比でTransformer(ChatGPTと同じブレイン)の比率が増えています。

参考:https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

Transformerの比率が増えた結果、

  • 高解像度における画像の特徴抽出のパートを省略、計算コストを削減
  • 生成画像のクオリティはキープ

といったスペックが実現しました。一言でまとめると……

Transformer採用で賢くなったので、画像の特徴説明が省けるようになった

というわけです。

画像デコーダの種類

MobileDiffusionでは、生成画像の品質をブラッシュアップする画像デコーダにも改良が加わっています。Google独自開発の画像デコーダが採用されており……

Decoderパラメータ数  PSNR  SSIM  LPIPS↓ 
Stable Diffusion
の画像デコーダ
49.5M26.70.760.037
MobileDiffusion
の画像デコーダ
39.3M30.00.830.032
MobileDiffusion
の画像デコーダ(軽量版)
9.8M30.20.840.032
指標の大まかな意味
  • パラメータ数:小さいほど処理が速い
  • PSNR(ピーク信号対雑音比):大きいほど画像がキメ細やか
  • SSIM(構造的類似性指数):大きいほど画像が目にみえて綺麗
  • LPIPS(Learned Perceptual Image Patch Similarity):大きいほど入力に対する生成画像の再現度が高い

というふうにLPIPSはそのまま、処理速度・精度が従来比で改善しているんです。

学習の方法

MobileDiffusionでは、トレーニング回数が10,000回未満に抑えられています。その秘訣は学習に用いられた手法「蒸留」で……

参考:https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

従来型画像生成AIの学習方法:ゼロから、大量の画像を全て学習
MobileDiffusionの学習方法(蒸留):既存のAIモデルを流用し、抽出済みの画像の要点だけを学習

このようにして、学習についても効率化がなされているんです。

なお、Apple発のスマホで動くマルチモーダルAIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

MobileDiffusionにできること

精度はそのまま、従来比で処理が軽くなったMobileDiffusion。そんなMobileDiffusionなら……

  • スマートフォン上での高速画像生成
  • スマートフォン上での高精度画像生成

が、可能です。それぞれ、以下で詳しくみていきましょう!

スマホ上での高速画像生成

MobileDiffusionなら、スマートフォン上でもたったの半秒ほどで画像が生成できます。

iPhone 15 ProおよびSamusung S24で、MobileDiffusionにおける画像生成までの待ち時間(Total Latency)を測ってみたところ……

参考:https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

このように、従来の画像生成AI(Stable Diffusion 1.5 / SnapFusion)比で大幅にスピードがUP。iPhone 15 Proにいたっては、なんと0.2秒で画像生成が完了しているんです。

スマホ上での高精度画像生成

MobileDiffusionは精度の面も抜かりありません。スマートフォン上でMobileDiffusionに画像を生成させると……

参考:https://research.google/blog/mobilediffusion-rapid-text-to-image-generation-on-device/

このように、リアルな画像が512×512サイズで返ってきます。

MobileDiffusion搭載のスマホは?

今回のMobileDiffusionを応用して、将来的には画像生成AIを搭載したスマートフォンが開発できるかもしれません。

実はすでに、Googleは小型LLM・Gemini Nanoを搭載した生成AIスマホ「Pixel 8 Pro」をリリース済み。Pixel 8 Proの時点で、

  • 録音の文字起こしと要約
  • 返信メールの文章生成
  • 撮影した写真や動画の合成 / 加工…etc.

がオフラインのモバイル端末上で実現しています。ここに画像生成機能が加わるとなると……将来が楽しみですね!

なお、Pixel 8 Proを含むGeminiの活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。

スマホ上でサクサク画像生成できるMobileDiffusion

当記事ではスマートフォン上で動くGoogleの画像生成AI「MobileDiffusion」について解説しました。このMobileDiffusionの特徴・すごいところは……

● プロンプトから画像が生成できるText-to-Imageモデル
スマートフォン上で、0.2秒以内に512×512画像が生成可能
● Stable Diffusion同様拡散モデルだが、パラメータ数は5億2000万とコンパクト
(→Stable Diffusion系は数十億)
● 既製の画像生成AIの学習結果を学習すること(蒸留)で、推論を8ステップにまで削減
● さらに拡散UNetの構成の見直しで、推論を1ステップにまで削減

以上のとおりでした。すでに生成AIスマホをリリースしているGoogleがこれを発表した、ということは……今後のPixelシリーズにも期待がもてそうですね。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
商用利用可能な画像生成AIレポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 2sc

    テクニカルライター 大学時代はアリの生態を研究。 ラボで唯一、Pythonを使ってデータ分析を効率化していた。 現在はライターとして、オウンドメディアや学術記事の執筆に当たっている。

  • URLをコピーしました!
  • URLをコピーしました!
目次