【DiffusionGemma】テキスト生成が4倍速に!Googleの拡散型オープンモデルの仕組み・使い方を徹底解説

DiffusionGemma テキスト 生成 4倍速 Google 拡散型 オープンモデル 仕組み 使い方 徹底 解説
押さえておきたいポイント
  • Google DeepMindが、テキスト拡散(Diffusion)方式を採用した実験的オープンモデル「DiffusionGemma」を公開
  • 従来の自己回帰型LLMと比較して、専用GPU上で最大4倍の高速テキスト生成を実現
  • Apache 2.0ライセンスで公開され、量子化すれば18GB VRAMのコンシューマGPUでもローカル実行が可能

2026年6月11日、Google DeepMindはテキスト拡散ベースの実験的オープンモデル「DiffusionGemma」を公開しました!

トークンを1つずつ生成する従来のLLMとは根本的に異なり、256トークンのブロック全体を同時に生成するという新たなアプローチで、専用GPU上では最大4倍の高速推論を達成しています。

「ローカルGPUでそこまで速くなるのか」と驚く方も多いのではないでしょうか。この記事では、DiffusionGemmaの概要から技術的な仕組み、料金・ライセンス体系、具体的な使い方、業界別の活用シーンまで徹底的に解説します。ぜひ、最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

目次

DiffusionGemmaとは?

DiffusionGemmaとは?
参考:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

DiffusionGemmaは、Google DeepMindが2026年6月11日に公開したテキスト拡散(Text Diffusion)ベースの実験的オープンモデルです。

従来の大規模言語モデル(LLM)は、トークンを1つずつ左から右へ順番に生成する「自己回帰(Autoregressive)」方式を採用してきました。DiffusionGemmaはこの発想を根本から覆し、256トークンのブロック全体を同時並行で生成するという新しいアプローチを採用しています。

モデルの基盤にはGemma 4ファミリーのアーキテクチャが使われており、総パラメータ数は26B(260億)のMixture of Experts(MoE)構成です。推論時に実際に動作するのはわずか3.8Bパラメータにとどまるため、量子化することでNVIDIA GeForce RTX 5090やRTX 4090といったハイエンドコンシューマGPUの18GB VRAM内に収まる設計となっています。

Google公式ブログでは「速度が求められるインタラクティブなローカルワークフロー向け」と位置づけられていて、インラインの編集やコードの穴埋め(Infilling)、高速な反復作業などがユースケースとして想定されています。ライセンスはApache 2.0と非常に寛容で、商用利用や改変も自由にできる点が開発者にとって大きな魅力でしょう。

ただし、Google自身も「出力品質の面では従来の自己回帰型Gemma 4モデルに劣る」と明言しており、あくまでスピード特化型の実験的なモデルであることには留意が必要です。最高品質が求められるプロダクション環境では、引き続き標準のGemma 4が推奨されています。

DiffusionGemmaの仕組み

DiffusionGemmaの仕組み

DiffusionGemmaの動作原理は、画像生成AIでおなじみの拡散モデル(Diffusion Model)をテキスト生成に応用した「離散拡散(Discrete Diffusion)」がベースになっています。

具体的には、エンコーダ・デコーダアーキテクチャブロック自己回帰拡散(Block Autoregressive Diffusion)という2つの仕組みが組み合わされています。

まずエンコーダがプロンプトを処理してKVキャッシュ(コンテキスト情報)を生成し、デコーダが256トークン分の「キャンバス(Canvas)」と呼ばれる生成領域に対して双方向アテンション(Bidirectional Attention)を適用します。

DiffusionGemmaの仕組み
参考:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

テキスト生成のプロセスは、画像の拡散モデルと非常に似ています。最初にランダムなプレースホルダートークンで埋められたキャンバスを用意し、そこから複数回のデノイジング(ノイズ除去)パスを繰り返します。各パスで確信度の高いトークンを確定させ、それらをヒントとして残りのトークンをさらに精製していく流れです。最終的には、キャンバス全体が高品質なテキストに収束します。

256トークンを超える長い出力を生成する場合は、1つのキャンバスが完全にデノイジングされた時点でKVキャッシュに追加し、次の新しいキャンバスの生成に移行します。これがブロック自己回帰拡散の仕組みで、並列処理の速度と自己回帰型モデルの安定性を両立させています。

MoE構成は128個のエキスパートのうち8個をアクティブにする設計(+共有エキスパート1個)で、ビジョンエンコーダ(約550Mパラメータ)も搭載しており、テキストだけでなく画像や動画の入力にも対応するマルチモーダルモデルです。

DiffusionGemmaの特徴

DiffusionGemmaの特徴
参考:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

DiffusionGemmaには、従来の自己回帰型モデルにはない独自の強みがいくつもあります。

まず注目すべきは圧倒的な推論速度です。NVIDIA H100上で毎秒1,000トークン以上、コンシューマ向けのRTX 5090でも毎秒700トークン以上という数値が公式に報告されています。1回のフォワードパスで15〜20トークンを同時に生成できるため、ローカル推論時のレイテンシが大幅に削減されます。

次に、双方向アテンションによるインテリジェントな自己修正が挙げられます。自己回帰型モデルは左から右への一方向的な処理しかできませんが、DiffusionGemmaはキャンバス上の全トークンが互いを参照できます。この仕組みにより、生成途中の文脈矛盾を自動的に検知・修正し、複雑なMarkdownフォーマットやコードブロックをリアルタイムで整形することが可能です。

さらに、適応的推論時間計算(Adaptive Inference Time Computation)という特徴もユニークです。単純なプロンプトやコード生成のような構造化タスクではデノイジングステップが少なく済むため、タスクの複雑さに応じて動的に処理速度が変化します。

DiffusionGemmaの特徴
参考:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

ベンチマークスコアに目を向けると、MMLU Proで77.6%、GPQA Diamondで73.2%、LiveCodeBench v6で69.1%と、スピード特化モデルとしてはかなりの実力を持っています。ただし、標準のGemma 4 26B A4Bと比較するとすべてのベンチマークでスコアが下回っている点は覚えておくべきでしょう。

コンテキストウィンドウは最大256Kトークンに対応し、思考モード(Thinking Mode)も搭載されています。35言語以上のマルチリンガル対応、関数呼び出し(Function Calling)のネイティブサポートなど、実験的モデルでありながら機能面は非常に充実しています。

X上で話題沸騰!「ローカルLLMの常識を変える」と注目される理由

DiffusionGemmaの公開直後から、X上では開発者やAIリサーチャーの間で大きな反響が広がっています。

今回解説する事例において、弊社がX(旧Twitter)で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

GGUF量子化モデルの提供をいち早く発表した上記のポストは大きな注目を集め、「18GB RAMでローカル実行可能な拡散テキストモデル」という手軽さが話題の中心になっています。

Google CEOのSundar Pichai氏も自身のXアカウントで「DiffusionGemmaは競走馬(racehorse)だ」と表現し、トークンを1つずつ予測する従来方式と比較してテキストブロック全体を一括生成する速度感をアピールしています。

特にX上で盛り上がっているのは、ファインチューニングで数独(Sudoku)を解けるようになった事例です。

自己回帰型モデルでは各セルの値が後続のセルに依存するため数独の解法が困難でしたが、DiffusionGemmaの双方向アテンションを活用することで正答率が0%から80%にまで向上したという結果が報告されています。この事例は「拡散モデルが推論タスクでも優位性を持つ」ことを示す具体例として衝撃を与えています。

また、「コンシューマGPUで毎秒1,000トークン超えの推論が可能」というスペックに対して、ローカルAI推論の実用性が一気に高まるとの声も上がっています。クラウドに依存しないローカル推論への関心がますます高まるなか、DiffusionGemmaはその流れを加速させる存在として位置づけられつつあります。

DiffusionGemmaの安全性・制約

DiffusionGemmaは、Google DeepMindの自社プロプライエタリモデルであるGeminiと同等の安全性評価プロセスを経て公開されています。

学習データに含まれうる社会的・文化的バイアスへの対策として、入力データの前処理やポストトレーニング評価が実施されている旨がモデルカードに明記されています。また、虚偽・誤解を招く・有害なテキストの生成リスクに対しては、Responsible Generative AI Toolkitのガイドラインに沿った使用が推奨されています。

制約面として最も重要なのは、出力品質が標準のGemma 4を下回るという点です。スピードを最優先した設計のため、プロダクション品質が必要な用途では標準Gemma 4の使用が推奨されています。また、高QPS(秒間クエリ数)のクラウドサービング環境では自己回帰型モデルが効率的に計算資源を使い切れるため、DiffusionGemmaの速度優位はローカルかつ少バッチ推論に限定される点にも注意が必要です。

さらに、Apple Siliconのようなユニファイドメモリアーキテクチャのデバイスでは、メモリ帯域幅がボトルネックとなりやすいため、自己回帰型モデルと比較した速度向上が限定的になる可能性がある旨も公式の注釈として明記されています。

DiffusionGemmaの料金

DiffusionGemmaはオープンウェイトモデルとして公開されているため、ローカル環境で実行する場合は基本的に無料で利用できます。ただし、クラウド経由でのアクセスにはプラットフォームごとの料金体系が適用されるため、利用方法に応じた費用感を把握しておくことが大切です。

スクロールできます
利用方法料金備考
Hugging Faceからウェイトをダウンロード無料Apache 2.0ライセンス
ローカルGPU実行(vLLM、Transformers、llama.cpp等)無料対応GPUが必要(推奨:RTX 5090/4090/H100等)
Google Cloud Model GardenGoogle Cloud料金に準拠Gemini Enterprise Agent Platform経由
NVIDIA NIMNVIDIA利用規約に準拠NVIDIA NIMカタログ経由
NVIDIA build.nvidia.com API無料枠ありテスト・プロトタイピング用
DiffusionGemmaの料金

2026年6月時点では、モデルウェイト自体はApache 2.0ライセンスのもと完全無料で公開されています。そのため、ローカルに対応するGPUさえあればトークン単位の課金は一切発生しません。クラウドでの利用を検討する場合は、Google CloudやNVIDIA NIMの最新料金ページを確認することをおすすめします。

DiffusionGemmaのライセンス

DiffusionGemmaはApache 2.0ライセンスのもとで公開されているため、オープンソースモデルの中でも特に利用条件が寛容です。商用プロジェクトや独自モデルの開発基盤として採用する際にも、法的なハードルが低い点は大きなメリットといえるでしょう。

スクロールできます
項目可否
商用利用⭕️
改変⭕️
再配布⭕️
特許利用⭕️
私的利用⭕️
DiffusionGemmaのライセンス

Apache 2.0ライセンスには明示的な特許付与条項が含まれており、特許関連の法的リスクが軽減される点も見逃せません。コードの改変や商用サービスへの組み込み、再配布も自由に行えるため、エンタープライズ環境での導入検討がしやすいライセンス体系となっています。ライセンスの変更リスクを気にすることなく、安心して開発に取り組めるでしょう。

DiffusionGemmaの使い方

DiffusionGemmaは複数の方法で実行できます。今回は、代表的な3つの方法をステップバイステップで解説していきます。

DiffusionGemmaの使い方

Hugging Face Transformersで実行する方法

最もシンプルにDiffusionGemmaを試す方法は、Hugging Face Transformersを使ったPythonコードからの実行です。

STEP
ライブラリインストール

まず、transformersライブラリの最新版をインストールします。

pip install -U transformers
STEP
モデルのロードとテキスト生成実行

続いて、以下のPythonコードでモデルをロードし、テキスト生成を実行します。

from transformers import AutoProcessor, AutoModelForMultimodalLM

processor = AutoProcessor.from_pretrained("google/diffusiongemma-26B-A4B-it")
model = AutoModelForMultimodalLM.from_pretrained("google/diffusiongemma-26B-A4B-it")

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "Pythonでフィボナッチ数列を生成する関数を書いてください"}
        ]
    },
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

画像入力を伴うマルチモーダルなプロンプトにも対応しています。その場合は、contentに{"type": "image", "url": "画像URL"}を追加するだけでOKです。

vLLMでサーバーとして起動する方法

高スループットの推論サーバーを構築したい場合は、vLLMの利用が便利です。DiffusionGemmaはvLLMのDay-Zeroサポートに対応しています。

STEP
vLLMインストール

まず、vLLMをインストールします。

pip install vllm
STEP
モデルをサーバーとして起動

次に、以下のコマンドでモデルをサーバーとして起動します。

vllm serve "google/diffusiongemma-26B-A4B-it"
STEP
リクエスト送信

サーバーが起動したら、OpenAI互換のAPIとしてリクエストを送信できます。

curl -X POST "http://localhost:8000/v1/chat/completions" \
  -H "Content-Type: application/json" \
  --data '{
    "model": "google/diffusiongemma-26B-A4B-it",
    "messages": [
      {
        "role": "user",
        "content": "DiffusionGemmaの特徴を3つ教えてください"
      }
    ]
  }'

llama.cpp(GGUF量子化版)でローカル実行する方法

VRAMの制約がある環境では、Unslothが提供するGGUF量子化版を使ったllama.cppでの実行が最適です。4-bit量子化(UD-Q4_K_XL)で約18GBのRAMに収まります。

STEP
クローン・ビルド

まず、llama.cppのDiffusionGemma対応ブランチをクローン・ビルドします。

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
gh pr checkout 24423
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli
STEP
モデルのダウンロード

続いて、モデルのダウンロードと実行です。

pip install huggingface_hub hf_transfer
huggingface-cli download unsloth/diffusiongemma-26B-A4B-it-GGUF \
  --include "diffusiongemma-26B-A4B-it-UD-Q4_K_XL*" \
  --local-dir models
STEP
対話的に生成をスタート

最後に、以下のコマンドで対話的に生成を開始します。

./build/bin/llama-diffusion-cli \
  -m models/diffusiongemma-26B-A4B-it-UD-Q4_K_XL.gguf \
  -p "日本語で自己紹介をしてください" \
  -n 256

拡散プロセスをリアルタイムで可視化したい場合は、--diffusion-visualオプションを追加すると、トークンがノイズから収束していく様子を確認できます。

なお、DiffusionGemmaではGemma 4と同様の思考モード(Thinking Mode)も利用可能です。システムプロンプトの冒頭に<|think|>トークンを配置することで有効化できます。

【業界別】DiffusionGemmaの活用シーン

DiffusionGemmaの高速かつ双方向的なテキスト生成という特性は、さまざまな業界で新しい活用の可能性を開きます。ここからは、特に相性の良い業界別のシーンを見ていきましょう。

ソフトウェア開発・エンジニアリング

DiffusionGemmaの最大の強みであるコードインフィリング機能は、IDEのインラインコード補完をリアルタイムで行う場面に最適です。

既存コードの途中に新しいロジックを挿入する際、双方向アテンションにより前後の文脈を同時に参照できるため、自己回帰型モデルよりも自然な補完結果が得られます。ローカルGPU上で毎秒数百トークンの速度で動作するため、クラウドAPIへのレイテンシを気にする必要がなく、開発の反復サイクルを大幅に短縮できるでしょう。

生成AIを搭載したSaaSについて、詳しく知りたい方は以下の記事も参考にしてみてください。

創薬・バイオインフォマティクス

アミノ酸配列の生成は、DiffusionGemmaの双方向アテンションが本領を発揮する典型的な非線形構造のタスクです。タンパク質の配列設計では、離れた位置にあるアミノ酸同士が空間的に近接して相互作用するケースが多く、一方向的な生成では考慮しきれない依存関係をブロック全体の同時最適化で捉えられる可能性があります。

研究段階ではありますが、構造予測や候補配列のスクリーニングにおいて新たなアプローチが期待されます。

なお、医療・薬業界における生成AIの活用方法については下記の記事をご覧ください。

医療業界はこちら

薬業界はこちら

教育・学術研究

数学やパズルのような制約充足問題では、DiffusionGemmaの双方向処理が従来モデルにない強みを発揮します。数独のファインチューニング事例が示すように、各セルの値が他のセルに依存する構造的な問題を並列に解く能力は、数学教育用ツールや研究向けの問題解決エンジンとしての活用が見込まれます。

教育業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

【課題別】DiffusionGemmaが解決できること

日々の業務や開発で直面するさまざまな課題に対して、DiffusionGemmaがどのように役立つのかを課題ごとにご紹介します。

ローカル推論のレイテンシ短縮

従来のLLMをローカルで単一ユーザー向けに実行すると、GPUの計算資源が十分に活用されず、メモリ帯域幅がボトルネックとなって応答速度が制限されていました。DiffusionGemmaは、ボトルネックをメモリ帯域幅から計算処理へとシフトさせることでこの問題を解消し、ローカル環境でもリアルタイムに近い速度でテキスト生成が可能になります。

コードの途中挿入・穴埋めで前後の文脈を反映

自己回帰型モデルでは左から右への一方向生成のため、既存コードの中間に新しいコードを挿入する際、後続の文脈を考慮できないという根本的な限界がありました。DiffusionGemmaの双方向アテンションは、挿入位置の前後両方のコンテキストを同時参照できるため、より整合性の高いコードインフィリングが実現するでしょう。

構造的制約のあるテキスト生成で品質を安定させる

テーブル構造、Markdownの入れ子、数式のフォーマットなど、厳密な構造ルールに従う必要があるテキストの生成は、自己回帰型モデルが苦手とする領域でした。

DiffusionGemmaはブロック全体を一度に見渡して整合性を検証・修正できるため、複雑なフォーマットの生成品質が向上します。

よくある質問

最後に、DiffusionGemmaに関して、多くの方が疑問に感じるポイントをQ&A形式でまとめました。

DiffusionGemmaは無料で使えますか?

はい、DiffusionGemmaはApache 2.0ライセンスのオープンウェイトモデルとしてHugging Faceで公開されており、ローカル環境で実行する場合は完全に無料で利用できます。ただし、Google Cloud Model GardenやNVIDIA NIMなどクラウドプラットフォーム経由で利用する場合は、各サービスの料金体系が適用されます。

DiffusionGemmaは日本語に対応していますか?

はい、DiffusionGemmaは35言語以上のマルチリンガル出力に対応しており、140以上の言語で事前学習されています。日本語のテキスト生成も可能ですが、英語と比較すると出力品質に差が出る場合があります。

DiffusionGemmaと通常のGemma 4はどちらを使うべきですか?

用途によって使い分けることをおすすめします。レイテンシ重視のローカル推論やリアルタイムのコード補完にはDiffusionGemmaが適しており、出力品質が最優先のプロダクション環境では標準のGemma 4が推奨されています。Google公式も「速度と品質のトレードオフ」として両モデルの併用を想定しています。

DiffusionGemmaでローカルAI推論の新時代を切り拓こう

DiffusionGemmaは、テキスト生成の手法を自己回帰からテキスト拡散へと転換し、専用GPU上で最大4倍の速度向上を実現した実験的オープンモデルです。

出力品質の面ではGemma 4に劣るものの、ローカル推論における速度改善やコードインフィリングなどの非線形タスクへの対応力は、従来のLLMにはない新しい価値を提供しています。Apache 2.0ライセンスによるオープンな公開、NVIDIAとの連携によるハードウェア最適化、Unslothやvllmなど主要ツールのDay-Zeroサポートなど、エコシステムの整備も万全です。

今後、テキスト拡散モデルの品質がさらに向上していけば、プロダクション用途での本格採用も視野に入ってくるでしょう。ローカルAI推論の可能性に関心がある方は、ぜひ今のうちにDiffusionGemmaに触れてみてはいかがでしょうか。

最後に

いかがだったでしょうか?

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次