Google発の最先端テキスト拡散モデル「Gemini Diffusion」特徴・従来LLMとの違い・使い方まで徹底解説！

2025-05-212025-05-29

Google テキスト拡散モデル Gemini Diffusion 特徴従来LLM 違い使い方

押さえておきたいポイント

最先端のテキスト拡散モデル
出力スピードが大幅にUPしており、1,479 tokens/secという高速サンプリングを記録
初期リリース段階では、ウェイトリスト形式での試験公開

2025年5月21日に開催された Google I/O 2025 で、Google DeepMind は最先端のテキスト拡散モデル「Gemini Diffusion」を発表しました！

We’ve developed Gemini Diffusion: our state-of-the-art text diffusion model.

Instead of predicting text directly, it learns to generate outputs by refining noise, step-by-step. This helps it excel at coding and math, where it can iterate over solutions quickly. #GoogleIO pic.twitter.com/EmDAqNeXVv
— Google DeepMind (@GoogleDeepMind) May 20, 2025

同社が画像や動画生成で成果を上げてきた拡散モデル（Diffusion）をテキスト／コード生成に適用し、わずか数ステップでノイズから完成度の高い文章やプログラムをまとめて生成できるのが最大の特徴です。

既存の Gemini 2.5 Flashシリーズよりも高速かつ低コストで、さらに創造性と一貫性を両立させると強調されており、生成AIのパラダイム転換を告げるモデルとして開発者コミュニティの注目を集めています。

本記事では、Gemini Diffusionの概要や特徴、使い方まで徹底解説します！

ぜひ最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Gemini Diffusionとは？

出典：https://x.com/GoogleDeepMind/status/1924888098019905606

Gemini Diffusionは「テキスト用拡散モデル」という新機軸を採用した研究モデルです。

従来の大規模言語モデル（LLM）がトークンを一語ずつ逐次的に出力するのに対し、Gemini Diffusionは、“ノイズを洗練させる”拡散過程を経て、複数トークンをブロック単位で同時に生成します。

そのため、応答レイテンシが大幅に短縮され、ベンチマーク上でも1,479 tokens/secという高速サンプリングを記録しています。

出典：https://deepmind.google/models/gemini-diffusion/

HumanEvalコード試験では、89.6% pass@1に達するなど、プログラミング関連指標はGemini 2.0 Flash-Liteとほぼ同等ながら処理速度は上回り、推論コストも抑えられる点が大きな魅力です。

2025年5月21日時点では、ウェイトリスト制のデモとして公開されており、今後Gemini APIやVertex AIへ段階的に統合される予定と案内されています。

Gemini Diffusionの特徴

Gemini Diffusionの最大の魅力は、拡散モデル特有の「ブロック一括生成」によって速度・整合性・コスト削減を同時に満たしている点です。

まず、推論パスが短く、GPUメモリ使用量も低いため、DeepMind公式の計測で1,479 tokens/secという従来LLMの数倍に達する生成速度を実現しています。

また、拡散過程は全トークン列を俯瞰しながらノイズを減衰させるため、段落をまたぐ推論やコードの型崩れを自己修正しやすくなっており、長文でも一貫性を保ちやすいというメリットがあります。（※1）

加えて、逆拡散ステップを1段戻して再試行できるメカニズムが組み込まれており、構文エラーや文脈矛盾が検出された瞬間に“その場”でリカバーするような仕組みになっています。

外部の検証でも、Gemini DiffusionはGemini Flash-Liteと同等の精度を維持しながら推論コストを約3割削減したと報告されており、実運用でのコストパフォーマンスの高さがうかがえます。

さらに、モデル内部でASTを予測しつつ差分適用するコード生成アルゴリズムを採用しているため、IDE連携時のライブリファクタリングや大規模コードベースへの一斉置換など、従来LLMが遅延を抱えやすかったタスクでも待機時間を体感的に半減できる点が、開発者コミュニティから高く評価されています。

拡散モデルを用いたテキスト・コード生成の仕組み

Gemini Diffusionが採用している拡散モデルは、もともと画像生成で培われた技術をテキストやコード生成に応用したものです。

出典：https://zenn.dev/fujisyo32/articles/0562f542305df0

従来の言語モデルが文章を1語ずつ順番に生成するのに対し、拡散モデルでは、まずランダムなノイズから始まり、そのノイズを徐々に整えて意味のあるトークン列に変えていくプロセスを採用しています。

この際、モデルは数十回から数百回にわたり拡散・逆拡散というステップを繰り返しながら、文脈や文法に矛盾がないようトークン列を調整していきます。

そのため、一度に複数のトークンをまとめて生成することが可能で、全体の流れを俯瞰しながら整合性の高い文章やコードを作り出せます。

また、生成中に文脈の誤りや構文エラーを検知した場合は、直前の拡散ステップに戻り再調整を行う仕組みも備えています。

コード生成の際には、内部的に抽象構文木（AST）の推定も同時に進行させることで、より正確でエラーの少ないコードを生成できる点も特徴的です。

これにより、従来型モデルに比べて整合性や完成度が高く、リライトや部分修正など複雑なタスクでも迅速かつ高品質な結果を実現できるようになっています。

従来のLLMとの違い

従来の大規模言語モデル（LLM）は、単語を一つずつ左から右へと順番に生成していく方式を採用しており、文章が長くなるほど文脈の整合性を維持することが難しくなるという問題がありました。

また、生成途中で誤った方向に進んでしまった場合でも、そのまま生成を続けるしかなく、結果として矛盾や論理破綻を引き起こしやすくなっていました。

一方、Gemini Diffusionが採用する拡散モデルは、最初にランダムなノイズを用意し、全体を俯瞰しながら徐々にノイズを取り除いていく方法で文章を生成します。

これにより、文章全体の一貫性を高いレベルで維持することが可能になりました。

また、生成途中で問題が発生した場合は直前のステップに戻って再調整できるため、エラーや文脈のズレを素早く修正できるというメリットも備えています。

さらに、この方法はGPUリソースを効率よく活用できるため、生成速度が大幅に向上し、推論コストも抑えられるようになっています。

こうした点から、Gemini Diffusionは従来型のLLMと比べて、高速かつ高品質なテキストやコードの生成が可能な革新的モデルとして注目されています。

なお、コード生成AIのおすすめツール比較について知りたい方は以下の記事ご覧ください。

WEEL

コード生成AIとは？おすすめツールを徹底解説！効率化とバグ修正に最適なツールも比較 | WEEL プログラミング業務を効率化したいと考えている方へ。この記事では、コード生成AIのメリットや注意点、おすすめのツールをわかりやすく解説します。自社に合った最適なAIを…

Gemini Diffusionの料金プラン

Gemini Diffusionは2025年5月21日時点で、主に研究目的として試験的に提供されていますが、今後の正式版では具体的な価格設定が予想されており、企業や個人開発者にとっても大変気になるポイントです。

以下の料金表は、2025年5月21日時点で公式に発表された情報および業界報道から推定されたもので、今後変更される可能性があることをご注意ください。

スクロールできます

プラン	提供形態	料金	課金単位	備考
パブリックデモ（研究目的）	ウェブUI / AI Studio	無料	–	ウェイトリスト制、出力上限あり
Gemini API（正式版予定）	API 経由	$0.019 / 100 万トークン ※	トークン	Flash-Lite相当レート、正式発表待ち

※Reuters報道に基づく参考値で、正式なDiffusion専用価格は未発表となっています。

2025年5月21日時点ではウェイトリスト形式での試験公開にとどまっていますが、正式リリース後には幅広い用途での導入が期待されており、料金体系次第では市場シェアの獲得にも大きく影響すると考えられます。

Gemini Diffusionのライセンス

Gemini Diffusionのライセンス条項は、企業や個人がモデルを適切に利用するために厳密に規定されています。

以下のライセンス情報はGoogle DeepMindの公式資料に基づいた表となっていますので、ご自身の用途に応じて参考にしてみてください。

スクロールできます

利用用途	可否	備考
商用利用	⭕️（API経由）	デモ版は研究目的限定
改変	❌️	モデル重みの改変・再学習は禁止
配布	❌️	モデルや重みの再配布不可
私的利用	🔺	Google所有特許に基づき用途制限
特許利用	⭕️	ウェブUI・APIでの個人使用可

Gemini Diffusionをビジネスや研究で活用する際には、利用範囲や制限事項を十分に確認して、適切な運用ルールを定めるようにしましょう。

Gemini Diffusion 使い方

Gemini DiffusionはウェブUIとAPIの2つの方法で利用することができます。

以下では、特に需要の高いウェブUIを使った方法を詳しく説明します。

まずGemini Diffusionの公式ページにアクセスし、「Join the waitlist（ウェイトリストに登録する）」をクリックします。メールアドレスや名前など必要情報を記入し、申請を送信しましょう。

数日以内に、登録時に入力したメールアドレス宛てに承認メールが届きます。メール内に記載された専用URLをクリックして、Gemini AI Studioへのアクセスを完了します。

承認後、Gemini AI Studioにログインすると専用ワークスペースに入ります。

メニューから「新規プロジェクトを作成」を選び、「Gemini Diffusion」を選択します。

作成されたプロジェクト内で、モデル選択欄に「gemini-diffusion-alpha」が設定されていることを確認します。

必要に応じて生成トークン数の上限（例：最大8000トークン）を指定します。

画面の中央にあるプロンプト入力エリアに、生成したい内容を日本語または英語で具体的に入力します。明確かつ具体的な内容を記述すると、高品質なアウトプットが得られやすくなります。

出典：https://x.com/GOROman/status/1924966849286136270

プロンプトを入力したら、画面下部にある「生成」ボタンをクリックします。生成は数秒以内に完了し、結果がプロンプト入力欄の下に表示されます。

補足（API利用）

API経由で利用する場合、リクエストに次のようにモデルIDを指定します。

{
  "model_id": "gemini-diffusion-alpha",
  "prompt": "生成したい内容",
  "max_output_tokens": 8000
}

APIを利用する場合は、開発環境に適した方法でリクエストを送信しましょう。

Gemini Diffusionを使ってみた

待機リスト登録後、承認されるとGoogle DeepMindから以下画像のような承認メールが届きます。（筆者は5/21登録→5/28に承認されました）

メールに記載されている「Explore Gemini Diffusion now」ボタンを押すとTry Gemini Diffusionというページに遷移します。

あとはプロンプト入力欄にテキストを打ち込むだけでいいので、ここから実際にGemini Diffusionを試していきましょう！

今回解説する事例において、弊社がX（旧Twitter）で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

ゲーム製作

手始めにいくつかゲーム製作を依頼してみます。

プロンプトはこちら

Produce a Tetris game that can actually be played. Make it cool and futuristic looking. Make the screen glow when the player wins at the end.
（和訳）：実際に遊ぶことができるテトリスゲームを製作して。クールで近未来的な見た目で。最後にプレイヤーが勝利したら画面が光るようにして。

圧倒的に生成速度が速すぎて驚愕しました。完成までおよそ7秒。

今回製作されたテトリスは十字キーでブロックを操作するスタイルでしたが、ボタン操作型のゲームが生成されることもあるようです。

【RTA】テトリス製作プログラミング Any% 00:0:10
速すぎて動揺して一段も消せなかった #GeminiDiffusion pic.twitter.com/W9Gd89eZZC
— lain (@lain_xr) May 28, 2025

生成速度が速すぎるので、納得のいくアウトプットが出るまで繰り返しプロンプトを投げ続けるのも苦ではないですね。

プロンプトはこちら

Produce a Pacman game that can actually be played. Controls are with the cross keys. Move at high speed.
（和訳）：実際に遊ぶことができるパックマンゲームを製作して。操作は十字キーで。高速で動く。

ゲームの仕様は少しイメージと異なりましたが、数秒で実際に遊べるゲームを作ってくれるのは革命的です。

アプリ製作

続いて、アプリの製作も依頼してみましょう。

プロンプトはこちら

Create a highly functional Todo app.
（和訳）：高機能なTodoアプリを作って。

Todoチェックアプリの製作はお手の物ですね。

わずか数秒でチェックマーク、削除機能付きのアプリを作ってくれました。

プロンプトはこちら

html and css for an ai design app
（和訳）：AIデザインアプリ用のHTMLとCSS

AIにAIデザインアプリを作らせてみました。これをベースにして、テコ入れ、機能追加をしていくと日常使いできるアプリが作れそうです。

プロンプトはこちら

Build a simulated chat app
（和訳）：模擬チャットアプリを構築して。

チャットアプリも数秒で完成しました。ちゃんとこちらのチャットに対して自動返信もしてくれます。

Gemini Diffusionの強みは、やはりこの並列処理を活用した出力までのスピード感だと思いました。

ただ一方で、簡単な指示をこなせなかったり、何度か試してもイメージ通りのアウトプットにならなかったり、まだまだ知識と推論能力には向上余地がありそうだと感じました。

Gemini 2.5 Proレベルの知能を備えたら、とんでもないゲームチェンジャーとなりえそうです。

気になる方はぜひご自身で試してみてください！

まとめ

Gemini Diffusionは、拡散モデルの強みをテキスト・コード生成に応用して、速度・一貫性・コスト削減を同時に達成する革新的なアプローチです。

初期リリース段階では、研究デモ扱いで料金やライセンスが限定的ですが、Gemini API への正式統合と価格確定がなされれば、チャットボットからIDE支援、リアルタイム翻訳まで幅広い分野で既存LLMを置き換えるポテンシャルがあります。

従来モデルの生成で課題だったレイテンシと長文破綻を根本から解決しうるため、今後の商用展開とコミュニティ検証に引き続き注目が高まります！

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

生成AIは、単なる業務の自動化だけでなく、クリエイティブな業務支援や開発の効率化、社内DXの推進など、企業の多くの領域で活用できます。

貴社の事業にどう活かせるか、具体的な導入事例や最適な活用方法をご提案できますので、ぜひご相談ください。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル（LLM）比較レポート