【GLM-Image】Z.ai発のオープンソースかつ商用利用OKの画像生成モデル徹底解説!

- 中国のスタートアップZ.ai発、オープンソースかつ商用グレードの画像生成モデル
- テキスト内容の厳密な反映や、複雑な情報表現を要するシナリオに強みをもつ
- 画像編集やスタイル転送、人物の一貫性を保った生成など、多彩なタスクにも対応
2026年1月14日、中国のスタートアップZ.aiは、オープンソースかつ商用グレードの画像生成モデル「GLM-Image」をリリースしました!
GLM-Imageは、自己回帰型(Auto-Regressive)モジュールと、拡散(Diffusion)デコーダーを組み合わせるハイブリッド構造を持っていて、言語モデル由来の全体的な意味理解と、拡散モデル由来の高精細な描画能力を両立しています。
特に、テキスト内容の厳密な反映や、複雑な情報表現を要するシナリオに強みを発揮しながら、高い画質で詳細なイメージを生成できる点が特徴です。
さらに、テキストからの画像生成だけでなく、画像編集やスタイル転送、人物の一貫性を保った生成など多彩な画像‐画像変換タスクにも対応しており、応用の幅が非常に広いモデルとして注目されています。
そこで本記事では、このGLM-Imageの性能やライセンス情報、使い方まで徹底的に解説します。
ぜひ最後までご覧ください!
\生成AIを活用して業務プロセスを自動化/
GLM-Imageの概要

GLM-Imageは、オープンソースのフラッグシップモデルとして位置づけられています。
モデルは前述のように、自己回帰モジュール(パラメータ数約90億、GLM-4-9B-0414に基づく)と、拡散デコーダー(約70億パラメータ、CogView4のDiT構造に準拠)で構成されていて、両者が相互補完的に機能します。

自己回帰部は、プロンプトの意味解釈やレイアウト設計、画像内のテキスト内容の扱いに長けており、拡散部はその出力に高度なテクスチャや微細なディテールを付与します。
これによって、イメージ全体の構図と意味の整合性を保ちながら、ピクセルレベルの質感まで高精細に描写することが可能です。
公式技術ブログでも触れられている通り、GLM-Imageは、従来の拡散モデルと同等の生成クオリティを維持しつつ、特にテキストレンダリングや知識集約型の画像生成において優れた性能を発揮します。
また、多様な解像度・アスペクト比に対応していて、例えば、商用ポスターやインフォグラフィック、科学図解、マンガ形式の説明図など、知識をビジュアル化する用途に特化した生成も得意としています。
今後も「認知的生成(Cognitive Generative)」の潮流を牽引する存在として、機能の拡充が期待されています。
GLM-Imageの性能
GLM-Imageの性能は、テキストレンダリングの精度でかなりの優位性を持っています。

複数領域にまたがるテキスト生成タスク(CVTG-2Kベンチマーク)では、GLM-Imageは、オープンソースモデル中で最高となるWord Accuracy 0.9116を記録し、文字列一致度を示すNormalized Edit Distance(NED)でも0.9557という高スコアを達成しています。
さらに、長文テキスト表示を評価するLongText-Benchでは、英語0.9524、中国語0.9788といったトップスコアを獲得しており、複雑な情報を含む画像生成で先行モデルを上回る性能を残しました。
また、パラメータ数や学習手法の工夫によって、細部の再現性も高い水準です。
事前学習後の強化学習(GRPO)で、意味と質感の報酬を分離して最適化しており、それぞれ美観やテキストの正確性、手描写の精度などを独立に改善しています。
これらの技術的工夫によって、GLM-Imageは、美麗なビジュアル描写と情報伝達の正確さを両立しており、従来モデルでは難しかった知識密度の高い図解やポスターの自動生成にも対応できる点が強みとなっています。
なお、画像生成AI「Qwen-Image-2512」について詳しく知りたい方は、以下の記事も参考にしてみてください。

GLM-Imageのライセンス
GLM-Imageのソースコードおよびモデルはオープンソースで公開されており、ライセンスはApache License 2.0が適用されています。
| 利用用途 | 可否 |
|---|---|
| 商用利用 | ⭕️ |
| 改変 | ⭕️ |
| 配布 | ⭕️ |
| 特許使用 | ⭕️ |
| 私的使用 | ⭕️ |
\画像生成AIを商用利用する際はライセンスを確認しましょう/
GLM-Imageの料金
GLM-Imageは、Z.aiの提供するAPIサービスを通じて利用できます。
料金は従量課金制で、テキストから1枚の画像を生成するごとに定額課金されます。公式ドキュメントによると、料金は1画像あたり0.015米ドル(USD)です。
たとえば、100枚の画像生成であれば1.50ドルとなり、同種の有料APIと比較しても割安な水準かと思います。利用には、Z.aiのアカウント取得とAPIキー発行が必要で、課金は登録したクレジットカード等から行われます。
GLM-Imageの使い方
2026年1月16日時点で、GLM-Imageの主な利用方法は、Hugging Face上のInference Providersコーナーで試す方法と、APIキーを取得してHugging Face経由でモデルをダウンロードする方法があります。
Hugging FaceのInference Providersコーナーは以下画像の赤枠部分です。(※プロバイダをZaiにする必要があります。)


Z.ai Chatや、GLM Coding Planでも近日公開されるようなので、こちらは公式情報を待つようにしましょう。
Hugging Face経由での使い方は以下の通りです。
APIキーの取得
まず、Z.aiの公式サイトでアカウントを作成し、APIキーを取得します。APIキーは以降のリクエストで認証に使用します。

環境準備
Python環境でHugging Faceのライブラリを使う場合、transformersやdiffusersをインストールします。Z.ai公式GitHubに記載されているサンプルをベースに、以下のようにpipでインストールします。
pip install git+https://github.com/huggingface/transformers.git
pip install git+https://github.com/huggingface/diffusers.gitパイプラインの読み込み
インストール後、PythonコードでGLM-Imageのパイプラインを読み込みます。たとえばDiffusersライブラリを使う場合、次のように記述します。
import torch
from diffusers.pipelines.glm_image import GlmImagePipeline
pipe = GlmImagePipeline.from_pretrained(
"zai-org/GLM-Image",
torch_dtype=torch.bfloat16,
device_map="cuda"
)これでGLM-Imageパイプラインが準備でき、以降pipeオブジェクトを使って画像を生成することができます。
画像生成の実行
パイプラインの呼び出し時に、生成プロンプトや画像サイズ、出力品質などを指定します。
prompt = "A tranquil sunrise over a mountain lake, with mist and pine trees."
image = pipe(
prompt=prompt,
height=1024, width=1024, # 推奨サイズ(32の倍数)
quality='hd', # 'hd': 詳細重視、処理時間約20秒
num_inference_steps=50,
guidance_scale=1.5
).images[0]
image.save("output.png")qualityパラメータにはデフォルトの'hd'(高品質、処理約20秒)と'standard'(高速、5~10秒)を選ぶことができます。また、sizeには公式が推奨している1280×1280などを指定し、画像の縦横はともに32ピクセル単位で指定してください。
API直接呼び出し(オプション)
もし、プログラム言語や環境を問わない方法で使いたい場合、Z.aiのHTTP APIを直接呼び出すことも可能です。例えばcurlコマンドで以下のようにPOSTリクエストを送ると、画像生成することができます。
export ZAI_API_KEY="ここにAPIキー"
curl --request POST \
--url https://api.z.ai/api/paas/v4/images/generations \
--header "Authorization: Bearer $ZAI_API_KEY" \
--header "Content-Type: application/json" \
--data '{
"model": "glm-image",
"prompt": "A tranquil sunrise over a mountain lake, with mist and pine trees.",
"size": "1024x1024"
}'レスポンスとして、生成された画像のURLなどがJSONで返ってきます。
以上の手順でGLM-Imageを実行できます。
なお、生成にはGPUリソースが必要となるため、ローカル環境で高速に動かすにはメモリ容量の大きいGPUが求められます。
また、API経由でも高品質(HD)設定では処理時間が増大するため、用途に応じてqualityやnum_inference_stepsを調整するとよいでしょう。
GLM-Imageを使ってみた
それでは実際にGLM-Imageを使っていきましょう。今回はcurlコマンドを用いたAPI直接呼び出しで、最低課金額の3ドルでスタートしてクレジットをどれほど消費するのかもあわせて確認していきます。
まずは先ほどのサンプルプロンプトをそのまま使用します。
export ZAI_API_KEY="ここにAPIキー"
curl --request POST \
--url https://api.z.ai/api/paas/v4/images/generations \
--header "Authorization: Bearer $ZAI_API_KEY" \
--header "Content-Type: application/json" \
--data '{
"model": "glm-image",
"prompt": "A tranquil sunrise over a mountain lake, with mist and pine trees.",
"size": "1024x1024"
}'数十秒ほどでURLなどのレスポンスが返ってきました。

生成された画像はこちら

プロンプト通り、朝日をバックにした霧と木に囲まれた山をかなりキレイに表現してくれました。
この時点でクレジット消費はたったの0.02ドルほどです。

続いて長文プロンプトを試してみましょう。
日本語テキスト入りイベント告知ポスター
Design a clean, modern Japanese event poster with a premium editorial look. Portrait layout, plenty of white space, strong typographic hierarchy, grid-aligned. Background: soft off-white paper texture with a faint warm gradient. Main headline text in Japanese, centered near the top, large and bold: 「朝の珈琲と静かな時間」. Subheadline below it in smaller weight: 「湖畔の焙煎所ポップアップ」. Add a thin divider line, then event details in a neat block: 「日時:2026.02.01(日) 7:00–11:00」 and 「場所:Lakeview Roasters(入場無料)」. Include a small “MENU” section with two items and prices: 「ハンドドリップ 600円」 and 「カフェラテ 650円」. At the bottom-right, place a simple QR code placeholder box with caption: 「詳細はこちら」. Use elegant sans-serif Japanese typography, crisp kerning, perfect alignment, high readability. Add subtle coffee steam illustration as a minimal line art behind the headline (very light gray). Keep it minimal, professional, no clutter, no random extra text, all Japanese text must be exactly as specified, sharp and legible.生成された画像はこちら

日本語も書けなくはないですが、精度は微妙ですね。英語については問題なさそうです。
また、クレジット消費は0.01ドルでした。

公式ドキュメント通り、プロンプトの長短に関わらず、料金は1画像あたり0.015米ドル(USD)というのも確認できました。
画像編集についても試したいところですが、いま公開されている Z.ai の Image API(/api/paas/v4/images/generations)はテキスト→画像生成専用ですので、今回は控えさせていただきます。
気になった方は、まずはHugging FaceのInference Providersコーナーから試してみてください!
まとめ
GLM-Imageは、Z.aiが開発した自己回帰×拡散ハイブリッド型の高性能画像生成モデルで、オープンソースとして公開されています。
言語モデルの知見を画像生成に応用し、特に、テキストや知識表現の正確性に優れた成果を示している点が最大の強みです。
今後は日本語対応やさらなる性能向上、推論コストの最適化といった課題が残されていますが、現時点でも情報密度の高い生成が可能ですので、気になる方はぜひ一度試してみてください!
最後に
いかがだったでしょうか?
弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。
