【Qwen-Image-Edit-2511】画像編集タスクで最新鋭の性能(SOTA)を達成したオープンソースモデルを徹底解説!

Qwen-Image-Edit-2511 画像 編集 タスク 最新鋭 性能 SOTA 達成 オープンソースモデル 徹底 解説
押さえておきたいポイント
  • Alibaba発の画期的なオープンソース画像編集AI
  • 従来モデルから、一貫性の大幅向上LoRAスタイルの統合など多岐にわたる改良がなされている
  • 複数の公開ベンチマークテストにおいて、画像編集タスクの最新鋭の性能(SOTA)を達成

2025年12月24日、AlibabaクラウドのQwenチームから、画期的なオープンソース画像編集AI「Qwen-Image-Edit-2511」が公開されました!

Qwenシリーズは、大規模言語モデルで知られる「通義千問 (Tongyi Qwen)」ファミリーの1つですが、Qwen-Image-Edit-2511は、その中でも画像編集に特化した最新モデルです。

20億(20B)パラメータ規模の強力なディフュージョンモデルであり、写真や画像に対してユーザーの指示どおりに高度な編集を行えるのが特徴です

Qwen-Image-Edit-2511は、前バージョンの2509から一貫性(Consistency)の大幅向上LoRAスタイルの統合など多岐にわたる改良が施されており、生成結果の品質と安定性が一段と高まっているようです。

そこで本記事では、Qwen-Image-Edit-2511の概要や性能、使い方まで徹底的に解説します。

ぜひ最後までご覧ください!

\生成AIを活用して業務プロセスを自動化/

目次

Qwen-Image-Edit-2511の概要

Qwen-Image-Edit-2511の概要
参考:https://huggingface.co/Qwen/Qwen-Image-Edit#:~:text=Qwen,feature

Qwen-Image-Edit-2511は、Alibabaが開発した20Bパラメータの画像生成モデル「Qwen-Image」をベースに、画像編集タスク向けに拡張・最適化したモデルです。

アーキテクチャとして、入力画像を、視覚と言語の両面から解析する独自構造(MMDiT)を採用していて、視覚的特徴はVAEエンコーダで処理しつつ、意味的理解は専用ビジョン言語モデル(Qwen2.5-VL)に与えることで、見た目の変化と意味内容の変化の両方をコントロールできるのが強みとなっています。

Qwen-Image-Edit-2511の概要
参考:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

また、Qwen-Image-Edit-2511には、「外観編集 (Appearance Editing)」と「セマンティック編集 (Semantic Editing)」という2つのモードがあります。

外観編集では、「指定した要素を追加・削除・変更し、それ以外の部分は一切改変しない」というピンポイントな編集が可能です。

Qwen-Image-Edit-2511の概要
参考:https://huggingface.co/Qwen/Qwen-Image-Edit#:~:text=Qwen,feature

一方、セマンティック編集では、画像全体のスタイルや構図、オブジェクトの配置などを大きく変えつつ、元の意味やコンセプトを保った編集ができます。

Qwen-Image-Edit-2511の概要
参考:https://huggingface.co/Qwen/Qwen-Image-Edit#:~:text=Qwen,feature

また、本モデル最大の特徴の1つに高精度なテキスト編集能力があります。

画像中の英語や中国語の文字列を直接編集(追加・削除・置換)でき、しかもフォントや文字サイズ、スタイルを元画像と自然に一致させて編集してくれます。

Qwen-Image-Edit-2511の概要
参考:https://huggingface.co/Qwen/Qwen-Image-Edit#:~:text=Qwen,feature

これは、従来の画像生成AIでは難しかった機能で、Qwen-Imageが得意とする複雑な文字レンダリング技術を編集タスクにも拡張した成果と言えますね。

さらに、Qwen-Image-Edit-2511は、複数画像の同時編集にも対応しています。

最大3枚の画像を入力し、それらを組み合わせた合成編集や参照画像に基づくスタイル転換などが可能です。

なお、Qwen Imageについて詳しく知りたい方は、以下の記事も参考にしてみてください。

Qwen-Image-Edit-2511の性能

AlibabaのQwenチームによれば、Qwen-Image-Editは、公開済みの複数の公開ベンチマークテストにおいて、画像編集タスクの最新鋭の性能(SOTA)を達成しました。

具体的には、画像中の物体や背景の編集精度を評価する「GEdit」や「ImgEdit」、複雑なシーン編集を評価する「GSO」といったベンチマークで軒並み最高クラスのスコアを記録しています。

これらの評価を通じて、本モデルが既存のオープンソースモデルはもちろん、一部のクローズドソースモデルに匹敵する優れた編集性能を持つことが確認されています。

特に、画像中の文字編集やレンダリングに関しては、英語・中国語双方で非常に高い正確性を示しており、長文のテキスト生成ベンチマーク(LongText-Bench等)や、中国語特有の文字テスト(ChineseWordなど)でも抜きん出た結果を残しています。

Qwen-Image-Edit-2511のライセンス

Qwen-Image-Edit-2511は、Apache 2.0ライセンスで提供されており、商用利用を含む幅広い用途で自由に利用可能です。

利用用途可否備考
商用利用⭕️
改変⭕️
配布⭕️
特許使用⭕️
私的使用⭕️
Qwen-Image-Edit-2511のライセンス

Apache 2.0ライセンスに従い、再配布時には、著作権表示やライセンス文を付与すること、寄与者への免責事項の明示など基本的な条件は守る必要があります。

Qwen-Image-Edit-2511の料金

Qwen-Image-Edit-2511自体の利用にライセンス料や購入費用は一切かかりません

また、Alibaba公式のデモ環境「Qwen Chat」上でも画像編集機能を試すことができ、こちらも現在はユーザー登録さえ行えば無料で利用可能です。

加えて、Hugging FaceやModelScopeなどのプラットフォーム上でホストされたデモなども提供されていて、基本的な範囲であれば無料で試用可能となっています。

Qwen-Image-Edit-2511の使い方

Qwen-Image-Edit-2511の主な使い方として、①デモサイト利用、②ローカルダウンロード利用、③API利用、の3つの方法があります。

①デモサイト利用

Qwen Chatなら、画面で「Image Editing(画像編集)」を選び、編集したい画像(複数枚も可)をアップロードしてから、どこをどう変えたいかをプロンプト指示するだけでOKです。

もう少し細かく触りたい場合は、Hugging Face Spaceのデモが分かりやすいと思います。

画面には「Input Images(入力画像)」のギャラリー枠と、編集指示を書く「Prompt」入力欄、実行ボタン(Edit)が用意されています。

必要に応じて詳細設定で、シード(再現性)、推論ステップ数、True guidance scale、出力サイズ(Height/Width)、そして指示文を自動で整える「Rewrite prompt」のON/OFFを調整することもできます。

②ローカルダウンロード利用

Hugging Faceの提供するDiffusersライブラリを使うことで、ローカル利用することもできます。ただし、推奨環境はGPUメモリ24GB以上・システムメモリ64GB以上のマシンになります。

Diffusersライブラリと関連ツールのインストールコマンド

pip install git+https://github.com/huggingface/diffusers

モデルのダウンロードと読み込みコード

from diffusers import QwenImageEditPlusPipeline
pipeline = QwenImageEditPlusPipeline.from_pretrained("Qwen/Qwen-Image-Edit-2511", torch_dtype=torch.bfloat16)
pipeline.to("cuda")

実行コード

result = pipeline(image=image, prompt=prompt, negative_prompt=" ", num_inference_steps=40, true_cfg_scale=4.0)
edited_image = result.images[0]
edited_image.save("output.png")

③API利用

開発者向けに、アリババクラウドのModel Studio APIを利用して、Qwen3-TTSを組み込む方法もあります。

まずAlibaba Cloudにサインアップ/ログインしたら、Model Studioコンソールを開き、画面上部から「Key Management(API Key)」ページに移動します。

そこで「Create API Key」ボタンを押してキーを発行し、作成されたAPIキーを自分のPCの環境変数(例として DASHSCOPE_API_KEY)や設定ファイルに控えておきます。

次に、同じModel Studio内で、Qwen – 画像編集のモデルページを開き、ここからPythonやcurlのサンプルコードをそのままコピーします。

Pythonであれば、あらかじめターミナルで pip install dashscope requests python-dotenv のようにSDKとHTTPクライアントを入れておいて、 api_key に先ほど発行したAPIキーを渡し、model にドキュメントに記載されているQwen-Image-Edit-2511のモデルID(qwen-image-edit-plusまたはqwen-image-edit)を指定します。

呼び出しは「messagesに画像(URL)と編集指示テキストを同梱して送る」形となっています。

Qwen-Image-Edit-2511を使ってみた

それでは、実際にQwen-Image-Edit-2511をデモサイトで使ってみましょう。

複数人物の合成

プロンプトはこちら

2人が一緒に並んで、指を唇に当てて「シー」というポーズをとっている写真にして

入力画像はNano Banana Proで生成したこちらの2枚とします。

出力結果はこちら

元画像のNano Banana Proのウォーターマークがそのまま残っていますが、今回はスルーします。

若干、入力画像と人物の特徴が変わっている気もしますが、概ね再現できていると思います。

また、背景や後ろに映り込んでいる野球部員はそのままキープされていますね。

アニメーション化

続いて、先程の野球部監督をアニメーション化してみます。

プロンプトはこちら

人物の特徴を保ったまま、異なる表情・ポーズのアニメスタイル肖像画を4枚作成して

出力結果はこちら

監督の強面感が再現されたアニメーション画像が問題なく生成されました。

テキスト編集

最後に、野球部員が着ているユニホームの刺繍文字を編集してもらいましょう。

プロンプトはこちら

野球部員のユニホームのテキストを「test qwen image」に変更して

出力結果はこちら

指示通りにテキストを編集してくれました。生成スピードも数秒程度でかなり早いです。

元画像に比べて、色彩も変更されていますが、このあたりはプロンプトでしっかり固定してあげれば問題ないかと思います。

デモサイトであれば簡単に試すことができますので、ぜひ試してみてください!

まとめ

Qwen-Image-Edit-2511は、2025年12月時点で最高峰のオープンソース画像編集AIモデルです。

モデル公開直後から、様々なプラットフォームでのサポート(Hugging FaceやModelScopeでのホスティング、ComfyUIでの統合など)も行われており、ご自身の用途に合った方法で活用できるかと思います。

気になる方は、ぜひ一度試してみてください!

最後に

いかがだったでしょうか?

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次