【Qwen 3.5 Small Model Series】アリババの0.8B〜9Bの小型マルチモーダルAIを徹底解説!

- アリババ発の小型マルチモーダルAIシリーズ
- 0.8B・2B・4B・9Bという4つのコンパクトなモデルで構成され、テキストだけでなく画像やビデオもネイティブに処理できるマルチモーダルAI
- 9Bパラメータで、前世代のQwen3-30Bを上回る性能を発揮し、ビジョンタスクにおいては、OpenAIのGPT-5-Nanoを大幅に超えるスコアを誇る
2026年3月2日、Alibaba CloudのQwenチームが小型マルチモーダルAIシリーズ「Qwen 3.5 Small Model Series」を公開しました!
0.8B・2B・4B・9Bという4つのコンパクトなモデルで構成されていて、テキストだけでなく画像やビデオもネイティブに処理できるマルチモーダルAIとなっています。
わずか9Bパラメータで、前世代のQwen3-30Bを上回る性能を発揮していて、ビジョンタスクにおいては、OpenAIのGPT-5-Nanoを大幅に超えるスコアを叩き出しているとのこと。
そこで本記事では、Qwen 3.5 Small Model Seriesの概要やアーキテクチャ、料金体系から使い方まで徹底的に解説します。
ぜひ最後までご覧ください!
\生成AIを活用して業務プロセスを自動化/
Qwen 3.5 Small Model Seriesとは?

Qwen 3.5 Small Model Seriesは、Alibaba CloudのQwenチームが開発した小型〜中型サイズのマルチモーダル言語モデル群です。
Qwen 3.5ファミリーは、フラッグシップの397B-A17B(MoEモデル)から始まり、122B、35B、27Bといった中〜大型モデルを経て、今回の「Small Model Series」として0.8B・2B・4B・9Bの4モデルが追加されました。すべてのモデルがネイティブマルチモーダル対応で、テキスト・画像・ビデオを統合的に処理できます。
| モデル名 | パラメータ数 | VRAM目安(FP16) | VRAM目安(4bit量子化) | コンテキスト長 |
|---|---|---|---|---|
| Qwen3.5-0.8B | 約9億 | 約1.6GB | 約0.5GB | 262K |
| Qwen3.5-2B | 約20億 | 約4GB | 約1.5GB | 262K |
| Qwen3.5-4B | 約50億 | 約8GB | 約3GB | 262K |
| Qwen3.5-9B | 約100億 | 約18GB | 約5GB | 262K(最大1M) |
Small Model Seriesの最大の特徴は、Gated DeltaNetと呼ばれるハイブリッドアテンションアーキテクチャを採用している点です。線形アテンションとフルソフトマックスアテンションを3:1の比率で組み合わせることで、メモリ効率を大幅に向上させながら、262,144トークン(約26万トークン)ものネイティブコンテキスト長を実現しています。
コンテキストサイズは248,320トークンで、日本語を含む201の言語・方言をカバーしています。さらに、Multi-Token Prediction(MTP)という推論高速化技術を搭載していて、1ステップで複数トークンを予測することで推論速度を改善しています。
なお、フラッグシップモデル「Qwen3.5-397B-A17B」について、詳しく知りたい方は以下の記事も参考にしてみてください。

Qwen 3.5 Small Model Seriesの仕組み
Qwen 3.5 Small Model Seriesのアーキテクチャは、従来のTransformerアーキテクチャとは異なる革新的な設計を採用しています。こちらでは、その動作原理をご紹介していきます。
Gated DeltaNetハイブリッドアーキテクチャ

コアとなるのは「Gated DeltaNet」と呼ばれるハイブリッドアテンション機構です。具体的には、線形アテンション(Gated DeltaNet)レイヤーと、フルソフトマックスアテンションレイヤーを3:1の比率で交互に配置したものとなっています。9Bモデルの場合、32層のレイヤーは以下の構造を8回繰り返す設計になっています。
Gated DeltaNetレイヤーは、Mamba2のゲート付き減衰メカニズムと、デルタルールを組み合わせたもので、メモリ複雑度が一定のまま長いシーケンスを処理することができます。一方で、4層に1回挿入されるフルアテンションレイヤーが、複雑な推論や長距離依存関係の処理精度を担保しています。
Multi-Token Prediction(MTP)

推論時の高速化を実現するMTP機構も搭載しています。通常のAutoregressive(1トークンずつ順番に生成)とは異なり、1ステップで複数のトークンを同時に予測します。
これによって、特にvLLMやSGLangといったサービングフレームワークと組み合わせた際に、推論スループットが大幅に向上します。
ビジョンエンコーダ

マルチモーダル処理のために、各モデルにはビジョンエンコーダが統合されています。
Qwenチームは「Early fusion training on trillions of multimodal tokens」と述べていて、テキスト専用モデルに後からビジョン機能を追加する方式ではなく、最初からマルチモーダルデータで学習されています。この方式によって、テキスト性能を犠牲にすることなくビジョン能力を獲得しています。
Qwen 3.5 Small Model Seriesの特徴
Qwen 3.5 Small Model Seriesの性能面での特徴は、そのサイズからは想像できないほどのベンチマークスコアからみてとれます。こちらでは、公式に公開されているベンチマーク結果を中心に整理していきます。

言語タスクで前世代の3倍大きいモデルを圧倒
9Bモデルは、前世代のQwen3-30B(パラメータ数が3倍以上)をほとんどの言語ベンチマークで上回っています。
MMLU-Proでは82.5(Qwen3-30Bは80.9)、GPQA Diamondでは81.7(Qwen3-30Bは73.4)、IFEval(指示追従能力)では91.5(Qwen3-30Bは88.9)を記録しています。特筆すべきは、長文コンテキスト処理能力を測るLongBench v2で55.2を達成し、Qwen3-80Bの48.0すら上回っている点です。
ビジョンタスクでGPT-5-Nanoを大幅に上回る
ビジョン関連のベンチマークでは、さらに顕著な差が出ています。
MMMU-Proで70.1(GPT-5-Nanoは57.2)、MathVisionで78.9(GPT-5-Nanoは62.2)、MathVista(mini)で85.7(GPT-5-Nanoは71.5)と、いずれも10ポイント以上の差をつけています。ドキュメント理解タスクのOmniDocBench v1.5では87.7を達成し、GPT-5-Nanoに30ポイント以上の差をつけています。
201言語対応とエージェント能力
248,320トークンのコンテキスト長により、日本語はもちろん、アラビア語やヒンディー語など幅広い言語を高品質にサポートしています。多言語ベンチマークのMMMUでは81.2を達成し、Qwen3-Next-80B-A3B-Thinking(81.3)とほぼ同等のスコアを記録しています。
エージェント(ツール呼び出し)能力も高く、BFCL-V4で66.1、TAU2-Benchで79.1を達成しており、関数呼び出しやAPIの活用が必要なタスクでも、十分な実用性があることがわかりますね。
Qwen 3.5 Small Model Seriesの安全性・制約
Qwen 3.5 Small Model Seriesを利用する際には、いくつかの安全性に関する注意点と技術的な制約があります。
Qwenチームは、強化学習による安全性チューニングを実施しており、100万以上のエージェント環境で訓練を行ったとしています。ただし、オープンウェイトモデルという性質上、出力内容に対する完全な制御は利用者側の責任となります。不適切なコンテンツ生成のリスクはゼロではなく、プロダクション環境で利用する場合は、別途セーフティフィルターやガードレールの導入をおすすめします。
技術的な制約としては、0.8Bや2Bモデルでは、思考モード(Thinkingモード)がデフォルトでは無効になっていて、有効化するには明示的に設定する必要があります。
Qwen 3.5 Small Model Seriesの料金
Qwen 3.5 Small Model Seriesは、Apache 2.0ライセンスのオープンウェイトモデルです。そのため、Ollamaやllama.cppなどでローカル実行する場合は無料で利用することができます。
一方、Alibaba Cloud Model Studio経由でAPIとして利用する場合は、トークンベースの従量課金が発生します。ただし、2026年3月3日時点では、Small Model Series(0.8B〜9B)はAlibaba Cloud Model Studioの料金表には掲載されておらず、APIとしての提供は確認できませんでした。
Qwen 3.5 Small Model Seriesのライセンス
Qwen 3.5 Small Model Seriesは、Apache License 2.0のもとで公開されています。オープンソースライセンスの中でも特に制約が少なく、商用利用にも非常に寛容なライセンスとなっています。
| 利用用途 | 可否 | 備考 |
|---|---|---|
| 商用利用 | ⭕️ | |
| 改変 | ⭕️ | |
| 配布 | ⭕️ | |
| 特許使用 | ⭕️ | |
| 私的使用 | ⭕️ |
Qwen 3.5 Small Model Seriesの使い方
Qwen 3.5 Small Model Seriesは、ローカル実行からクラウドAPI経由まで、複数の方法で利用することができます。今回は、代表的な使い方3つをご紹介します。
Ollamaでローカル実行する
1番お手軽にQwen 3.5 Small Model Seriesを試せる方法がこちらのローカル実行です。OllamaはmacOS、Linux、Windowsに対応しており、コマンド1つでモデルのダウンロードから実行まで完了させることができます。
1. Ollamaをインストールする
まだOllamaをインストールしていない場合は、公式サイト(https://ollama.com)からダウンロードしてインストールします。macOSの場合はHomebrewでもインストールできます。
# Homebrewでインストールする場合
brew install ollama2. Qwen 3.5モデルをダウンロード・実行する
以下のコマンドでモデルをダウンロードし、そのまま対話モードに入ります。
# 9Bモデル(最高性能、約6.6GB)
ollama run qwen3.5:9b
# 4Bモデル(バランス型、約3.4GB)
ollama run qwen3.5:4b
# 2Bモデル(軽量、約2.7GB)
ollama run qwen3.5:2b
# 0.8Bモデル(超軽量、約1.0GB)
ollama run qwen3.5:0.8b
初回実行時にモデルのダウンロードが自動で行われます。ダウンロード完了後、プロンプトが表示されたらそのまま日本語で質問できます。
3. 画像を入力する
Qwen 3.5はマルチモーダル対応なので、画像ファイルのパスを指定して画像についての質問も可能です。
ollama run qwen3.5:9b
>>> この画像について説明してください /path/to/image.jpg4. API経由で利用する
OllamaはOpenAI互換のAPIサーバーとしても動作します。別のターミナルから以下のようにリクエストを送ることもできます。
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5:9b",
"messages": [
{"role": "user", "content": "日本の四季について300文字で説明してください"}
]
}'Hugging Face Transformersで利用する
Pythonから直接モデルを読み込んで利用する方法です。研究目的やカスタムパイプラインの構築に向いています。
1. 必要なライブラリをインストールする
pip install transformers torch accelerate2. モデルを読み込んで推論する
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3.5-9B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
messages = [
{"role": "user", "content": "Pythonでクイックソートを実装してください"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer(text, return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=81920,
temperature=1.0,
top_p=0.95
)
response = tokenizer.batch_decode(
generated_ids[:, model_inputs.input_ids.shape[-1]:],
skip_special_tokens=True
)[0]
print(response)vLLM / SGLangで高速サービングする
本番環境での利用やAPIサーバーとしてのデプロイには、vLLMやSGLangの利用が推奨されています。
vLLMでの起動コマンド
vllm serve Qwen/Qwen3.5-9B \
--port 8000 \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3SGLangでの起動コマンド
python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-9B \
--port 8000 \
--tp-size 1 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3起動後はOpenAI互換のエンドポイント(http://localhost:8000/v1/chat/completions)が利用可能になるので、既存のOpenAI SDKやLangChainなどのフレームワークからそのまま呼び出すことができます。
【業界別】Qwen 3.5 Small Model Seriesの活用シーン
Qwen 3.5 Small Model Seriesは、そのコンパクトさと高い性能のバランスから、幅広い業界での活用が期待されます。こちらでは、業界ごとに具体的なユースケースを紹介します。
製造業:品質検査の自動化
Qwen 3.5のマルチモーダル能力は、製造ラインでの画像ベースの品質検査に活用できます。
4Bモデル程度であれば、エッジデバイスにも搭載可能なサイズで、製品の外観検査画像を入力して不良品を判定するような用途に適していると思います。
262Kトークンのコンテキスト長を活かせば、検査マニュアルや過去の不良事例をコンテキストとして含めながら、精度の高い判定をすることも可能です。
なお、製造業における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。
教育・学習:パーソナライズされた教育アシスタント
0.8Bや2Bの超軽量モデルは、教育用のローカルアシスタントとして優れています。
例えば、生徒の端末上でも動作させることができるので、インターネット接続が不安定な環境でも利用でき、個人情報をクラウドに送信する必要がありません。数学の問題を画像で入力すれば、解説を生成することもできます。
なお、教育業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

金融・法務:ドキュメント解析
OmniDocBench v1.5で87.7という高いスコアを記録していることから、PDF文書や契約書の読み取り・解析タスクに強みがあります。
金融機関での契約書レビューや、法務部門での大量の文書チェックなど、ドキュメント理解が求められる場面で活躍してくれるかと思います。長文コンテキスト対応しているので、数十ページに及ぶ文書も一度に処理することが可能です。
なお、金融業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

【課題別】Qwen 3.5 Small Model Seriesが解決できること
こちらでは、企業や開発者が直面しがちな具体的な課題に対して、Qwen 3.5 Small Model Seriesがどのように解決策となり得るかをご紹介します。
クラウドAPI依存によるコスト増と遅延を削減
大手クラウドAPIの利用コストがプロジェクトの予算を圧迫しているケースは少なくないと思います。
Qwen 3.5 Small Model Seriesであれば、4Bモデルで、約3GBのストレージと数GBのRAMがあれば動作するため、自社サーバーやエッジデバイスでの運用ができるかと思います。API呼び出しのラウンドトリップ遅延も解消されるので、リアルタイム性が求められるアプリケーションにも適しています。
機密データの外部送信リスクの回避
医療データや個人情報を含む処理では、データをクラウドに送信すること自体がコンプライアンス上の問題になることもあるかと思います。
ローカル実行可能なQwen 3.5 Small Model Seriesなら、データが外部に出ることなくAI処理が完結します。Apache 2.0ライセンスのため、セキュアなオンプレミス環境への導入も法的にクリアかと思います。
多言語対応コストの圧縮
201言語対応という広範なカバレッジによって、多言語サービスを展開する際に、言語ごとに別々のモデルを用意する必要がありません。
1つのモデルで日本語・英語・中国語・フランス語といった多言語処理をまかなえるため、運用の複雑さとコストを大幅に抑えられるかと思います。
Qwen 3.5 Small Model Seriesを使ってみた
それでは実際に、Ollama経由でQwen 3.5 Small Model Seriesの0.8Bモデルを使ってみましょう。最小モデルでどの程度のタスクをこなすことができるのか確認していきます。
日本語文章の要約タスク
プロンプトはこちら
以下の文章を50文字以内で要約してください。
人工知能(AI)の発展は、社会のあらゆる側面に影響を与えています。医療分野では診断支援や創薬に活用され、製造業では品質管理の自動化が進んでいます。教育分野でも個別最適化された学習が可能になりつつあります。一方で、プライバシーの問題や雇用への影響など、解決すべき課題も山積しています。AIとの共存を模索しながら、技術の恩恵を最大化する社会の構築が求められています。思考プロセスの一部と最終出力結果はこちら

残念ながら62文字という結果で、一発で50文字以下とはいきませんでした。
日本語の敬語変換
プロンプトはこちら
以下のカジュアルな文章を、ビジネスメールにふさわしい敬語に書き換えてください。
「昨日の会議の件、資料送るね。来週までに確認してほしい。あと、金曜の飲み会、行ける?」出力結果はこちら

ご提示いただいたカジュアルな文章をビジネスメールとしてフォーマルに調整します。状況に合わせていくつかのパターンを作成しています。
## パターン 1:標準的なビジネスメール(最も推奨)
企業内または取引相手との関係で使えます。丁寧かつ明確な表現にしています。
**件名:** 次の日程についてのご確認 / 資料送信に関する確認
**本文:**
貴社の方より、昨日の会議に関連する事項について、ご連絡いたしました。
今日、資料をいただくことを確認してください。
来週までに必ずご検討ください。
また、金曜(週末)にお越しいただける飲み会や行事は、行えるかどうかを確認いただけますでしょうか?
ご自身の日程に合わせてお見積もりを作成いたします。
---
## パターン 2:柔らかく丁寧な表現
関係性の近い上司または同僚向けに使います。少しフォーマルさを欠かないようです。
**本文:**
昨日の会議について、資料を送らせていただくことを提案します。
このほか、来週までに確認をお願いいたします。
また、週末にお越しいただける飲み会は、行かれるべきでしょうか?
---
## パターン 3:シンプルで直感的な表現
忙しい状況下でもスムーズに受け取れる形式です。
**本文:**
昨日の会議について資料をいただいたことをお願いします。
来週までに確認してください。
金曜(週末)のお越しが可能な飲み会や行事は、行けるでしょうか?
---
### 作成のポイント・ポイント解説
1. **「昨日の会議の件」** -> **「今日」または「今までの事項について」**
* ビジネスで「明日」という言葉を使うと曖昧になりやすく、より明確な「今後のスケジュール」が伝わりやすくなります。
2. **「資料送るね」「資料送るべきか?」**
* **ビジネスメールでは「資料をいただければ、その日に連絡させていただきます。」**という構造で書き換えていますが、文脈により「待機し」「確認し
ていただけますか」など、より丁寧な表現も可能です。
3. **「来週までに確認してほしい」**
* 「確認してください」という依頼の形に整理しています。「ご検討を仰ぐべきです」というニュアンスを含めつつ明確に伝えています。
4. **「金曜の飲み会、行ける?」**
* **英語で言うと "Is the weekend dinner possible?"** などですが、日本語では「週末にご訪問いただけますか?」「行かれる可能性がありますか?」と
いう形になります。
### おすすめのポイント
* **メール件名(Subject Line)**: 内容に合わせたものから「スケジュールの確認」「日程に関する相談」といったスクリプトを準備し、ビジネスの信頼感を
持たせることをお勧めします。
* **相手の言葉への配慮**: 「行けるか」のように質問形にすると、より柔軟な調整が必要になりますので、状況に合わせて適切な表現を変えましょう。
ご使用の状況に合わせて調整してください!よくある質問(FAQ)
最後に、Qwen 3.5 Small Model Seriesについて、よくある質問とその回答をご紹介します。
まとめ
Qwen 3.5 Small Model Seriesは、0.8B〜9Bという手頃なサイズでありながら、前世代の数倍大きなモデルに匹敵する性能を実現した注目のモデルシリーズです。
Gated DeltaNetによるハイブリッドアーキテクチャが262Kトークンのネイティブコンテキスト長とメモリ効率を両立し、テキスト・画像・ビデオをネイティブに処理できるマルチモーダル対応も大きな魅力です。
気になった方は、ぜひ一度試してみてください。
最後に
いかがだったでしょうか?
弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

