アリババ発「Qwen3-Omni」とは？リアルタイム音声出力も可能な万能AIモデル

2025-09-25

押さえておきたいポイント

テキスト・音声・画像・動画に対応し、リアルタイムで自然音声を出力可能
119言語のテキスト、19言語の音声入力、10言語の音声出力をサポート
教育・翻訳・動画解析など幅広いユースケースで活用できる次世代モデル

2025年9月、アリババから新たなオムニモーダルLLMがリリース！

今回リリースされた「Qwen3-Omni」は音声・画像・動画に対応しており、入力だけでなく自然な音声をリアルタイムに出力できます！

🚀 Introducing Qwen3-Omni — the first natively end-to-end omni-modal AI unifying text, image, audio & video in one model — no modality trade-offs!

🏆 SOTA on 22/36 audio & AV benchmarks
🌍 119L text / 19L speech in / 10L speech out
⚡ 211ms latency | 🎧 30-min audio… pic.twitter.com/qGn34N7Xvd
— Qwen (@Alibaba_Qwen) September 22, 2025

本記事では、Qwen3-Omniの概要から性能、使い方を解説していきます。最後までお読みいただければ、Qwen3-Omniの理解が深まります。

ぜひ最後までお読みください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Qwen3-Omniの概要

Qwen3-OmniはAlibaba Cloudが開発したエンドツーエンド型のオムニモーダルモデル。

テキスト・音声・画像・動画を入力として処理できるだけでなく、レスポンスをテキストと自然音声の両方で即時に返すことが可能となっています。

特徴的なのは次のポイントです。

最先端のマルチモーダル性能：22の音声・映像ベンチマークでSOTAを達成し、ASRや音声理解、ボイスチャット性能ではGemini 2.5 Proに匹敵する精度を誇ります。
多言語対応：119言語のテキスト、19言語の音声入力、10言語の音声出力をサポート。日本語や韓国語、英語、中国語に加え、スペイン語やアラビア語など幅広い言語で利用可能です。
新しいアーキテクチャ：Mixture-of-Expertsを採用した「Thinker–Talker」設計により、推論と音声生成を分離。低レイテンシかつ高精度な応答を実現しています。
リアルタイム性：自然なターンテイキングを伴う低遅延ストリーミングに対応し、対話やマルチメディア解析をスムーズに行えます。

また、Qwen3-Omniは研究者や開発者向けに多様なユースケースを想定した「Cookbook」も公開しており、音声認識や翻訳、映像解析、音楽分析など幅広い分野での応用が期待されています。

Qwen3-Omniの性能

Qwen3-Omniは単なるマルチモーダル対応にとどまらず、複数のベンチマークで既存モデルを凌駕する性能を示しています。

特に音声・映像領域では従来モデルに比べて高い精度と低いレイテンシを実現し、テキストや画像においても最新の大規模LLMと肩を並べる水準に到達しています。

**参考：https://x.com/Alibaba_Qwen/status/1970184848565510155/photo/1**

テキスト性能：AIME25やZebraLogic、WritingBenchなどでGPT-4oやGeminiを上回るスコアを記録
音声認識：LibriSpeechやFleurs-zhなど複数のベンチマークで低WERを達成し、Gemini 2.5 ProやGPT-4oに匹敵、もしくは上回る精度
音声生成：Seed-testやMiniMaxベンチで低いエラー値を示し、自然で正確な音声出力が可能
画像理解：HallusionBenchやMMMUで高いスコアを達成し、画像推論や数理タスクにおいても安定した性能を発揮
動画理解：MLVUベンチで75.2を記録し、Gemini 2.0 FlashやGPT-4oを超える結果を示しています。

いずれのベンチマークでもQwen3-Omniは優れた性能を発揮しており、テキストや画像理解においてもトップクラスの精度を示しています。

その他詳細については、GitHubに掲載されています。

Qwen3-Omniのライセンス

Qwen3-OmniのライセンスはApache 2.0ライセンスです。そのため、商用利用は可能、再配布や改変なども可能ですが、著作権表示とライセンス表記の保持義務はあります。

利用用途	可否
商用利用	⭕️
改変	⭕️
配布	⭕️
特許使用	⭕️
私的使用	⭕️

参考：https://github.com/QwenLM/Qwen3-Omni/blob/main/LICENSE

なお、高性能と低コストを両立するオープンソースモデルであるGLM‑4.5／GLM‑4.5 Airについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【GLM‑4.5／GLM‑4.5 Air】高性能と低コストを両立するオープンソースモデルの性能や使い方を徹底解説！ | W… 押さえておきたいポイント Z.ai発の最新のフラッグシップ基盤モデル「GLM‑4.5」とその軽量版「GLM‑4.5 Air」が同時リリース推論・コーディング・エージェント運用の3つの…

Qwen3-Omniの使い方

では実際にQwen3-Omniを使っていきましょう。

Chatも用意されているので、こちらを使えば手軽にQwen3-Omniを使えます。

**参考：https://chat.qwen.ai/?models=qwen3-omni-flash**

Qwen3-Omniについては教えてくれませんでした。

また、Qwen3-Omniのデモサイトも用意されており、おそらくこのページで音声出力ができると思いますが、中国語記載です。

**参考：https://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo**

他にもAPI経由でも利用ができます。

**参考：https://modelstudio.console.alibabacloud.com/?tab=doc&accounttraceid=9c99e371c53d445384aca5caca988e6aeyon#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash**

API経由でQwen3-Omniを使ってみる

本記事執筆時点(2025年9月24日)で無料クォータがあるので、無料でAPIを使えそうです。

ではGoogle Colaboratoryで実装していきます。APIキーの取得がまだの場合にはアリババクラウドで取得しておきましょう。

ライブラリをインストールします。

!pip install openai

あとはサンプルコードの実行です。

サンプルコードはこちら

import os
import base64
from openai import OpenAI

client = OpenAI(
    api_key="",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
question = "生成AIが教育分野で活用される方法を教えてください。"


completion = client.chat.completions.create(
    model="qwen3-omni-flash",
    messages=[{"role": "user", "content": question}],
    modalities=["text"],  
)

answer = completion.choices[0].message.content
print("Q:", question)
print("A:", answer)

結果はこちら

Q: 生成AIが教育分野で活用される方法を教えてください。
A: もちろんです。生成AI（人工知能）は教育分野において多様な方法で活用できます。以下に主な活用方法を分類してご紹介します。

---

### 1. **個別学習支援**
生成AIは生徒一人ひとりの学習ペースや理解度に合わせたサポートが可能です。

- **個別学習プランの作成**  
  学習者の理解度や進捗を分析し、適切な学習内容や難易度の問題を自動生成。

- **リアルタイムフィードバック**  
  解答を入力すると、解説や補足説明を即座に提供。誤りを指摘しながら学習を促進。

- **学習進捗の可視化**  
  AIが学習履歴を分析し、弱点や得意分野を可視化し、教師や生徒にフィードバック。

---

### 2. **教材・問題の自動作成**
教師の負担を軽減し、多様な教材を迅速に提供。

- **問題作成**  
  生成AIは教科書レベルの問題、テスト問題、練習問題を自動生成。難易度や形式も調整可能。

- **教材の多言語化・適応**  
  教材を英語、中国語などに翻訳し、文化に合わせた内容に調整。

- **視覚的教材の生成**  
  テキストから図表、イラスト、動画の概要を生成し、理解を助ける。

---

### 3. **インタラクティブな学習体験**
AIによる対話型学習が可能に。

- **AIチャットボットによる学習支援**  
  学生が質問すると、リアルタイムで説明や例題を提供。例：「数学の微分について教えて」。

- **仮想教師・学習アシスタント**  
  仮想キャラクターとして、生徒と対話しながら学習を促進。特に言語学習やプレゼン練習に有効。

- **シミュレーション学習**  
  医療、法律、ビジネスなどの実践的なシミュレーションをAIが提供。

---

### 4. **言語学習の強化**
生成AIは言語学習に特に効果的です。

- **会話練習**  
  英語などの会話練習で、AIが相手役になり、リアルタイムの会話体験を提供。

- **作文・翻訳のフィードバック**  
  学生の作文を分析し、文法、語彙、構成の改善点を提案。

- **多言語学習支援**  
  1つの言語を学ぶ際に、他の言語の説明や例文を自動生成。

---

### 5. **教師支援ツール**
教師の授業準備や評価作業を効率化。

- **授業計画の提案**  
  教師がテーマや学年を入力すると、適切な授業構成や活動案を提案。

- **評価・フィードバックの自動化**  
  学生の課題をAIが評価し、具体的なフィードバックを提供。教師の負担軽減。

- **教育コンテンツの検索・整理**  
  教師が適切な教材を迅速に見つけるためのAI検索ツール。

---

### 6. **特別支援教育**
個別ニーズに応じた支援が可能。

- **学習障害や発達障害の支援**  
  読み書きの支援、視覚的・聴覚的補助教材の生成、簡潔な説明の提供。

- **言語障害者の支援**  
  音声やテキストをリアルタイムで翻訳・補足。

---

### 7. **教育の公平性向上**
生成AIは教育アクセスの格差を縮小。

- **低所得地域への教材提供**  
  AIが無料で教材や学習支援を提供し、教育格差の解消に貢献。

- **多様な学習スタイルへの対応**  
  視覚的、聴覚的、運動的など、学習スタイルに合わせた教材を生成。

---

### 8. **職業教育・生涯学習**
生成AIは大人の学習にも活用。

- **スキルアップ学習**  
  プログラミング、ビジネススキル、デザインなど、実践的な学習支援。

- **職業訓練の支援**  
  AIが職業訓練の教材やシミュレーションを提供。

---

### 注意点と課題
- **情報の正確性**：生成AIの出力は誤りを含む可能性があるため、教師の確認が必要。
- **プライバシー保護**：生徒のデータを安全に扱う仕組みが必要。
- **教育倫理**：AIに頼りすぎず、人間の教師の役割を尊重。

---

### まとめ
生成AIは教育の**効率化**、**個別化**、**多様性**を実現し、教師と生徒の両方に大きな価値をもたらします。ただし、技術の導入には教育現場のニーズや倫理的配慮を十分に考慮する必要があります。

ご希望があれば、具体的な教育現場での活用事例やツールの紹介も可能です。

APIが使えるとモデルを使うのが非常に手軽ですね。Qwen3-Omniは無料クォータがあるので、ぜひAPIを使ってみてください。

Qwen3-omniで音声出力ができるかを検証

Qwen3-omniは多言語対応で、Speech Outputも可能の記載がGitHub上にあります。

**参考：https://github.com/QwenLM/Qwen3-Omni**

下記のコードで生成されたテキストを音声に変換することが可能です。

「Who are you?」という問いに対して返答のテキストを生成し、それを音声に変換しています。

サンプルコードはこちら

import os
import base64
import io
import wave
import soundfile as sf
import numpy as np
from openai import OpenAI

client = OpenAI(
    api_key="",  
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

try:
    completion = client.chat.completions.create(
        model="qwen3-omni-flash",
        messages=[{"role": "user", "content": "Who are you"}],
        modalities=["text", "audio"],  # Specify text and audio output
        audio={"voice": "Cherry", "format": "wav"},
        stream=True,  # Must be set to True
        stream_options={"include_usage": True},
    )

    print("Model response:")
    audio_base64_string = ""
    for chunk in completion:
        if chunk.choices and chunk.choices[0].delta.content:
            print(chunk.choices[0].delta.content, end="")

        if chunk.choices and hasattr(chunk.choices[0].delta, "audio") and chunk.choices[0].delta.audio:
            audio_base64_string += chunk.choices[0].delta.audio.get("data", "")

    if audio_base64_string:
        wav_bytes = base64.b64decode(audio_base64_string)
        audio_np = np.frombuffer(wav_bytes, dtype=np.int16)
        sf.write("audio_assistant.wav", audio_np, samplerate=24000)
        print("\nAudio file saved to: audio_assistant.wav")

except Exception as e:
    print(f"Request failed: {e}")

かなり流暢に喋っていて、AIが喋っているとは思えない完成度です。

多言語対応とのことなので、日本語でも喋ってもらおうと思います。

イントネーションに多少の違和感はあるものの、電話やチャットの音声対応には十分耐えられる完成度だと感じます。

なお、Alibaba発キャラクター動画生成AIであるWan2.2-Animateについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Wan2.2-Animate】Alibaba発キャラクター動画生成AI！性能・ライセンス・使い方・Wan2.1との違いを徹底解… Wan2.2-Animateは、1枚の画像から自然な動作や表情を再現できるAlibaba発の動画生成モデル。特徴・性能・使い方まで詳しく紹介！

まとめ

本記事ではQwen3-Omniの概要から実際の使い方まで解説をしました。

質問に対する返答を生成し、それを音声ファイルとして出力できるのは、従来のLLMにはなかった機能といえるでしょう。

使い方によっては、カスタマーサポートなどでかなり重宝するモデルだと思います。

ぜひ皆さんも本記事を参考にQwen3-Omniを使ってみてください！

最後に

いかがだったでしょうか？

Qwen3-Omniの実力を体験し、マルチモーダルAIの新しい可能性を試してみましょう。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル（LLM）比較レポート