Qwen3-ASR-Flashとは?Alibaba発の多言語×高精度な音声認識モデルを徹底解説

Qwen3-ASR-Flash とは Alibaba発 多言語 高精度 音声認識モデル 徹底解説
押さえておきたいポイント
  • 11言語と方言・歌声にも対応する高精度な多言語音声認識モデル
  • 文脈情報を与えることで固有名詞や専門用語の認識精度が向上
  • 軽量かつ高速なQwen3-ASR-Flashはローカル・クラウド双方で実用的

2025年9月9日、アリババから新たなモデルが登場!

今回登場した「Qwen3-ASR」は音声認識モデルであり、多言語かつ高精度の自動音声認識を実現しています。特にQwen3-ASR-Flashという軽量かつ高速モデルが注目を集めています。

本記事ではQwen3-ASR-Flashの概要から使い方、実際に使ってみた成果をお伝えします。本記事を最後までお読みいただければ、Qwen3-ASR-Flashの使い方を理解することができます。ぜひ最後までお読みください!

\生成AIを活用して業務プロセスを自動化/

目次

Qwen3-ASR-Flashの概要

Qwen3-ASR-Flashは、従来のASRモデルと比較して幅広い言語対応と高い認識精度を持つ音声認識モデルです。

参考:https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

対応言語は中国語(四川語、閩南語、呉語などの主要方言を含む)、英語(米国英語、英国英語などの地域アクセントも含む)、さらに日本語、韓国語、フランス語、ドイツ語、ロシア語、イタリア語、スペイン語、ポルトガル語の合計11言語です。

また、音声認識の難易度が高いとされる「歌声」に対しても強い認識能力を持ち、音楽的背景や伴奏がある状況でも正確に歌詞を認識できる点が大きな特徴です。さらに、ユーザーがあらかじめ関連する文脈テキストを与えることで、固有名詞や専門用語の認識精度を高められる「コンテクストバイアス機能」も搭載しています。

コンテクストバイアス機能

通常の音声認識モデルは、入力された音声を統計的・音響的にもっとも妥当とされる文字列へ変換します。しかし、この場合「固有名詞」や「専門用語」、あるいは文脈的に正しいが一般的ではない言い回しなどが誤って変換されることがあります。

Qwen3-ASR-Flashでは、この問題に対応するために、ユーザーがあらかじめ背景情報となるテキストをモデルに与え、その情報を「バイアス」として利用可能です。

例えば、会議の議題に登場する製品名や人名、医学・工学分野の専門用語などを提示しておくと、モデルはそれらを優先的に候補として認識し、誤変換を大幅に減らしてくれます。

Qwen3-ASR-Flashの性能

Qwen3-ASR-Flashの性能は高く、下記の比較を見ても明らかです。

参考:https://qwen.ai/blog?id=41e4c0f6175f9b004a03a07e42343eaaf48329e7&from=research.latest-advancements-list

上記はQwen3-ASR-Flashとその他のモデルのエラー率の比較です。

エラー率なので、数値が低いほどエラーが少ないということになりますが、パブリックテスト・インターナルテストいずれでもエラー率が非常に低いことがわかります。

エラー率が低いということは、音声認識モデルが聞き取った音声を文字に変換する際の間違いが少ないということになるので、「正しく文字起こしができている割合が高い」です。

Qwen3-ASR-Flashのライセンス

Qwen3-ASR-Flashのライセンスは明記されていませんでした。アリババクラウドのLegalページなどを見ても明記はされていません。

利用用途可否
商用利用不明
改変不明
配布不明
特許使用不明
私的使用不明

一方で商用利用については、下記の利用規約の記載もあります。今回はモデルなのでChatとは異なるかもしれません

2. Ownership of User Content.As between you and Alibaba, and to the extent permitted by applicable law, you retain any right, title, and interest that you have in the Prompts you submit. Subject to your compliance with our Terms, we assign to you all of our right, title, and interest—if any—in Outputs generated at your request and provided to you in response to Prompts submitted by you.

引用:Qwen Chat Terms of Service

翻訳

2. ユーザーコンテンツの所有権。ユーザーとAlibabaとの間において、および適用される法律で認められる範囲において、ユーザーは、ユーザーが提出したプロンプトについて有する一切の権利、権原および権益を保持します。当社は、利用者が当社の条件に従うことを条件として、利用者の要求に応じて生成され、利用者が提出したプロンプトに応答して利用者に提供されるアウトプットに関する当社の権利、権原および利益のすべてを利用者に譲渡します。※1

Qwen3-ASR-Flashの料金

Qwen3-ASR-FlashはAPIを使って利用しますが、利用料金は以下のように設定されています。

$0.000032/秒

サポートサンプルレートは16kHz、サポート言語は前述した11言語です。

なお、1兆パラメータを超える圧倒的な規模のQwen3-Max-Previewについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Qwen3-ASR-Flashの使い方

Qwen3-ASR-Flashを使うにはアリババクラウドのAPIキーが必要になります。

ただし、本記事執筆段階(2025年9月10日)時点では北京リージョンのAPIキーを持っていないとAPIを使うことができないようです。

参考:https://bailian.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2979031

そのため、Hugging Faceに用意されているデモ版を使いたいと思います。

与える音声についてはこちらのサイトのものを使用しています。今回は「CM原稿(せっけん)」を使用します。

出力結果はこちら
無添加のシャボン玉石けんならもう安心。天然の保湿成分が含まれるため、肌に潤いを与え、健やかに保ちます。お肌のことでお悩みの方は、ぜひ一度無添加シャボン玉石けんをお試しください。お求めは0120-0055-95まで。

デモ版だからなのか、処理には時間がかかっていますが、非常に精度が高く、100%の精度で文字起こしされています…!

処理時間の長さを感じていただきたいので、上記動画は倍速編集などは一切していません。

YouTubeにアップされている動画から文字起こしを検証

Qwen3-ASR-Flashの精度が高いのはサンプル音声だからかもしれないので、YouTubeにアップされている動画の音声を使って検証してみたいと思います。

今回使う動画の音声はこちらです。

出力結果はこちら
さあ大谷の四回のマウンドです。初球これは三塁線破っていきます。先頭四番のマウントゲスツ、レフトへのツーベースヒット、ノーアウトのランナーです。さあ今日は改めて先発グラスナウの予定でしたがグラスナウが背中〜

こちらも適切に文字起こしされていました…!

バックグラウンドで観客の声とか入っていますが、100%の精度で文字起こしされていますね。外国人選手の名前も間違っていませんでした。

次は英語の動画です。動画はこちら。2025年9月10日に開催されたAppleのイベントの一部です。

音声はこちら。

結果はこちら
Including the products we're going to introduce today and the experiences they provide. From the magical listening experience with AirPods, to the ways your Apple Watch keeps you healthy, active, and connected, to how iPhone helps you with so many things throughout your day. It's also true of our new software design, featuring our innovative Liquid Glass. It brings fluidity, vitality, and flexibility to the things you do every day. It's absolutely gorgeous and delivers a more intuitive and delightful user experience. We bring so much care and consideration to every detail. From every product, service, and technology we create to the.
日本語訳はこちら
本日ご紹介する製品と、それらが提供する体験を含めて。AirPodsによる魔法のようなリスニング体験から、Apple Watchが健康維持・活動促進・つながりをサポートする方法、そしてiPhoneが日々の様々な場面で役立つ方法まで。革新的なリキッドグラスを採用した新たなソフトウェアデザインにも同じことが言えます。日常のあらゆる行動に流動性、活力、柔軟性をもたらします。圧倒的な美しさと、より直感的で楽しいユーザー体験を実現。私たちはあらゆる細部に細心の注意と配慮を注いでいます。創り出す製品、サービス、技術の一つひとつに。

音声を聞きながら正誤を判断するのは難しいですが、日本語訳を見てみると、話している内容とは一致しそうです。

Qwen3-ASR-Flashはかなり自然な文章かつ高精度で文字起こししてくれることがわかります。

なお、Microsoft初の自社モデルである音声生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

まとめ

本記事ではQwen3-ASR-Flashの概要から使い方、使ってみた成果をお伝えしました。実際に使ってみると、確かに精度高く音声認識をしてくれていました。驚いたのは、電話番号の「-」まで正確に文字起こしている点です。

これだけ精度高く日本語を文字起こししてくれるのであれば、活用場面の幅が広がりそうです。

ぜひ皆さんも本記事を参考にQwen3-ASR-Flashを使ってみてください!

WEELが“失敗しないAI導入”を伴走します。

最後に

いかがだったでしょうか?

Qwen3-ASR-Flashの導入やPoC支援をご希望の方はお気軽にご相談ください。用途や精度要件に合わせたご提案も可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

参考記事

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次