世界最高峰の音声認識AI爆誕!Mistralの「Voxtral」を徹底解剖

世界最高峰 音声認識AI 爆誕 Mistral Voxtral
押さえておきたいポイント
  • 音声の内容理解までできる次世代音声認識モデル
  • 24Bパラメータの高性能モデル「Voxtral Small」と、3Bパラメータの軽量版「Voxtral Mini
  • API利用料金は1分あたり0.001ドル(約0.15円)〜

オープンソースの音声認識モデルと言えば、OpenAIのWhisperが事実上のスタンダードで、その精度の高さで、音声入力の実用化が一気に広まりました。

そんな中で、2025年7月15日、フランスのスタートアップMistral AI社が、「音声の内容理解」までできる次世代音声モデル「Voxtral(ボックストラル)」をリリースしました!

Mistral AI社はVoxtralを「実際に現場で使える音声インテリジェンス」と位置づけており、有料の既存音声AIサービスに匹敵しうる性能を持ちながら、オープンソースかつ低価格で利用できるのが特徴とのこと。

本記事では、このVoxtralの概要から性能、使い方まで詳しく解説し、実際に試して見えてきた凄さをお伝えしますので、ぜひ最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

目次

Voxtralの概要

Voxtralは、Mistral AI社が開発した最新のオープンソース音声認識・理解モデルです。

出典:https://mistral.ai/news/voxtral

音声の文字起こしと音声内容の理解を一体化した「音声理解モデル」と位置付けられており、大規模言語モデルでテキスト処理で定評のあるMistral Small 3.1がベースモデルとなっています。この構造によって、単に音声をテキスト化するだけでなく、その内容を直接解析し、質問に答えたり要約を生成したりする高度な機能を備えています

Voxtralは、用途に応じた2種類のモデルが提供されています。ひとつは240億(24B)パラメータを持つ高性能モデル「Voxtral Smallで、大規模システムでの本番利用を想定しています。もうひとつは30億(3B)パラメータの軽量版「Voxtral Miniで、ローカル環境やエッジデバイス向けに適したモデルです。

そして、Voxtralは、32,000トークンという非常に長いコンテキストウィンドウを備えていて、最長で約30分の音声を一度に文字起こししたり、最大40分間の音声内容を理解することが可能です。長時間の会議音声や講演でも、1つのプロンプトで全体を処理して要約・分析できちゃいますね。

また、高度な質問応答(Q&A)や要約生成がビルトインされている点もVoxtralの特徴です。音声コンテンツについて直接モデルに質問し、回答を得たり、会話や講義の要点を自動で構造化された要約にまとめたりできます。これも音声認識結果をいちいち別の言語モデルに渡すことなく、単一のVoxtralだけで完結できるので効率アップが見込めます。

さらに、Voxtralは多言語対応しています。音声から自動で話者の言語を検出し、英語・スペイン語・フランス語・ポルトガル語・ヒンディー語・ドイツ語・オランダ語・イタリア語・アラビア語など、世界の主要言語で最先端の認識精度を発揮してくれます。

Voxtralの性能

Mistral AI社によると、音声文字起こし精度においてVoxtralはOpenAIのWhisper large-v3を総合的に上回ったことが示されています。

出典:https://mistral.ai/news/voxtral

また、OpenAI系の小型モデルであるGPT-4o Mini Transcribeや、Google DeepMindのGemini 2.5 Flashといった商用モデルと比較しても、幅広いタスクでいずれもVoxtralが凌駕する結果とされています。

具体的には、英語の30秒未満の短い音声の認識や、Mozilla Common Voiceデータセットの精度で世界最先端のスコアを記録し、ElevenLabs社の高品質なAPIであるScribeすらも上回る性能を示しています。これはオープンモデルとしては驚異的で、「世界最高レベルの音声認識モデル」と公式が豪語するのも納得の性能ですね。

多言語対応の性能も優れています。様々な言語での音声認識精度を評価するFLEURSベンチマークにおいて、Voxtral Small(24Bモデル)はテストしたすべての言語でWhisperを上回る精度を叩き出しています。特にフランス語・スペイン語・イタリア語・ドイツ語といった欧州言語では最先端の結果を示しており、英語以外の多言語音声認識でもトップレベルに位置付けられます。

出典:https://mistral.ai/news/voxtral

Voxtralの能力は文字起こしだけでなく、音声内容の理解においても高い水準にあります。音声入力に対する質問応答や要約生成といったタスクでは、OpenAIのGPT-4o MiniやGoogleのGemini 2.5 Flashと遜色ない結果を示しています。

出典:https://mistral.ai/news/voxtral
出典:https://mistral.ai/news/voxtral

特に音声から音声への翻訳(Speech Translation)においては最新のベンチマークで世界最高性能を達成しており、外国語の音声を別言語のテキストに変換するタスクでも最先端です。

Voxtralのライセンス

VoxtralはApache License 2.0で提供されています。Apache 2.0は商用利用から改変・再配布まで幅広く許可されたオープンソースライセンスです。

利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用⭕️
私的使用⭕️
参考:https://mistral.ai/news/voxtral

Voxtralの利用料金

Voxtralは、モデル自体はオープンソースとして無償公開されていますので、自前でサーバーを用意して動かす場合、ライセンス料等は一切かかりません。さらに、クラウド上で利用できるAPIも提供していますが、そのAPI利用料金が破格の安さで、VoxtralのAPI統合は1分あたり0.001ドル(約0.15円)からで利用することができます。

利用形態料金
セルフホスト無料
Voxtral Mini Transcribe (API)$0.002 / 分 (約0.3円/分)
Voxtral Mini (API)$0.001 / 分 (約0.15円/分)
Voxtral Small (API)$0.004 / 分 (約0.6円/分)
参考:https://mistral.ai/pricing#api-pricing

例えば、OpenAIのWhisper APIは1分あたり0.006ドルなので、Voxtral Mini Transcribeなら約1/3、Miniなら1/6の価格という計算になります。音声認識のコストがこれほど低いと、長時間の録音データを大量に処理するようなケースでも費用を気にせず活用できるのでありがたいですね。

Voxtralの使い方

ここからは、Voxtralの具体的な使い方について解説します。

Voxtralはオープンソースモデルですので、自分でモデルをダウンロードして使う方法、クラウドのAPI経由で手軽に利用する方法、Web上のデモアプリで試す方法まで、いくつか選択肢があります。以下、3つの利用方法を順に紹介しますので、ご自身のシーンに合わせて、最適な方法を選んでみてください。

① Webインターフェース(Le Chat)で試す方法

最も手軽にVoxtralを使うには、Mistral AI社が提供しているチャットUILe Chat」上で試す方法がおすすめです。

しかし、7/17時点で、このチャットUIからの利用はまだ開放されておらず、公式ドキュメントには「数週間以内に全ユーザーが利用可能になる予定」と記載されています。

Le Chatは元々テキストチャット型のAIアシスタントですが、数週間以内にはVoxtralを統合した音声モードが提供される予定です。Le Chat上では追加のプログラミングは不要で、ブラウザさえあればすぐにVoxtralの実力を試せるので、開放されたらぜひとも試したいですね。

② APIを利用する方法

Voxtralを自分のアプリケーションやサービスに組み込んで使いたい場合は、Mistral AIの提供するAPIエンドポイントを利用するのが便利です。

Mistral AIのプラットフォームにサインアップしてAPIキーを取得する方法は以下のとおり。

「Choose a plan」をクリック。

お好みのプランを選択。

規約に同意してサブスクライブ。

携帯番号を登録して、番号認証。

以下画面が表示されればアカウント登録は完了です。

API Keysタブから「Create new key」ボタンをクリック。

Key nameを入力して、「Create new key」ボタンを押せばAPIキー作成が完了です。

APIキーが取得できたら、あとは、公式ドキュメントに従って、HTTPリクエストを送ることで、音声データをサーバー側のVoxtralモデルに処理させることができます。エンドポイントはいくつかありますが、例えば、文字起こし専用の簡易エンドポイント(Voxtral Mini Transcribe)を使えば、REST APIで音声ファイルを送信するだけで、テキスト化された結果が返ってくるとのこと。

また、音声内容の理解まで含めた高度なエンドポイントでは、ユーザーが音声と一緒にテキストプロンプト(例:「以上の音声を要約してください」など)を送ることで、音声に対する応答や要約結果を得られます。

③ モデルをダウンロードしてローカルで使う方法

Voxtralのモデルデータをダウンロードして自前のマシンで実行することも可能です。

Mistral AIは、Hugging Face上にモデルを公開しており、無料のアカウントでアクセスできます。Hugging Faceのモデルページmistralai/Voxtral-Small-24B-2507およびmistralai/Voxtral-Mini-3B-2507)からモデルファイル一式を取得し、手元の環境に配置します。

モデルサイズが大きいためgit-lfs経由でダウンロードすると良いと思います。24B版はファイルも巨大(数十GB級)ですので高速なネット回線も必要になるかと思います。

Mistral AIはvLLMというライブラリを推奨しており、これを使うと比較的少ないメモリで効率的に実行できるよう工夫されています。基本的にはHuggingFaceに記載されているコマンドを実行しましょう。

Voxtralを使ってみた

今回は、API経由でローカル環境で文字起こし機能を実装していきます。

まずはMistral Consoleで作成したAPIキーを環境変数に設定します。

export MISTRAL_API_KEY="xxxxxxxx"

続いて入力用の音声ファイルを準備します。今回はバラク・オバマ氏のサンプル音声ファイルを使っていきます。

 curl -L -o sample.wav \
  https://huggingface.co/datasets/patrickvonplaten/audio_samples/resolve/main/obama.mp3

準備できたら実際に文字起こししてみます。

プロンプトはこちら
curl --location 'https://api.mistral.ai/v1/audio/transcriptions' \
  --header "x-api-key: $MISTRAL_API_KEY" \
  --form file=@obama.mp3 \
  --form model=voxtral-mini-2507
結果はこちら
{"model":"voxtral-mini-2507","text":"This week, I traveled to Chicago to deliver my final farewell address to the nation, following in the tradition of presidents before me. It was an opportunity to say thank you. Whether we've seen eye to eye or rarely agreed at all, my conversations with you, the American people, in living rooms, in schools, at farms and on factory floors, at diners and on distant military outposts, All these conversations are what have kept me honest, kept me inspired, and kept me going. Every day, I learned from you. You made me a better President, and you made me a better man. Over the course of these eight years, I've seen the goodness, the resilience, and the hope of the American people. I've seen neighbors looking out for each other as we rescued our economy from the worst crisis of our lifetimes. I've hugged cancer survivors who finally know the security of affordable health care. I've seen communities like Joplin rebuild from disaster, and cities like Boston show the world that no terrorist will ever break the American spirit. I've seen the hopeful faces of young graduates and our newest military officers. I've mourned with grieving families searching for answers. And I found grace in a Charleston church. I've seen our scientists help a paralyzed man regain his sense of touch and our wounded warriors walk again. I've seen our doctors and volunteers rebuild after earthquakes and stop pandemics in their tracks. I've learned from students who are building robots and curing diseases, and who will change the world in ways we can't even imagine. I've seen the youngest of children remind us of our obligations to care for our refugees, to work in peace, and above all, to look out for each other. That's what's possible when we come together in the slow, hard, sometimes frustrating, but always vital work of self-government. But we can't take our democracy for granted. All of us, regardless of party, should throw ourselves into the work of citizenship. Not just when there's an election. Not just when our own narrow interest is at stake, but over the full span of a lifetime. If you're tired of arguing with strangers on the Internet, try to talk with one in real life. If something needs fixing, lace up your shoes and do some organizing. If you're disappointed by your elected officials, then grab a clipboard, get some signatures, and run for office yourself. Our success depends on our participation, regardless of which way the pendulum of power swings. It falls on each of us to be guardians of our democracy. to embrace the joyous task we've been given to continually try to improve this great nation of ours. Because for all our outward differences, we all share the same proud title, citizen. It has been the honor of my life to serve you as President. Eight years later, I am even more optimistic about our country's promise, and I look forward to working along your side as a citizen for all my days that remain. Thanks, everybody. God bless you, and God bless the United States of America.","language":"en","segments":[],"usage":{"prompt_audio_seconds":203,"prompt_tokens":4,"total_tokens":3263,"completion_tokens":634}}%

This week, I traveled to Chicago…以降が文字起こしされたテキストです。

実際の音声を聞きながら比較してみると、正確に文字起こしできていることが分かります。

次に公式ドキュメントに日本語対応について明記がありませんので、日本語音声に対応しているかどうかを確認してみます。サンプル音声はこちらのサイトのG-01「CM原稿(せっけん)」を使用します。

プロンプトはこちら
curl --location 'https://api.mistral.ai/v1/audio/transcriptions' \
  --header "x-api-key: $MISTRAL_API_KEY" \
  --form file=@japanese_woman.mp3 \
  --form model=voxtral-mini-2507
結果はこちら
{"model":"voxtral-mini-2507","text":"無天下のシャボン玉セッケンならもう安心。天然の保湿成分が含まれるため、肌に湿いを与え、すこやかに保ちます。お肌のことでお悩みの方は、ぜひ一度、無天下のシャボン玉セッケンをお試しください。お求めは0120-0055-95まで。","language":"ja","segments":[],"usage":{"prompt_audio_seconds":23,"prompt_tokens":4,"total_tokens":485,"completion_tokens":106}}%

日本語も問題なく文字起こししてくれました

無添加の漢字が誤っているのは気になりますが、句読点や電話番号まで最適な出力ができていて良い感じです。

APIキーの利用コストはすぐにはコンソールへ反映されませんでした。

今回利用したモデルの利用料金は、$0.001 / 分 (約0.15円/分)なので、ほとんど無料に近いですが、気になる方は、APIキーの有効期限を短めにしておくなどの対策をしておきましょう。

まとめ

Voxtralは、オープンソースの音声認識・理解AIとして画期的な存在です。従来、音声AIの世界では「高性能だがクローズドな商用API」か「自由だが性能不足のオープンモデル」というジレンマがありました。

しかし、Voxtralはその両方の長所を兼ね備え、高い精度と柔軟な利用形態を低コストで提供してくれています。24Bと3Bという2つのモデルによって、クラウドからエッジまで幅広い環境で動作させることも可能で、Apache 2.0ライセンスによって商用利用も含め自由度高く使えるのも嬉しいポイントです。

気になる方はぜひ様々なパターンの音声ファイルを使って、Voxtralのスゴさを実感してみてください。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

生成AIを事業にどう活かせるか、具体的な活用方法や効果的な導入事例を元に専門家が最適なソリューションをご提案します。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次