Microsoft初の自社モデル「MAI-Voice-1/MAI-1-preview」徹底解説

Microsoft 初 自社モデル MAI-Voice-1 MAI-1-preview 徹底解説
押さえておきたいポイント
  • マイクロソフト社の自社開発MAIでOpenAI依存から転換へ
  • MAI-Voice-1:1分音声を数秒で生成
  • MAI-1-preview:MoE採用で日常質問に強い

2025年8月29日、MicrosoftのAI部門「Microsoft AI(通称MAI)」は音声生成AI「MAI-Voice-1」とその基盤モデル「MAI-1-preview」を公開しました!

今回のリリースは、従来OpenAIのモデルに依存しがちだったMicrosoftが、自社の技術によって飛躍しようとしていることを示す画期的な発表となっています。

MAI-Voice-1は、テキストから驚くほど自然な音声を超高速で生成できる音声AIモデルであり、一方のMAI-1-previewはMicrosoft初の大規模言語モデル(LLM)で、ユーザーからの指示に従って有用な回答を返すことに特化しています。

本記事では、この2つのモデルの違いや性能、ライセンス情報や実際の使い方まで、詳しく解説します。

ぜひ最後までご覧ください。

\生成AIを活用して業務プロセスを自動化/

目次

MAI-Voice-1とMAI-1-previewの概要

概要
参考:https://microsoft.ai/news/two-new-in-house-models/

MAI-Voice-1は、Microsoft AIチームが独自に開発した高度な音声生成AIモデルです。

文章からの忠実度が高く、表現力豊かな音声を作り出せる点が最大の特徴で、1分間の音声を1秒足らずで生成可能という驚異的なスピードを備えています。これは、現時点で業界でも最も効率的な音声システムの1つとされており、たとえば、ニュース記事1本分のナレーションを瞬時に作成できてしまう計算になりますね。

さらに、MAI-Voice-1は、話者の声色や話し方のスタイルまで制御可能で、感情豊かな一人語りから、複数人の会話シーンまで自然に再現することができるようになっています。

一方のMAI-1-previewは、Microsoftが初めて完全内製した汎用大規模言語モデルです。OpenAIのGPTシリーズなどと同様にテキストによる高度な質問応答や指示への応答を得意としており、その開発には約15,000基のNVIDIA H100 GPUを投入して大規模な事前学習・微調整が行われているそうです。

このモデルは、Mixture-of-Experts (MoE)というアーキテクチャを採用しており、複数の専門家ネットワークが協調して動作することで、高い知性を効率良く発揮する設計になっています。

MAI-1-previewは、普段使いに特化していて、まさに日々のユーザーの疑問に答える対話型AIの基盤となることを目指しています。

MAI-Voice-1とMAI-1-previewの違い

MAI-Voice-1とMAI-1-previewは、同じ「MAI」ファミリーに属するとはいえ、その特徴は大きく異なります。

まず、用途の違いですが、MAI-Voice-1が「音声」の生成に特化したモデルであるのに対し、MAI-1-previewは「テキスト」の理解と生成を担うモデルです。言い換えれば、MAI-Voice-1は、ユーザーの入力した文章を基に人間さながらのオーディオコンテンツを出力するのが得意で、一方のMAI-1-previewは、ユーザーからの質問や指示を読み取って適切な回答や文章を作り出すことが得意なモデルとなっています。

技術的なアプローチにも違いがあります。MAI-Voice-1は、Transformerをベースとした音声合成専用モデルで、単一GPUでリアルタイムに動作することを重視した軽量高速設計が特徴です。

それに対してMAI-1-previewは、巨大な計算資源で訓練されたMoE型のLLMであり、高度な知識や推論能力を持つ反面、その実行には大規模なインフラが必要となります。

実際、MAI-Voice-1は、ユーザーのPCやスマートフォンからクラウド経由で音声を生成して即座に聴かせる用途に適していますが、MAI-1-previewは、クラウド上の強力なGPUクラスタで動作し、そこからテキスト結果を返すという形で提供されます。つまり、MAI-Voice-1は「声で応えるAI」MAI-1-previewは「文章で応えるAI」であって、それぞれ得意分野が異なるモデルといえます。

MAI-Voice-1とMAI-1-previewの性能

それでは、それぞれのモデルの性能についてもう少し詳しく見てみましょう。

MAI-Voice-1の性能

まず特筆すべきは、その生成速度と効率の高さです。MAI-Voice-1は、1分間の音声を約1秒で生成できるとされており、この速さは従来の音声生成モデルを遥かに上回る性能です。

実際に試したユーザーからは「これもう人間ちゃうん?」との声も上がっています。

音質面でも、発話の間合いやイントネーションが人間の話者に極めて近く、不自然な機械音声の違和感が少ない高品質な合成が可能です。さらに、多言語のデータで学習しているため、日本語を含む複数言語での発声にも対応している模様です(※日本語での公式デモは出ていませんが、モデルの訓練データは多言語に及ぶとされています)。

まとめると、MAI-Voice-1はリアルタイム性・自然さ・柔軟性の3つの強みを持った音声AIです。

MAI-1-previewの性能

一方のMAI-1-previewは、その名に「プレビュー」とある通り、現在も改良が続けられているモデルですが、既に公開ベンチマークで結果を残しています。AI評価サイト「LMArena」のテキストタスク部門において、MAI-1-previewは総合第13位にランクインしており、OpenAIやGoogle、Anthropicなどの最新モデルに次ぐ性能を見せています。(※1)(※2)

これは、OpenAIのGPT-5GPT-4o、GoogleのGeminiなどトップモデルには及ばないものの、GPT-4相当の旧世代モデルに匹敵する水準に達していることを意味します。

また、MAI-1-previewは、約1.5万基のH100 GPUを用いて訓練されていますが、これは例えばxAIの「Grok」が20万基以上、OpenAIのGPT-5が推定20万基規模とも言われる中では比較的小規模です。それでもこの順位に食い込んでいることから、Microsoftのモデル設計やデータ効率の良さが伺えますね。

もっとも、Microsoft自身、現時点で詳細なベンチマークスコアは公開しておらず、今後のアップデートやさらなるテストで性能アップしていくことも考えられます。

なお、xAIのGrokについて詳しく知りたい方は、以下の記事も参考にしてみてください。

MAI-Voice-1とMAI-1-previewのライセンス

MAI-Voice-1とMAI-1-previewは、いずれもMicrosoftが自社運営するクラウド上で提供するクローズドソースモデルです。そのため、オープンソースのAIモデルとは異なり、利用や改変にはいくつか制約があります。以下の表に商用利用改変再配布特許利用私的利用の可否をまとめました。

利用用途MAI-Voice-1MAI-1-preview
商用利用❌️❌️
改変❌️❌️
配布❌️❌️
特許使用❌️❌️
私的使用⭕️⭕️
MAI-Voice-1とMAI-1-Previewのライセンス

私的利用は、Microsoftが提供する公式サービス内で利用する場合に限り可能です。つまりは、ユーザーが直接モデルを入手してローカルで利用することはできません。例えば、MAI-Voice-1で生成した音声を個人の創作物に利用したり、MAI-1-previewで得た文章回答を個人で参考にすることは問題ありませんが、いずれもMicrosoftのクラウド上で動作させた結果を利用する形となります。

MAI-Voice-1とMAI-1-previewの料金

2025年9月現在、MAI-Voice-1やMAI-1-previewを試すだけであれば料金は発生しません

MAI-Voice-1はCopilot Labs上で無償提供されていて、誰でもMicrosoftアカウントでログインすれば音声生成デモを利用できます。一方、MAI-1-previewについても、一般公開されているLMArenaでの評価テスト利用には費用はかかりません。ただし将来的にこのモデルが正式サービス化され、たとえばAzureのAIサービスやMicrosoft 365 Copilotに統合される段階では、その利用プランに応じた料金が発生する可能性があります。

モデル利用方法料金
MAI-Voice-1Copilot Labsデモ利用無料
MAI-1-previewLMArena利用、APIアクセス(※要事前申請)無料
MAI-Voice-1とMAI-1-Previewの料金

MAI-1-previewについては、段階的にCopilot内に導入していくとの公式声明が出ています。また、APIアクセスについては、こちらのフォームから申請ができます。

MAI-Voice-1とMAI-1-previewの使い方

それでは、実際にMAI-Voice-1およびMAI-1-previewの利用方法について、それぞれ説明します。

MAI-Voice-1の使い方

MAI-Voice-1は現在、一般ユーザー向けにCopilot Labs上で公開されています。WebブラウザでCopilot Labs(音声デモのページ)にアクセスし、Microsoftアカウントでログインしましょう。

ログイン後、「Copilot音声表現」と呼ばれる音声生成デモ画面に進みましょう。

Copilot Labs

ここでは最初にモードを選択するようになっており、「感情 (Emotion)」モードか「ストーリー (Story)」モードのいずれかを選べるようになっています。

Copilot Labs

モード選択が済んだら、入力欄に喋らせたい文章やプロンプトを記入し、画面上の「生成」ボタンをクリックします。するとクラウド上のMAI-Voice-1モデルが動作し、指定に沿った音声ファイルを生成してくれます。

長さの目安は入力内容にもよるかと思いますが、短い文章からは数十秒程度の音声が出力されるようです。生成が完了すると再生コントロールが表示されるので、実際に再生して音声を確認できます。

Copilot Labs

短い文章から20秒ほどの音声を2秒ほどで作ってくれました。生成スピードも音声クオリティも申し分ないですね。ただ、2025年9月時点では、日本語テキストを入力しても、出力音声は英語になってしまうようです。

MAI-1-previewの使い方

MAI-1-previewは、前述のように一般向けの直接利用は提供されていませんが、LMArenaというプラットフォームを通じて間接的に使うことができます。

LMArenaは、様々なAIモデル同士を対話形式で比較評価できる仕組みになっており、アクセスすると、MAI-1-previewを含むランダムに選ばれたモデルと他モデルが提示される質問に回答して、その内容を見比べてどちらが優れているか投票するような形で参加することができます。

具体的な手順としては、まずLMArenaのサイトにアクセスし、テキスト部門の評価ページへ進みます。そこで提示される質問やプロンプトに対して、左側と右側にそれぞれ異なるモデルからの回答が表示されます。

もし、MAI-1-previewが評価対象に選ばれていれば、どちらか一方がMAI-1の回答になります(もう一方は他のモデルの回答になります)。そこから回答内容を読み比べて、「どちらの回答が優れているか」を投票します。これによって間接的ではありますがMAI-1-previewの応答内容や質を体験できるというわけです。

ただし、LMArena上で自分から任意にMAI-1-previewを選んで対話することはできず、あくまでランダムマッチングの評価に参加する形となります。

なお、開発者や企業向けには、Microsoftが提供するフォームからAPI利用の申請を行うこともできます。こちらは選考制で、承認された一部のテスターのみがMAI-1-previewのAPIキーを受け取って、独自のアプリケーションや研究でモデルを直接利用できるようになる仕組みのようです。

実際に、LMArenaで以下画像のように、MAI-1-previewが選択されるまで試行してみると、

LMArena

20回ほどで出会えました。

LMArena

ただし、出会えたところで、次にプロンプトを送ると再度モデルが切り替わってしまうので、2025年9月時点において、MAI-1-previewを試す方法は、実質的にAPI利用申請の承認を得るしかなさそうです。

MAI-Voice-1を使ってみた

MAI-Voice-1を使っていくつか音声を生成してみましょう!

手始めに旅番組風の以下のナレーションを入力プロンプトとします。

モード:感情

スタイル:ナレーション

南国の楽園として人気の国、ハワイ。

魅力溢れる美しい海やビーチ。

今回のドリーム・ホリデーでは、ハワイの楽園を満喫します。

サーフィンやダイビング、ハワイアンダンスなど、楽しいアクティビティにも挑戦します。

さぁ、今日も夢のような旅が始まります。

参考:https://seiyuu-naritai-ooendan.com/narration-tv/

Copilot音声表現

こちらも2秒ほどで生成してくれました。相変わらずの生成スピードの速さ。肝心の生成内容も概ね意図通りの音声になっています。

では続いて、モードと人物設定は変えずにスタイル設定をニュースに変更して再生成してみましょう。

ニュース風なので、ナレーション口調と異なって、読み上げスピードが速くなっていますね。その分、音声の長さも短尺となっています。

最後に、長文も試してみましょう。日本昔話から「桃太郎」の以下のテキストを入力プロンプトとします。

モード:ストーリー

むかし、むかし、ある所におじいさんとおばあさんが住んでいました。
おじいさんは山へしば刈りに、おばあさんは川へ洗濯に行きました。
おばあさんが川で洗濯をしていると大きな桃が流れてきました。
「なんと大きな桃じゃろう!家に持って帰ろう。」
とおばあさんは背中に担いで家に帰り、その桃を切ろうとすると、なんと桃から大きな赤ん坊が出てきたのです。
「おっとたまげた。」
二人は驚いたけれども、とても喜び、
「何という名前にしましょうか。」
「桃から生まれたから、桃太郎というのはどうだろう。」
「それがいい。」
桃太郎はあっと言う間に大きくなり、立派な優しい男の子になりました。
ある日、桃太郎は二人に言いました。
「鬼ケ島に悪い鬼が住んでいると聞きました。」
「時々村に来て悪いことをするのでみんな困っている。」
とおじいさんが答えると、
「それでは私が行って退治しましょう。おかあさん、きび団子を作って下さい。」
おばあさんはとてもおいしい日本一のきび団子を作り、桃太郎はそれを腰の袋に入れるとさっそく鬼ケ島に向けて旅立ちました。
旅の途中、桃太郎は犬に会い、
「桃太郎さん、袋の中に何が入っているだい。」
「日本一のきび団子だよ。」
「僕に一つくれればお伴します。」
犬は桃太郎から一つ団子をもらい家来になりました。
桃太郎と犬が歩いて行くと、猿がやってきて、
「桃太郎さん、袋の中に何が入っているんだい。」
「日本一のきび団子だよ。」
「僕に一つくれればお伴します。」
猿は桃太郎から一つ団子をもらい家来になりました。
しばらく行くと、キジが飛んできて、
「桃太郎さん、袋の中に何が入っているんだい。」
「日本一のきび団子だよ。」
「僕に一つくれればお伴します。」
キジは桃太郎から一つ団子をもらい家来になりました。
しばらく行くと鬼ケ島が見えてきました。
「あれが鬼ケ島に違いない。」犬が吠えました。
鬼ケ島に着くと、お城の門の前に、大きな鬼が立っており、桃太郎は大きな石をつかむと鬼に向かって投げました。
猿は門に登り鍵を開けました。キジは鬼の目をつつきました。
「こりあ参った。助けてくれ~」
そういうと、鬼はお城の中に逃げていきました。
するとお城から沢山の鬼が出てきて、ついに大きな鬼があらわれました。
「生意気な小僧。俺様が懲らしめてやる。」
大きな鉄棒を振り回しながら言いました。
「あなたがかしらですか。」と言うと桃太郎はすばやく鉄棒の上に飛び乗り、
「悪い鬼、村人に悪いことをしたからには許せない。私のこぶしを受けてみろ。」
「アイタタ、ごめん。ごめん。許してくれ。降参だ。」
「本当に約束するか。」
「約束する。嘘はつきません。宝物をやります。」
桃太郎はお城の金や銀や織物や、荷車一杯の宝物を手に入れました。
こうして、桃太郎はおじいさんとおばあさんの待つ家に帰り、みんなで幸せにくらしました。

参考:https://www.douwa-douyou.jp/contents/html/douwastory/douwastory1_05.shtml

Copilot音声表現

入力した時点で「最適な結果を得るには、文章を簡潔にしてください」と警告表示されましたが、このまま生成してみます。

通常の読み上げトーンと、かぎ括弧部分の読み上げトーンが区別されていて、良い感じです!内容もほとんど原文ママといったところです。

ただ、出力が途中で切れてしまっている気がするので、警告表示の通り、入力プロンプトはある程度簡潔にする必要がありそうです。

とはいえ、数秒で、表現力豊かな人間さながらの音声を生成してくれることを確認できました。

まとめ

MAI-Voice-1とMAI-1-previewは、Microsoft AI戦略のスタートといえると思います。Microsoftは「自社モデル・OpenAIモデル・オープンソースモデルを使い分けて、最高の結果を引き出すハイブリッド戦略」を掲げていて、今回の自社モデル公開もその一環だと考えられます。

今後のさらなるアップデートやモデルの追加にも期待していきましょう!

最後に

いかがだったでしょうか?

ポッドキャストや動画音声の自動生成に興味がある方は、ぜひ無料相談をご利用ください。導入支援も可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次