ポッドキャストも自動生成時代へ!VibeVoice-1.5Bが変える音声AIの未来

ポッドキャスト 自動生成 時代 VibeVoice-1.5B 変える 音声AI 未来
押さえておきたいポイント
  • 最長90分の音声生成が可能
  • より人間らしい音声の生成を実現
  • 自然すぎて生成された音声とは思えないクオリティ

2025年8月26日、Microsoftから新たなTTSモデルがリリースされました。

今回リリースされたVibeVoice-1.5Bは長尺・マルチスピーカー音声生成が可能。本モデルの開発背景として、従来のTTSが短い発話や単一話者に強かったのに対し、本モデルはポッドキャストやオーディオブックのような長時間の会話音声を自然に合成することを目的に開発されています。

本記事ではVibeVoice-1.5Bの概要から使い方、活用事例について考えていきます。本記事を最後までお読みいただければVibeVoice-1.5Bの理解が深まります。ぜひ最後までお読みください!

\生成AIを活用して業務プロセスを自動化/

目次

VibeVoice1.5Bの概要

VibeVoice-1.5Bは、長尺の会話音声を自然に生成することを目的としたTTSモデル。特にポッドキャストやオーディオブックといった長時間コンテンツを想定して設計されています。

主な特徴は次の通りです。

  • 最長90分の音声生成が可能
  • 最大4人のマルチスピーカーに対応
  • 自然なターンテイキング(会話の切り替わり)を実現
  • 次トークン拡散(next-token diffusion)による高音質な音声生成

実際の音声がこちら。

いかがでしょうか?TTSで生成したと言われないと正直わからないレベルです。

VibeVoice-1.5Bの技術

VibeVoiceは、音声を「圧縮・表現」するためのAcoustic TokenizerSemantic Tokenizerの二つを使用しています。

Acoustic Tokenizerは σ-VAEを利用した構造で、24kHzの音声を3200倍に圧縮し、7.5トークン/秒という極めて低いフレームレートに変換。

通常広く用いられるEncodecなどと比べておよそ80倍の効率を実現しながらも、音質はほとんど損なわれず、客観評価では PESQが3.068、UTMOSが4.181といった高スコアを記録。

Semantic Tokenizerは音声の「意味情報」を抽出するために設計されており、ASRタスクを用いた事前学習を通じて、テキストの意味表現に近い形でエンコードを実施。

Acoustic Tokenizer が声質や音響的特徴を保持するのに対し、Semantic Tokenizerは内容的な意味を担保するため、この二つを組み合わせることで、VibeVoiceは 「声質+意味」 の2面性を高いレベルで維持することができます。

VibeVoice-1.5Bの性能

VibeVoice-1.5Bの性能について、下記の画像をもとに説明します。

参考:https://huggingface.co/microsoft/VibeVoice-1.5B

左上の棒グラフは人間が音声を評価した結果です。表現力、自然さ、好ましさという3つの観点から評価。

グラフを確認するとわかるように、VibeVoiceは「自然さ」「表現力」「好ましさ」で既存モデルを上回る結果です。

また折れ線グラフは横軸が「モデルの登場年(2023〜2025)」、縦軸が「生成可能な音声の長さ(秒単位)」。

折れ線グラフが示すようにVibeVoiceは圧倒的に生成可能な音声の長さが伸びていることがわかります。

参考:https://microsoft.github.io/VibeVoice/

上記は1枚目の棒グラフのモデル数を増やした結果です。1枚目では表現力、自然さ、好ましさという3つの観点で評価をしていましたが、上記の画像では人間の好ましさとして評価しています。

その結果VibeVoice-7Bはトップの性能を発揮。ついでGeminiのTTSがランクインしています。一方でVibeVoice-1.5Bは軽量モデルながら3位にランクインしており、VibeVoice全体としての性能の高さが伺えます。

VibeVoice1.5Bのライセンス

VibeVoice1.5BのライセンスはMITライセンスです。特許使用について、ライセンス上に明示的に「特許使用が可能」とは記載されていませんので、不明としています。また、MITライセンスでは配布する場合(修正版・バイナリ含む)、オリジナルの著作権表示とライセンス文を残す義務があります。

利用用途可否
商用利用⭕️
改変⭕️
配布⭕️
特許使用不明
私的使用⭕️
参考:https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md

なお、世界最高峰の音声認識AI【Voxtral】について詳しく知りたい方は、下記の記事を合わせてご確認ください。

VibeVoice1.5Bの使い方

VibeVoice-1.5Bはデモサイトが用意されているので、誰でも手軽に利用可能なのですが、本記事執筆中にデモサイトを使ってみたら、エラー頻発で使い物になりませんでした。

参考:https://86636c494bbddc69c7.gradio.live/

デモサイトが使えなかったので、google colaboratoryを使ってGradioを起動しましょう。

実行した際のgoogle colaboratoryの環境はこちら。

◆システム RAM
3.3 / 53.0 GB
◆GPU RAM
6.5 / 22.5 GB
◆ディスク
50.8 / 112.6 GB
◆無料プラン
◆GPU:L4

下記がコマンドです。

サンプルはこちら
!apt update && apt install ffmpeg -y
!pip install flash-attn --no-build-isolation
%cd VibeVoice
!pip install -e .
!python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

最後の行を実行するとURLが表示されるので、それにアクセスすればGradioを起動できます。

そして実際に作成した音声がこちら。

日本語で音声を生成できるのかを検証

VibeVoice-1.5Bでは、英語と中国語のみ対応のようで、テクニカルレポートでは「他言語は予期しない出力を生成する可能性がある」と言及されています。※1

しかし、生成が不可能というわけではなさそうなので、実際に日本語の生成ができるのかを確認してみます!

今回は下記の内容を生成してもらいます。

プロンプト例はこちら
Speaker A: 最近、新しい趣味を始めたんです。
Speaker B: そうなんですか。どんな趣味ですか。
Speaker A: 写真撮影です。デジタル一眼レフを買いました。
Speaker B: いいですね。どんな被写体を撮るのが好きですか。
Speaker A: 風景写真が多いです。特に夕焼けを撮るのが楽しくて。
Speaker B: 夕焼けの写真は美しいですよね。今度見せてください。
Speaker A: 最近、新しい趣味を始めたんです。
Speaker B: そうなんですか。どんな趣味ですか。
Speaker A: 写真撮影です。デジタル一眼レフを買いました。
Speaker B: いいですね。どんな被写体を撮るのが好きですか。
Speaker A: 風景写真が多いです。特に夕焼けを撮るのが楽しくて。
Speaker B: 夕焼けの写真は美しいですよね。今度見せてください。

生成された音声がこちら。

不可能ではないですが、やはり予期せぬ出力がされていました。今後日本語に対応されるのを期待します。

なお、Google発リアルタイム音楽AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

まとめ

本記事ではVibeVoice-1.5Bの概要から使い方について解説をしました。VibeVoice-1.5Bで生成された音声は正直人間が喋っているのか生成された音声なのか判別がつきませんでした。

VibeVoice-1.5Bをうまく活用することで、Youtubeやポッドキャスト、カスタマーサポートなどに使えそうです。ぜひ皆さんも本記事を参考にVibeVoice-1.5Bを使ってみてください!

最後に

いかがだったでしょうか

ポッドキャストや動画音声の自動生成に興味がある方は、ぜひ無料相談をご利用ください。導入支援も可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

参考記事

投稿者

  • WEEL Media部

    株式会社WEELが運営する生成系AI関連メディア「生成AI Media」は、AIの専門家によるWebメディアです。 AIに特化した編集部がAIの活用方法、導入事例、ニュース、トレンド情報を発信しています。

  • URLをコピーしました!
  • URLをコピーしました!
目次