音声認識で文字起こしの精度を比較検証!話者ダイアライゼーションに対応サービス3選!
WEELメディア事業部AIライターの2scです。
みなさん!文字起こしAIは活用していますか?
入力した音声データをテキストデータとして出力する文字起こしAIは、議事録作成を半自動化してくれる優れもの。すでに多くの企業で活用されていて、例えばみずほ証券は、この文字起こしAIで議事録作成の工数を約3割削減しています。
このように超便利な文字起こしAIですが、なかには「話者ダイアライゼーション」なる機能まで備えた一級品もあるようで……
当記事では、そんな話者ダイアライゼーションができる文字起こしAIを3つ紹介!料金・便利機能・精度などなど、徹底的に比較します。
完読いただくと、会議・電話・トークイベント等の複数人が話す会話の音声データを文字起こしする負担が減らせる……かも。ぜひぜひ、最後までお読みくださいね!
話者ダイアライゼーションとは?
「話者ダイアライゼーション / Speaker Diarization」とは複数人での会話音声について、各人が発話しているパートを推定する技術のこと。原理としては、母音・鼻音・破裂音といった音声の最小単位(音素)の特徴を手がかりに話者を区別するというものです。(※1)
この話者ダイアライゼーションはしばしば、文字起こしAI(Speech-to-Textモデル)に組み込まれます。音声を認識してテキストに変換する文字起こしAIに話者ダイアライゼーションを組み合わせることで「話者を区別しての文字起こし」が実現。議事録作成や通話内容の書き取りで、単なる文字起こし以上の効果が得られるでしょう。
次項からは、そんな話者ダイアライゼーション機能を備えた文字起こしAIを紹介・比較していきます。
なお、逆の処理を行うAIモデルについて詳しく知りたい方は下記の記事もあわせてご確認ください。
話者ダイアライゼーションができる文字起こしAIを3つ紹介!
ここでは、話者ダイアライゼーション機能を備えた文字起こしAIのなかでも、特に有名な下記3点をご紹介します。
- AWS「Amazon Transcribe」
- Google Cloud Platform「Speech-to-Text AI」
- Azure AI services「バッチ文字起こし」
まずは、クラウドでシェアNo.1のAWSによる文字起こしAIから、詳細をみていきましょう!
AWS「Amazon Transcribe」
「Amazon Transcribe」はAWS(Amazon Web Services)が送る、話者ダイアライゼーション機能付きの文字起こしAIです。
その特徴・すごいところとしては……
● 日本語完全対応で、日本語での話者ダイアライゼーションも可能
● AIモデルのカスタムが可能
● 自動句読点 / 語彙の記憶 / 言語識別…etc.の便利機能を多数搭載
● PythonやJavaをはじめ、7種類のプログラミング言語に対応
● コンソール・AWS CLI・SDKから使用可能
以上のとおりで、ほぼ違和感なく読めるテキストデータが出力できます。
また、AWS CLI対応で、AWSの他サービスとの連携もスムーズ。社内インフラをAWSで構築されている企業様に超おすすめの文字起こしAIになります。
公式サイト:Amazon Transcribe(音声をテキストに変換する機能を簡単に追加)
Google Cloud Platform「Speech-to-Text AI」
「Speech-to-Text AI」は、Google Cloud Platformから使える文字起こしAIになります。
その特徴・すごいところとしては以下のとおりで、AIモデルやAPIの選択肢が豊富です。
● 日本語での文字起こしに対応
● AIモデルのカスタムが可能
● 音声入力用から電話音声用まで、用途別に最適なAIモデルが選択可
● PythonやJavaをはじめ、7種類のプログラミング言語に対応
● コンソールとAPI2種のほか、オンプレミスでも使用可能
→APIは、Speech-to-Text v1 API / Speech-to-Text v2 APIが選択可
このSpeech-to-Text AIも一応、話者ダイアライゼーション機能を備えています。ただ、2024年9月時点で話者ダイアライゼーション機能が対応しているのは英語のみ。日本でSpeech-to-Text AIを使う場合は、AIモデルやAPIの選択肢の多さを活かせる場面を選んだほうがよさそうです。
公式サイト:Speech-to-Text – 音声認識と音声文字変換
Azure AI services「バッチ文字起こし」
MicrosoftのAzure AI servicesからは、話者ダイアライゼーションを完備した「バッチ文字起こし」が登場しています。
このバッチ文字起こしの特徴・すごいところは……
● 日本語完全対応で、日本語での話者ダイアライゼーションも可能
● AIモデルのカスタムが可能
● 語彙の記憶や言語識別も可能
● PythonやJavaをはじめ、7種類のプログラミング言語に対応
● Azure AI Studioのコンソール・REST API・SDKから使用可能
以上のとおり。まとめて処理を行うため、コスト面に優れています。
そんなバッチ文字起こしなら、独自の用語・音声コマンドを学習したAIモデルが作れます。文字起こしAIをIoT機器やアプリに組み込みたい場合に、うってつけですね。
公式サイト:バッチ文字起こしの概要 – 音声サービス – Azure AI services | Microsoft Learn
話者ダイアライゼーションができる文字起こしAIを徹底比較!
ここからは、先ほどご紹介した話者ダイアライゼーション機能付きの文字起こしAI3種を徹底比較。下記7項目について、それぞれのアドバンテージを洗い出していきます。
- 話者ダイアライゼーション
- 対応している音源の種類
- 入力できるファイルサイズ
- AIモデルの選択肢
- 言語識別
- 句読点・語彙の反映
- 料金
まずは、メインの話者ダイアライゼーション機能から、3者を比べていきましょう!
話者ダイアライゼーション
文字起こしAI3種のなかで、話者ダイアライゼーション機能に優れているのはAzure AI services「バッチ文字起こし」になります。こちらは日本語での話者ダイアライゼーションに対応していて、なんと最大35人まで話者の識別が可能です。
それ以外の文字起こしAIは、というと……
AWS 「Amazon Transcribe」 | Google Cloud Platform 「Speech-to-Text AI」 | Azure AI services 「バッチ文字起こし」 | |
---|---|---|---|
日本語対応 | ◯ | × | ◯ |
備考 | 話者の最大数は10人まで指定可能 | 話者ダイアライゼーションは英語のみ | 話者の最大数は35人まで指定可能 |
以上のとおり。日本語で話者ダイアライゼーション機能を使いたい場合は、Azure AI services「バッチ文字起こし」かAWS「Amazon Transcribe」の2択になります。
対応している音源の種類
対応している音源の種類については、AWS「Amazon Transcribe」に軍配が上がります。他の文字起こしAI2種が音声にしか対応していないのに対し、Amazon Transcribeは動画の文字起こしにも対応。ファイル形式の選択肢も……
AWS 「Amazon Transcribe」 | Google Cloud Platform 「Speech-to-Text AI」 | Azure AI services 「バッチ文字起こし」 | |
---|---|---|---|
音声 | ◯ | ◯ | △ (モノラル音声のみ) |
動画 | ◯ | × | × |
ファイル形式 | ・AMR ・FLAC ・M4A ・MP3 ・MP4 ・Ogg ・WebM ・WAV | ・MP3 MPEG ・FLAC ・LINEAR16 ・MULAW ・AMR ・AMR_WB ・OGG_OPUS ・SPEEX_WITH_HEADER_BYTE ・WEBM_OPUS | ・WAV ・MP3 ・OPUS/OGG ・FLAC ・WMA ・AAC ・WAVコンテナー内のALAW ・WAVコンテナー内のMULAW ・AMR ・WebM ・M4A ・SPEEX |
以上のとおり豊富で、幅広い用途にて活躍してくれそうです。
入力できるファイルサイズ
入力できるファイルサイズについても、AWS「Amazon Transcribe」が圧勝。下表のとおり、Azure AI services「バッチ文字起こし」の2倍、4時間分もの音声が文字起こしできます。
AWS 「Amazon Transcribe」 | Google Cloud Platform 「Speech-to-Text AI」 | Azure AI services 「バッチ文字起こし」 | |
---|---|---|---|
ファイルサイズ | 2GBまで | Google Cloud Storage:無制限 ローカルファイル:400MBまで API:10MBまで | 1GBまで |
時間の目安 | 4時間まで | APIで1分まで | 2時間まで |
Amazon Transcribeなら会議はもちろん、ライブやトークイベントでも活躍してくれそうです。
AIモデルの選択肢
AIモデルの選択肢については、Google Cloud Platform「Speech-to-Text AI」が優秀。用途別に5種類のAIモデルが選べます。
また、Azure AI services「バッチ文字起こし」では……
AWS 「Amazon Transcribe」 | Google Cloud Platform 「Speech-to-Text AI」 | Azure AI services 「バッチ文字起こし」 | |
---|---|---|---|
日本語モデルの選択肢 | 標準モデルのみ | ・デフォルト ・コマンド&検索用 ・音声通話用(拡張モデル) ・長時間用 ・短時間用 | ・基本モデル ・OpenAI「Whisper」 |
AIモデルのカスタマイズ | ◯ | ◯ | ◯ |
このように、OpenAIが誇るSpeech-to-Textモデルの「Whisper」も選択可。外国語の翻訳&文字起こしがラクラク行えます。
言語識別
3者ともに、音声データ中の言語を自動で識別して文字起こしする機能を備えています。ただ、自動で識別できる範囲は、下表のとおり違います。
AWS 「Amazon Transcribe」 | Google Cloud Platform 「Speech-to-Text AI」 | Azure AI services 「バッチ文字起こし」 | |
---|---|---|---|
自動言語識別の範囲 | 全言語に対応 | コードでの事前指定した 数種の言語にのみ対応 | 全言語に対応 |
指定なしで自動言語識別ができるAWS「Amazon Transcribe」とAzure AI services「バッチ文字起こし」が、便利な印象です。
句読点・語彙の反映
AWS「Amazon Transcribe」とAzure AI services「バッチ文字起こし」は、下表のとおり、文字起こしの際に自動で句読点を加える機能を完備しています。出力テキストの可読性が高まりますね。
AWS 「Amazon Transcribe」 | Google Cloud Platform 「Speech-to-Text AI」 | Azure AI services 「バッチ文字起こし」 | |
---|---|---|---|
自動句読点機能 | ◯ | × | ◯ |
語彙登録機能 | ◯ | ◯ | ◯ |
また、特定の単語の変換先を指定できる機能(語彙登録機能)については、3者ともに完全対応。「ウィール」という音声を「Wheel / 車輪」ではなく「WEEL」に変換したい場合などなど、固有名詞の飛び交う会議で活躍してくれそうです。
料金
コストパフォーマンスについては、複数の音声データを逐次ではなく一括で処理するAzure AI services「バッチ文字起こし」の圧勝!下表のとおり他の文字起こしAI比で、8分の1しか料金がかかりません。
AWS 「Amazon Transcribe」(※2) | Google Cloud Platform 「Speech-to-Text AI」(※3、4) | Azure AI services 「バッチ文字起こし」(※5) | |
---|---|---|---|
無料の範囲 | 利用開始から12ヶ月間は 毎月1時間分まで無料 | コンソールとSpeech-to-Text v1 APIは、 毎月1時間分まで無料 | 毎月5時間分まで無料 |
課金 | 〜250,000分:$0.02400 / 1分 250,000分〜750,000分:$0.01500 / 1分 1,000,000分:$0.01080 / 1分 | 【コンソール】 $0.006 / 15秒 【Speech-to-Text v1 API、データ記録なし】 $0.024 / 1分 【Speech-to-Text v2 API、データ記録なし】 0分〜500,000分:$0.016 / 1分 500,000分〜1,000,000分:$0.01 / 1分 1,000,000分〜2,000,000分:$0.008 / 1分 2,000,000分〜:$0.004 / 分 | $0.18 / 1時間 (カスタム時は$0.225 / 1時間) |
音声1時間あたりの料金 | 〜250,000分:$1.44 250,000分〜750,000分:$0.9 1,000,000分:$0.648 | 【コンソール & Speech-to-Text v1 API】 $1.44 【Speech-to-Text v2 API】 0分〜500,000分:$0.96 500,000分〜1,000,000分:$0.6 1,000,000分〜2,000,000分:$0.48 2,000,000分〜:$0.24 | $0.18 |
次項からは、ここまでご紹介した3種の文字起こしAIを実際に使用してみて、その精度を比較していきます。
なお、文字起こしAI・Whisperを応用したAIモデルについて詳しく知りたい方は下記の記事もあわせてご確認ください。
各文字起こしAIの精度を検証!
続いては、下記の文字起こしAIの精度を徹底比較!実際に音声を入力してみて、正しく文字に起こせているかどうかを検証していきます。
- AWS「Amazon Transcribe」
- Google Cloud Platform「Speech-to-Text AI」
- Azure AI services「バッチ文字起こし」
今回、3種の文字起こしAIに入力するのは……
こちらのインタビュー動画!厳密には音声のみを抽出後、各AIモデルに適したファイル形式に変換したデータを使用します。
そして、各モデルの出力結果と比較する対象としては……
人力での文字起こし
話者 0:みなさんこんにちは。テレビ朝日映像撮影部の長崎です。そして
話者 1:新入社員の板敷理央と申します。
話者 0:板敷さん、よろしくお願いします。
話者 1:よろしくお願いします。(被せ気味)
話者 0:今日はなんでまた
話者 1:突然
話者 0:突然
話者 1:1年目なんですけど、
話者 0:はいはいはい
話者 1:そのロケに一人で行く機会がありまして
話者 0:確かにね、あの〜情報番組とか
話者 1:はい
話者 0:もう全然今一人で、まぁ行かされるというか、行ってきてみたいなことはありますよね。はい。
話者 1:で、カメラ持って一人でワーっと行ってきて、で、その時インタビューだったんですけど、
話者 0:はいはいはい
話者 1:インタビューをとり・・とって、で帰ってきて編集作業ってなった時に、まぁディレクターさん、編集マンさんが素材をバァーッと見た時に、そのこの絵ないの?みたいな怒られるというか
以上、人力での文字起こしを使用。こちらとのズレを下記の基準でマークします。
:明らかな誤り箇所
:判断が難しい箇所
それでは、AWS「Amazon Transcribe」の実験結果から、詳しくみていきましょう!
AWS「Amazon Transcribe」の結果
手始めに、先述のインタビュー音源をAWS「Amazon Transcribe」に入力し、下記条件で文字起こしさせてみます。
- 入力音源のファイル形式:mp4
- 言語の設定:日本語 (ja-JP)
- 話者ダイアライゼーション:あり
- 話者の最大数:2
さてさて、文字起こし&話者ダイアライゼーションの精度はいかほどなのでしょうか?それでは、結果をご覧ください。
話者 0:皆さん、こんにちは。テレビ朝日 撮影部の長崎です。そして
話者 1:新入社員の と
話者 0:申します。 よろしくお願いします。今日はなんでまた
話者 1: 突然一年目なんですけど、そのロケに一人で行く機会がありまして
話者 0:確かにね。あの情報番組とかもう全然今一人でま生かされるというか、行ってきてみたいなことありますよね。はい。
話者 1:でカメラ持って一人でバーと行ってきて。で、その時インタビューだったんですけど、インタビューを取り取ってで帰ってきて編集作業ってなった時にまディレクターさん編集マンさんが素材をばっと見た時に、そのこの絵ないの?みたいな怒られるという
お見事です!文字起こしについては、組織名や人名以外に大きなミスがありませんでした。
さらにさらに、話者ダイアライゼーションのクオリティも文句なし。被せ気味の合いの手が程よく省かれています。Amazon Transcribe……いいですね!
Google Cloud Platform「Speech-to-Text AI」の結果
続いては、Google Cloud Platform「Speech-to-Text AI」でも、同じ音源の文字起こしを試してみます。こちらは、日本語での話者ダイアライゼーションに未対応のため……
- 入力音源のファイル形式: mp3
- 言語の設定:ja-JP
- AIモデル:Long
- APIバージョン:V2
以上の条件で動かしていきます。それでは、結果をどうぞ!
(信頼度:0.74)
皆さんこんにちは テレビ朝日映像 撮影部の長崎です そして新入社員のいたしきりお と申します 屋敷さん よろしくお願いします お願いします 今日はなんで また突然 1年目 なんですけどそのロケに1人で行く機会がありまして あの情報番組とかもう全然 今1人でまあ行かされるというか言ってきてみたいなことありますよね はいでま カメラ持ってで1人でわっと行ってきてでその時 インタビューだったんですけど インタビューを取り とってで帰ってきて 編集作業ってなった時にま ディレクターさん 編集マンさんが素材をばーっと見た時にそのこの絵ないのみたいな 怒られるというか
このようにSpeech-to-Text AIは、フィラーや擬音語以外のミスが少なく、かなり優秀。話者ダイアライゼーション機能や自動句読点機能がないのは残念ですが、Amazon Transcribeに勝るとも劣らぬ精度で文字起こしを返してくれました。
Azure AI services「バッチ文字起こし」の結果
最後に、Azure AI services「バッチ文字起こし」についても、先ほどのインタビュー音源で精度を試していきます。詳しい条件については、下記をご参照ください。
- 入力音源のファイル形式: モノラル音声データ
- 言語の設定:日本語(日本)
- AIモデル: 20240403
- 話者ダイアライゼーション:あり
- 話者の最大数:2
- 不適切表現のフィルタリング:Masked
- 自動句読点のモード:DictedAndAutomatic
それでは早速、バッチ文字起こしの文字起こし&話者ダイアライゼーションの実力をみていきましょう!
話者 0:皆さん、こんにちは。テレビ朝日映像撮影部の長崎です。そして。
話者 1:新入社員のいたしきりやと申します出。
話者 0: しきさん、よろしくお願いしま 。
話者 1: すよろしくお願いします。
話者 0: 今日は。なんでまた突然突然?
話者 1:一年目なんですけど、そのロケに一人で行く機会がありまして。
話者 0:確か?
話者 1:にね。
話者 0:あの情報番組とか、もう全然今一人でまあ行かされるというか行ってきてみたいなことありますよね?はい。
話者 1: でまあカメラ持ってで一人でワーッと行ってきてでその時インタビューだったんですけど、インタビューを取り取って。で帰ってきて編集作業ってなった時に、まあディレクターさん、編集マンさんが素材をバーっと見た時に、そのこの絵ないのみたいな、怒られるというか。
おっと、これは……他の文字起こしAIに比べてミスが多い感じですね。後は次項にて、それぞれの結果を総括していきましょう!
なお、ChatGPTで文字起こしする方法について詳しく知りたい方は下記の記事もあわせてご確認ください。
実験の総括とおすすめの文字起こしAI
当記事では、話者ダイアライゼーション機能を備えた下記3種の文字起こしAIを紹介・比較しました!
- AWS「Amazon Transcribe」
- Google Cloud Platform「Speech-to-Text AI」
- Azure AI services「バッチ文字起こし」
記事の最後では、それぞれの文字起こし精度を検証しましたね。各モデルについて、話者ダイアライゼーション抜きでの文字起こし精度は……
Amazon Transcribe = Speech-to-Text AI > バッチ文字起こし
このように結論づけられました。
うち、Amazon Transcribeは話者ダイアライゼーション機能と自動句読点機能も完備。精度・利便性ともにおすすめの文字起こしAIとなります。
話者ダイアライゼーションは、発言者を区別する必要があるあらゆるシーンで活用でき、会話の記録や後処理を大幅に効率化・正確化するソリューションです。
これにより、会議やインタビュー、CSなど複数人が話す場面で文字起こしの精度と効率が向上、効果的な運用ができると考えられます。
WEELの生成AIへのスタンス
ChatGPTやStable Diffusionなど使い勝手の良いAIサービスは沢山あります。そういったもの1度使ってみて、もっとこうしたい、こう言った使い方をしたいと言った方に向けてカスタマイズを勧めております。
もし、自社で生成AIを活用したいという場合は
1. 汎用的な生成AIツールを導入し、定着させる
2. 業務を生成AIに解けるタスクまで分解し、自動化する
のどちらかが良いと思います。
弊社では
1の場合、生成AIセミナーの実施や生成AIコンサルティングなどで、AI専門家による生成AI活用指導
2の場合、PoC開発やソリューション開発などで、LLMエンジニアやAIコンサルタントが御社にあったAIツールの開発を行います。
無料相談にてご相談を承っておりますので、興味がある方は以下からご連絡ください。
→無料相談で話してみる
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。