【Whisper】OpenAIの文字起こしツール!モデル一覧、料金体系、APIの使い方を解説
WEELメディア事業部AIライターの2scです。
みなさん、OpenAIが無料公開している音声認識モデル「Whisper」はご存知ですか?このWhisperは、日本語を含む98言語の識別・文字起こし・音声英訳ができる優れものなんです!しかも有料のAPI版が出ていて、そちらならインストールなしで使えてしまいます。
当記事では、そんなWhisperのスペックや使い方について徹底解説!さらに使い方のパートでは、文字起こしの結果を実演付きでお届けします。
完読いただくと、議事録や字幕の作成から解放されるかも……
ぜひ最後までご覧ください!
文字起こしができる「Whisper」とは?
OpenAIが送る「Whisper」は音声認識モデル、つまり文字起こしができるAIです。そのすごいところは、というと……
● ChatGPT同様、汎用性・理解力に優れた基盤「Transformer」を搭載
● 98言語の識別・文字起こし・音声英訳が単一のモデルで実行可能
● 68万時間分の多言語音声データを学習していて、高精度
以上のとおり、文字起こし機能にとどまらないマルチタスクモデルとなっています。そんなWhisperには2024年3月時点で、以下2つのバージョンが存在します。
- GitHub版:2022年9月公開、無料で使える
- API版(whisper-1):2023年3月公開、有料だが高精度&インストール不要
次の項目でより詳しく、Whisperのスペックをみていきましょう!
Whisperの特徴について
「Whisperは文字起こし+αができるマルチタスクモデル」という説明だけでは、いまいちピンときませんよね。そこでここからは、Whisperのスペックを具体的に掘り下げていきます。Whisperにどんなことができるのか、その底力を以下にてご覧ください。
幅広いファイル形式&言語に対応
会議の文字起こしから動画の翻訳まで、Whisperさえあれば事足ります。その証拠は以下のとおり。そう、Whisperは7種類の音声ファイルと98種類もの言語に対応しているんです!
【対応ファイル形式】
mp3 / mp4 / mpeg / mpga / m4a / wav / webm
【対応言語 / 誤認識50%未満のみ掲載】
アフリカーンス語 / アラビア語 / アルメニア語 / アゼルバイジャン語 / ベラルーシ語 / ボスニア語 / ブルガリア語 / カタロニア語 / 中国語 / クロアチア語 / チェコ語 / デンマーク語 / オランダ語 / 英語 / エストニア語 / フィンランド語 / フランス語 / ガリシア語 / ドイツ語 / ギリシャ語 / ヘブライ語 / ヒンディー語 / ハンガリー語 / アイスランド語 / インドネシア語 / イタリア語 / 日本語 / カンナダ語 / カザフ語 / 韓国語 / ラトビア語 / リトアニア語 / マケドニア語 / マレー語 / マラーティー語 / マオリ語 / ネパール語 / ノルウェー語 / ペルシア語 / ポーランド語 / ポルトガル語 / ルーマニア語 / ロシア語 / セルビア語 / スロバキア語 / スロベニア語 / スペイン語 / スワヒリ語 / スウェーデン語 / タガログ語 / タミル語 / タイ語 / トルコ語 / ウクライナ語 / ウルドゥー語 / ベトナム語 / ウェールズ語…and more !
したがって、Whisperひとつで……
- iPhoneで録音した会議内容(m4a)を文字に起こす
- 海外配信者のアーカイブ(mp4)を日本語に翻訳する
といったタスクがこなせてしまいます。まさに「文字起こしの十徳ナイフ」といえる、AIツールですね。
参考記事:Speech to text – OpenAI API
精度の異なるモデルが5つ存在
初期に公開されたGitHub版Whisperでは、5つのモデルが選べます。それぞれモデルサイズ、つまりパラメータ数が違っていて……
- 大きなモデルほど高精度で、漢字・かなの認識が正確
- 小さなモデルほど省メモリで、処理が高速
といった性能差があります。各モデルの詳細については、下表をご覧ください。
モデル名 | パラメータ数 | 多言語対応モデル | 英語限定モデル | 必要なGPUメモリ |
---|---|---|---|---|
tiny | 39 M | tiny | tiny.en | 〜1 GB |
base | 74 M | base | base.en | 〜1 GB |
small | 244 M | small | small.en | 〜2 GB |
medium | 769 M | medium | medium.en | 〜5 GB |
large | 1550 M | large | なし | 〜10 GB |
ちなみにAPI版のWhisperこと「whisper-1」では、largeモデル(large-v2)が用意されています。こちらも基本は、GitHub版のlargeモデルと変わりません。ただ、有料ならではの利点もあって……
- インストールが要らない
- 処理速度が優れている
- 推論プロセスが最適化されている
といった、API版限定の恩恵が受けられるんです。要件に応じて使い分けられるのがうれしいですね。
参考記事:GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
日本語の文字起こしが得意
さてここまで、Whisperの強みを紹介していきました。ですが実際のところ、日本語での文字起こし精度はいかほどなのでしょうか?
「どうせWhisperは海外のAIツールなんだから……」とお思いの方、心配はご無用です。
なんとlarge-v2モデルの場合、日本語での文字起こし精度は全98言語のなかで6位!5位のドイツ語に続いて、「単語誤り率 / WER」が5.3%に抑えられています。詳細は下のグラフをご覧ください。
ちなみに、API版での実装が控えている改良版・large-v3では、日本語の単語誤り率が4.9%まで削減されています。公開が待ちきれませんね。
参考論文:Robust Speech Recognition via Large-Scale Weak Supervision
一度に文字起こしできるのは25MBまで
万能選手のWhisperですが、一つだけ欠点があります。それはファイルサイズの制限です。2024年1月時点では、25MB(動画換算で25分)以下の音声ファイルしかアップロードができないのです。
ただOpenAI公式は、制限を回避する方法も公開してくれています。Whisperを使って、25分を超える音声データを文字起こししたい場合は……
● Pythonのパッケージ「Pydub」と「ffmpeg」を使う
● 無音部分で音声を分割する
● 分割後のファイルは、時系列順に番号を振る
といった処理を適宜、行うとよいそうです。
なお、同OpenAIのAPIで使える埋め込みモデルについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Text Embedding 3】OpenAIの最新Embeddingモデルの使い方~実際の性能を検証してみた
労働時間の短縮が可能
Whisperが高精度な文字起こしを行ってくれるため、会議があれば作らなければならなかった議事録作成にかかる時間を大幅に削減できます。議事録作成の時間以外にも、話した声をリアルタイムで文字起こしし、翻訳することもできます。
翻訳する言語によって、文字起こしの精度はバラバラですが、日本語や英語であれば精度は高いです。Whisperを活用することで、業務にかかる時間を短縮しやすくなります。
さらには、言語の壁を超えたコミュニケーションが取りやすくなるため、より効率的な業務を行えるメリットがあります。
Pythonなどの実行環境を構築する必要がある
Whisperを利用するためには、PythonやGitなどの実行環境を用意しなければなりません。実行環境を用意するためには、コマンドをいくつか実行します。
必要なコマンドはインターネット上のものを参考にすれば誰でもわかるようになっているため、スムーズにいけば環境構築に時間はあまりかかりません。
しかし、エラーが発生した場合は対処の必要がありますが、この方法は自分で考える必要があるケースがほとんどなので、専門的な知識がない方が行うのは難しいかもしれません。場合によりますが、Whisperを使うためには専門的な知識が必要になることもあることを念頭に置いてもらう必要があると言えるでしょう。
Whisperの料金体系(GitHub版は無料で使える)
Whisperを使う際は、以下の2つのパターンがあります。
- API版Whisper
- GitHub版Whisper
GitHub版Whisperは、無料で利用が可能です。
API版のWhisper「whisper-1」では、処理した音声ファイルの時間に応じて利用料金が発生します。具体的には……
- 音声ファイル1分につき、0.006ドル(約0.86円)
- 「transcriptions / 文字起こし」「translations / 英訳」の処理で料金が発生
- 支払いはクレジットカードにのみ対応
となっています。
参考記事:Introducing ChatGPT and Whisper APIs
参考記事:Models – OpenAI API
Whisperのライセンス
WhisperではMIT Licenseのもと、商用利用等が許可されています。具体的には……
利用用途 | 可否 |
---|---|
商用利用 | ⭕️ |
改変 | ⭕️ |
配布 | ⭕️ |
特許使用 | ⭕️ |
私的使用 | ⭕️ |
以上のとおり!個人から企業まで、気軽にWhisperが使えそうですね。
API版Whisperの使い方(Pythonインストール必要)
ここからはWhisperで文字起こしを実演しながら、その使い方をお伝えしていきます。当記事ではGoogle Colaboratory(以下、Colab)のPython環境上で、API版 / GitHub版の両方を試してみました。
ちなみにWhisperに文字起こしさせた音声は……
- iPhoneで録音したm4aファイル
- 「洗濯 / 選択」「胎児 / 退治 / 対峙」など、同音異義語を原文に含む
このように、Whisperの実用性が測れる内容となっています。原文については、以下をご覧ください。
むかしむかしあるところに、おじいさんとおばあさんが住んでいました。ある日、おじいさんは山にしばかりに、おばあさんは川に洗濯にいきます。おばあさんが川で洗濯をしていると、上流から桃が流れてきました。おばあさんは洗濯を中断して、桃を拾うという選択をします。そして持ち帰った桃をおじいさんと共に食べようとしたところ……桃の中から、胎児が出てきたのです。おじいさんとおばあさんは、その胎児に桃太郎という名前を授けました。そして桃の中にいた胎児・桃太郎は、すくすくと育っていきます。ある日、彼らの住む村の近くで鬼が悪さをしている、という話を聞いた桃太郎。彼は鬼退治を決意します。それに感銘を受けた老夫婦は、きびだんごを桃太郎に与えて送り出します。その道中、桃太郎はきびだんごで犬・猿・雉を従えつつ、鬼の本拠地・鬼ヶ島に到着しました。鬼と対峙した桃太郎は、犬・猿・雉との連携を大事にしつつ、鬼を退治します。
ではまず、API版Whisper「whisper-1」の使い方からみていきましょう!
APIキーの取得
WhisperやGPT-4など、OpenAIのモデルをAPI経由で使いたい場合はキーが必要です。このAPIキーは……
- カード番号を登録したOpenAIアカウントでのみ発行できる
- 1つのAPIキーで、全モデルが呼び出せる
という仕様になっています。当記事では、登録済みのアカウントでAPIを発行するところから、説明していきます。
まずは以下のリンクから、OpenAIのAPIキー管理画面にアクセスしてみてください。
APIキー管理画面:OpenAI Platform
リンクにアクセスすると……
このように、ログイン / サインアップの画面が出てきます。今回は「Log in」をクリックして、登録済みのメールアドレス&パスワードを入れていきましょう。
管理画面が現れましたね。過去に発行したAPIキー(モザイク済み)がずらりと並んでいて、その下に「+ Create new secret key」と書かれたグレー色のボタンが付いています。そのボタンをクリックしてみましょう!
すると、新しいAPIキーの発行画面がポップアップで表示されます。では早速、画面中央部のテキストボックスに適当なAPIキーの名前を入れて、緑色の「Create secret key」ボタンを押してみましょう。
「Create secret key」を押すとこのように、新たなAPIキーが発行されます。あとはテキストボックス右側のボタンをクリックすれば、APIキーがコピーできます。
APIキーが表示されるのは一回限りです。メモ帳等へのペースト&保存を、お忘れなく。
ライブラリの準備&APIキーの入力
次に、ColabのPython環境上での操作に移ります。まずは、以下の3つが実行環境にインストールされているかをご確認ください。
- OpenAI Pythonライブラリ(openai)
- OSモジュール(os)
- getpassモジュール(getpass)
今回はデフォルトの実行環境に存在しない、OpenAI Pythonライブラリのインストールを実演します。といっても、以下のソースコードを実行するだけです。
!pip install openai
こちらを試してみると……
インストールが完了しましたね。引き続き、下記のコードを使ってAPIキーを入力していきます。
import os
import getpass
os.environ["OPENAI_API_KEY"] = getpass.getpass('OpenAI API Key:')
コードを実行すると、テキストボックスが現れました。ここに先ほど発行したAPIキーを入力して、Enterを押せば下準備は完了です。
API版の文字起こし精度を検証!
では早速、以下のコードを実行してAPI版Whisperを動かしていきます。
from openai import OpenAI
client = OpenAI()
audio_file= open("ファイル名.拡張子", "rb")
#transcriptions、つまり文字起こしを指定。modelはwhisper-1のみ選択可能。
transcript = client.audio.transcriptions.create(model="whisper-1", file=audio_file, response_format="text")
print(transcript)
音声については、Colabの画面左側のファイルを選択して、マウス操作でアップロードしました。Whisperの実力の程はいかに……
お見事です!冒頭の部分は、正確に文字起こしができていますね。API版Whisperが返してくれた全文を以下に示します。ちなみに、青色でマーキングしているのが誤字の箇所です。
昔々あるところにおじいさんとおばあさんが住んでいました。 ある日、おじいさんは山に芝刈りに、おばあさんは川に洗濯に行きます。 おばあさんが川で洗濯をしていると上流から桃が流れてきました。 おばあさんは洗濯を中断して桃を拾うという洗濯をします。 そして持ち帰った桃をおじいさんと共に食べようとしたところ、桃の中から胎児が出てきたのです。 おじいさんとおばあさんはその胎児に桃太郎という名前を授けました。 そして桃の中にいた胎児、桃太郎はすくすくと育っていきます。 ある日、彼らの住む村の近くで鬼が悪さをしているという話を聞いた桃太郎。 彼は鬼退治を決意します。 それに感銘を受けた老夫婦はきび団子を桃太郎に与えて贈り出します。 その道中桃太郎はきび団子で犬、猿、キジを従いつつ鬼の本拠地鬼ヶ島に到着しました。 鬼と胎児した桃太郎は犬、猿、キジとの連携を大事にしつつ鬼を胎児します。
やはりWhisperをもってしても、同音異義語の判別は難しいようですね。これは日本語特有の欠点かもしれません。
音声の英訳も試してみた
続いて先ほどのコードを一部変更した下記のコードを使って、音声の英訳も試してみます。変更箇所は#の部分、コメントアウトをご覧ください。
from openai import OpenAI
client = OpenAI()
audio_file= open("ファイル名.拡張子", "rb")
#translations、つまり音声の英訳を指定。modelはwhisper-1のみ選択可能。
transcript = client.audio.translations.create(model="whisper-1", file=audio_file, response_format="text")
print(transcript["text"])
print(transcript)
こちらを実行してみると……
Once upon a time, there lived an old man and an old woman. One day, the old man went to the mountains and the old woman went to the river to do the laundry. While the old woman was doing the laundry in the river, a peach flowed from the upstream. The old woman stopped doing the laundry and picked up the peach. And when she was about to eat the peaches she brought home with the old man, a pig came out of the peach. The old man and the old woman gave the pig the name Momotaro. And the pig in the peach, Momotaro, grew up quickly. One day, Momotaro heard that a demon was doing evil near the village where they lived. He decided to exterminate the demon. The old couple, impressed by this, gave Momotaro a kibidango. On the way, Momotaro arrived at the demon’s home, Onigashima, following the dog, the monkey, and the pig. After exterminating the demon, Momotaro took good care of the dog, the monkey, and the pig, and exterminated the demon.
それらしい英文が返ってきました。DeepLで再び日本語に戻すと……
昔々、あるところに老人と老婆が住んでいた。ある日、老人は山へ、老婆は川へ洗濯に行きました。老婆が川で洗濯をしていると、上流から桃が流れてきた。老婆は洗濯の手を止め、桃を拾った。そして、持ち帰った桃を老人と一緒に食べようとすると、桃の中から豚が出てきた。老人と老婆はその豚に桃太郎という名前をつけた。桃の中の豚、桃太郎はすくすくと育ちました。ある日、桃太郎は自分たちの住む村の近くで鬼が悪さをしていると聞きました。桃太郎はその鬼を退治することにした。それに感心した老夫婦は、桃太郎にきびだんごを与えた。途中、桃太郎は犬、猿、豚を追って鬼の住む鬼ヶ島に着いた。鬼を退治した桃太郎は、犬、猿、豚を大切にし、鬼を退治した。
本来「胎児 / fetus」であった箇所が、「豚 / pig」に置き換わってしまっています。
ただそれ以外の部分は、程よくまとめてくれていました。回りくどい表現を避けたいときには、translationsからの再和訳がおすすめです。
GitHub版Whisperの使い方
ここからは、無料で使えるGitHub版Whisperについても、文字起こしを試していきます。こちらも、Colab上のPython環境に先ほどの音声をアップロードして実験しています。まずは推奨環境から、詳しくみていきましょう!
GitHub版Whisperで必要なPCのスペック
GitHub版Whisperを動かすのに必要なPCのスペック・環境は……
- Pythonのバージョン
Python 3.8以上 - 使用ディスク量
10.5 MB - RAMの使用量
1~10GB
以上のとおりです。次項にて、この要件を満たすColabのランタイムをみていきましょう!
参考記事:whisper/README.md
インストールなどの下準備
GitHub版Whisperを使う場合、Pythonのライブラリは一切不要です。
ただ、大掛かりなモデルを実行環境にインストールして動かすため、ランタイムのタイプを「T4 GPU」に変更しなくてはいけません。まずはColabの画面上部、「ランタイム」をクリックしてみましょう!
するとこのように、ポップアップが表示されます。ここで「ランタイムのタイプを変更」をクリックしてみてください。
以上のように、CPU / T4 GPU / TPUなどのプロセッサ選択画面が出てきます。あとはデフォルトのCPUから「T4 GPU」に変更すれば設定完了です。
続いて下記のコードを実行して、Whisperを実行環境上にインストールしていきます。
!pip install git+https://github.com/openai/whisper.git
これでWhisperを動かす準備は整いました。次は音源のアップロードについても、みていきましょう!
音声ファイルのアップロード
続いてAPI版同様に、マウス操作で音源をアップロードしていきます。まずはColabの画面左側のファイルを選択してみましょう。
このように、Whisperを構成しているファイルがずらりと並んでいます。音源をアップロードするのは、「content」内の「sample_data」ファイルです。
カーソルを合わせると現れる「⋮」をクリックして、音源をアップロードしてみてください。
上の画面左側のように音声ファイルが格納できれば、アップロード成功です。
5モデルの文字起こし精度を検証!
GitHub版Whisperの使い方は、API版よりもシンプルです。下記のコードを実行するだけで、文字起こしができてしまいます。
import whisper
#モデル名はtiny / base / small / medium / largeのいずれか
model = whisper.load_model(“モデル名”)
result = model.transcribe(“ファイル名.拡張子”)
print(result[“text”])
ちなみにmodel.transcribe()の部分には……
- verbose=True:処理の過程を可視化
- language=”ja”:日本語として認識
- task=”translate”:英訳して文字起こし
といった変数・オプションが追加できます。API版と基本は同じですね。
では次の項目から、サイズが小さい順に文字起こしの精度をみていきます。まずはtinyモデルの結果からご覧あれ。
Whisperのtinyモデルを使ってみた
早速、オプションなしでtinyモデルを試してみました。以下のように、コードを実行すると……
昔昔あるところに、おじいさんとおばあさんが住んでいました。ある日、おじいさんは山にしばかりに、おばあさんは川に天たくに行きます。おばあさんが川で選択をしていると、上旅からももが流れてきました。おばあさんは選択を中断してももひろうという選択をします。そして、もちかえったももおおじいさんと一つもりたべをとしたところを、ももの中から大事が出てきたのです。おじいさんとおばあさんはその体重にももたろうという名前を撮ってました。そして、ももの中に行って体重、ももたろうは、すくつくとすかっていきます。ある日、彼らのスム、むやの近くで、お人が悪さをしているという話を聞いたももたろう。彼はおりたい字を決しています。それに関名を受けたローフーは、キビ団語をももたろに与えておくりでします。その道中、ももたろはキビ団語で、いる、さる、気字をしたがいつつ、おりの本気ち。おりが島にとおちゃくしました。おりと体重したももたろうは、いる、さる、気字との連携を大事につつ、おりを体重します。
わずか2秒で上記の文章が返ってきました。ただ、ご覧のとおり誤字が多く、文字起こしになっていません。
Whisperのbaseモデルを使ってみた
次に、ひと回り大きいWhisperのbaseモデルでも、文字起こしを試してみます。
昔、昔、あるところに、おじいさんとおばあさんが住んでいました。ある日、おじいさんは山にしばかりに、おばあさんは川に選択に行きます。おばあさんが川で選択をしていると、上流からももが流れてきました。おばあさんは選択を中断して、もも広うという選択をします。そして、持ち帰ったももお、おじいさんと共に食べようとしたところ。ももの中から、体次が出てきたのです。おじいさんとおばあさんは、その体次に、ももたろという名前をさつけました。そして、ももの中に行った体次、ももたろは、すくすくと育っていきます。ある日、彼らの住む、むらの近くで、おにがわるさをしていうという話を聞いたももたろを、彼はおに体次を決意します。それに関名を受けたロフフは、キビダンゴをももたろに与えておくりです。その道中、ももたろはキビダンゴで、いぬ、さる、生地をした街つつ、おりの本拠地、おにがしまにとお着しました。おにと体次したももたろは、いぬ、さる、生地との連携を大事に出つ、おにを体次します。
するとbaseモデルは、なんと1秒で文字起こしを終えてくれました。しかもtinyモデルと比べて、誤字が少なくなっていますね。さすが「base / 基礎」という名前だけあって、バランスが取れています。
Whisperのsmallモデルを使ってみた
さて、Whisper5モデルの中間・smallモデルの出番です。先ほどと同様にコードを実行してみると……
昔々あるところに、おじいさんとおばあさんが住んでいました。ある日、おじいさんは山にしばかりに、おばあさんは川に選択に行きます。おばあさんが川で選択をしていると、上流から桃が流れてきました。おばあさんは選択を中断して、桃を拾うという選択をします。そして、持ち帰った桃を、おじいさんと共に食べようとしたところ、桃の中から、太字が出てきたのです。おじいさんとおばあさんは、その太字に桃太郎という名前を捌けました。そして、桃の中にいた太字、桃太郎はすくすくと育っていきます。ある日、彼らの住む村の近くで、鬼が悪さをしているという話を聞いた桃太郎を、彼は鬼太字を決意します。それに勘迷を受けた老夫婦は、鬼火団子を桃太郎に与えておくりでします。その道中、桃太郎は鬼火団子で、犬、猿、騎士を従えつつ、鬼の本居地、鬼が島に到着しました。鬼と太字した桃太郎は、犬、猿、騎士との連携を大事にしつつ、鬼を太字します。
6秒かかってしまいましたが、誤字がかなり改善されています。ただ「鬼火団子」や「騎士」など、桃太郎らしからぬ単語がまだまだ混じっていますね。
Whisperのmediumモデルを使ってみた
今度はWhisperの中で2番目に大きいmediumモデルでも、文字起こしを行ってみます。結果は以下のとおりです。
昔々あるところにおじいさんとおばあさんが住んでいました。ある日、おじいさんは山にしばかりに、おばあさんは川に洗濯に行きます。おばあさんが川で洗濯をしていると、上流から桃が流れてきました。おばあさんは洗濯を中断して、桃を拾うという洗濯をします。そして、持ち帰った桃をおじいさんと共に食べようとしたところ、桃の中から大事が出てきたのです。おじいさんとおばあさんは、その大事に桃太郎という名前を授けました。そして、桃の中にいた大事、桃太郎はすくすくと育っていきます。ある日、彼らの住む村の近くで、鬼が悪さをしているという話を聞いた桃太郎。彼は鬼大事を決意します。それに感銘を受けた老夫婦は、きび団子を桃太郎に与えて送り出します。その途中、桃太郎はきび団子で、犬、猿、キジを従いつつ、鬼の本拠地、鬼ヶ島に到着しました。鬼と大事した桃太郎は、犬、猿、キジとの連携を大事にしつつ、鬼を大事します。
このようにmediumモデルは、API版Whisperに匹敵する精度で文字起こしを終えてくれました。ただ処理時間は22秒と、大幅に増えています。
Whisperのlargeモデルを使ってみた
最後にWhisperの真打・largeモデルの精度を確認します。API版にも採用されたその実力の程はいかに……
昔々あるところにおじいさんとおばあさんが住んでいましたある日おじいさんは山にしばかりにおばあさんは川に洗濯に行きますおばあさんが川で洗濯をしていると上流から桃が流れてきましたおばあさんは洗濯を中断して桃を拾うという洗濯をしますそして持ち帰った桃をおじいさんと共に食べようとしたところ桃の中から胎児が出てきたのですおじいさんとおばあさんはその胎児に桃太郎という名前を授けましたそして桃の中にいた胎児桃太郎はすくすくと育っていきますある日彼らの住む村の近くで鬼が悪さをしているという話を聞いた桃太郎彼は鬼胎児を決意しますそれに感銘を受けた老夫婦はきびだんごを桃太郎に与えておくりとしますその道中桃太郎はきびだんごで犬猿キジを従いつつ鬼の本拠地鬼ヶ島に到着しました鬼と胎児した桃太郎は犬猿キジとの連携を大事にしつつ鬼を退治します
ご覧のとおり、精度はAPI版Whisperをも上回っています。ただ、仕様なのか句読点がなくなってしまいましたね。しかもタスク完了には、1分17秒もかかっているんです。
これまでの結果を総括すると、GitHub版Whisperではmediumモデルが最優なのかもしれません。みなさんもぜひ、お試しください!
なお、Whisperを応用したText-to-Speechモデルについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた
Whisperを使ったアプリやサービスを紹介
API版Whisperを使ったアプリやシステムは、既に私たちの身の回りで使われています。
例としてChatGPTと連携したアプリは以下のとおりです。
- 学習プラットフォーム「Quizlet」
- 食料品の即日配達サービス「Instacart」
- eコマースプラットフォーム「Shopify」
- 言語学習アプリ「Speak」
特に言語学習アプリ「Speak」では、利用者の発音を聞いてアドバイスすることでより的確な指摘ができるため、非常に効率のよい学習環境をWhisperとChatGPTの連携で実現しました。
今後はWhisperを使った仕組みが増えていくと予想できるため、今後の期待が高まりますね。
文字起こし&音声の英訳が無料で試せるWhisper
当記事ではOpenAIが誇るマルチな音声認識モデル「Whisper」について紹介しました。以下でもう一度、Whisperの機能を振り返っていきましょう!
● 音声の文字起こし / 英訳 / 言語検出ができる
● 98種の言語と7種のファイル形式に対応している
● 無料のGitHub版と有料のAPI版が選べる
また今回は、Whisperの各モデルについて実験も行っています。結果としては、「API版のwhisper-1」と「GitHub版のmediumモデル」が使い勝手に優れていましたね。
SNS上では「文字起こし精度が高くてびっくり」「Whisperだけでそこそこの議事録ができる」なんて声も……
インストールできる環境がある方はぜひ、GitHub版から無料で試してみてください!
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。