【Deepgram】文字起こしから感情分析までできる全能音声AIを使ってみた

皆さん、Deepgramという音声AIのプラットフォームはご存知ですか?
音声データからの文字起こしや、さらに高度なタスク(要約や文章整形)などをAPIで展開しています。
え、ご存知ない?
1時間の音声データを12秒で文字起こしできる圧倒的なスピード!OpenAIのWhisperは158秒だから、13倍も違うんです!
ということで、仕事で文字起こしツールを使いたいという皆さんのために、この記事ではDeepgramの概要、導入、実際に使ってみた感想についてまとめています。
この記事を最後まで読むと、APIを使ってDeepgram AIのすごさが理解できるはずです!
ぜひ最後までご覧ください!
Deepgramの概要
Deepgramは、音声AIのソリューションを提供するプラットフォームです。
できることは、以下の2つ。
- Speech-to-Text(音声からテキストへ変換)
- Speech Understanding(音声理解)
まずは、Speech-to-Textについて。
先述したように音声情報を入力して、その内容をテキストに書き起こせます。
DeepgramのSpeech-to-textは、以下のような3つの特徴があるそうです。
- 精度: 単語の誤り率(WER)が極めて低い。
- 速度: 推論速度が業界平均よりも圧倒的に速い。
- コスト: 競合他社に比べて3-5倍もコスト効率が良い。
次に、Speech Understandingについて。
これは、入力された音声を理解し、それをもとに複雑なタスクを行うというもの。
以下のようにさまざまなタスクを実行可能です。
- 要約(Summarization): 音声データの特定の部分を要約し、読みやすさと分析の容易さを高めます。
- 感情分析(Sentiment Analysis): この機能は、ポジティブ、ニュートラル、ネガティブな感情を識別します。
- トピック検出(Topic Detection): 重要なトピックを特定し、ラベル付けして洞察を得ます。
- エンティティ検出(Entity Detection): 名前や場所、口座番号などのエンティティを識別します。
- 話者識別(Speaker Diarization): 複数の話者がいる場合に、それぞれを識別します。
- 言語検出(Language Detection): 音声内の主要な言語を自動で識別します。
Speech-to-textと、Speech Understandingのそれぞれ、ユースケースとしては以下が考えられます。
- コール分析(Call Analytics):顧客との通話データをリアルタイムで分析することが可能です。これにより、顧客満足度の向上や、効率的な問題解決が期待できます。
- 会話型AI(Conversational AI):Deepgramの音声理解能力は、チャットボットや仮想アシスタントの精度を大幅に向上させます。特に、自然な会話の流れを理解する能力が高いため、より人間らしい対話が可能です。
- コンタクトセンター(Contact Centers):高い精度と速度で音声をテキストに変換できるため、コンタクトセンターでの顧客対応が効率化されます。
- ポッドキャストの文字起こし(Podcast Transcription):ポッドキャストやインタビューの内容を高精度で文字に起こすことができます。これにより、コンテンツのアーカイブや検索性が向上します。
さらにこれまでご紹介した機能はAPIで利用可能です。
Deepgramの料金体系
DeepgramをAPI経由で利用する際の料金プランも非常に柔軟で、多様なニーズに対応しています。
以下に料金プランをまとめました。
項目 | Pay-as-You-Go | Growth | Enterprise |
---|---|---|---|
無料クレジット | $200 | 年間$4Kから | – |
対象者 | 個々の開発者、新規プロジェクト | 成長フェーズのスタートアップ、中小企業 | 大規模プロジェクト、エンタープライズ |
料金 | Novaモデル: $0.0044/分 Streamingモデル: $0.0059/分 Whisperモデル: $0.0048/分 | Novaモデル: $0.0036/分 Streamingモデル: $0.0049/分 Whisperモデル: $0.0048/分 | 個別見積もり |
オプション(Audio Intelligence) | $0.0043/分 | $0.0035/分 | – |
サポート | コミュニティサポート | コミュニティサポート | プレミアムレベルのSLA、専用サポートチーム、優先メールサポート |
それでは、導入方法を見ていきましょう。
導入方法
まずは、以下のリンクにアクセスします。

次にSign Up Free をクリック。

Sign up with Google します。

これで準備は完了です。


【無料】2023年11月版|生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIの業務活用コンサルティング
・システム間API連携

生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
実際に試してみた
先程説明した通りですが、2つのソリューションが提供されています。
それぞれ試してみましょう。
Speech-to-text(音声からテキストへ変換)
こちらは、デモがあるので試してみましょう。
以下の画面で、「Demo:Transcribe pre-recorded files」をクリック。

すると以下の画面になるので、まずは言語を英語に。そして、既存を動画を選びましょう。

すると以下のようになり、音声からテキストが生成されます。再生ボタンを押して確認してみましょう。

正しくテキストに変換できてました。
Speech understanding(音声理解)
音声理解に関しては、Play Ground を通じて利用可能です。
先程の登録では、As Pay You Goプランに登録しているので、200ドル分のクレジットが付与されています。
まずは以下のリンクから、PlayGroundにアクセスします。
この画面になったら、音声ファイルを選びます。自信でアップロードもできますが、今回は用意されているファイルを選びます。

次に、音声に対して行いたいタスクを選びます。今回は「Smart Format」を選択し「Run」をクリック。
これを選択すると、音声から変換したテキストに、句読点や数字を付けて読みやすくするんだとか。

実行するとこのようになります。実行結果のすべてを載せたかったのですが、長文すぎたのでキャプチャだけです。

ちなみにレスポンスには以下のような情報が含まれています。
- transcript(トランスクリプト):処理された音声セグメントに対するテキストです。
- confidence(信頼度):0から1までの浮動小数点値で、トランスクリプトの全体的な信頼性を示します。値が大きいほど信頼度が高いです。
- words(単語配列):トランスクリプト内の各単語に関する情報が格納された配列です。
今回は、フォーマッティング(文章の整形)を試しました。
他にも、リプレースメント(置換)や推論などもあるみたいなのでぜひ色々試してみてください。

生成AIツールならOSS利用がおすすめ
じつのところ、巷に溢れるAIツールは以下のリンクにあるようなオープンソースプロジェクトの組み合わせで作られています。(*全て商用可能・無料なものがほとんど)
ツールはその特性上、どうしても限界があります。
個人で使う場合や、業務の一部分のみを効率化する場合であれば問題ありませんが、社内で大規模に活用する場合は、様々な不都合が発生する可能性があります。
以下に、AIサービスを使用した場合とオープンソース利用による自社開発を行った場合の比較表を作成しました。
初期導入コストや50人未満で活用する場合には、AIサービスに利点が多いです。
しかし、長期的にツールを活用する場合や50人以上の会社で活用する場合には、自社開発を行った方がメリットが大きいです。
加えて、カスタマイズ性や技術資産性、セキュリティの依存性という観点からも、OSS利用による自社開発を行うことを推奨しております。
計算シミュレーション | AIサービス | OSS利用による自社開発 |
---|---|---|
初期導入コスト/初期開発費 | ◯ 開発費がかからない。(ただし、初期導入コストが実質開発費以上になるようなケースもある) | △ おおよそ500万以上の場合だと、OSS開発の方が安い |
ランニングコストの費用対効果 | △ 毎月費用が発生する | ◯ 基本無料だが、一部管理保守費による費用発生する場合あり |
一アカウント当たりの費用対効果 | △ 1アカウント当たりの月額課金がかかる | ◎ 自社クラウドサーバーによる運用 |
ワークフローの見直し(ツールにワークフローを合わせなくてはいけない) | × | ◎ |
カスタマイズ性 | × サービスを開発した機能しか使えない | ◎ 完全オーダーメイド |
技術資産性 | × これから企業価値のキモとなってくるIT技術を外部に依存する | ◎ 技術資産をアウトソースしないことで、企業価値が上がる |
セキュリティの依存性 | × ツール開発会社に依存する | ◎ 自社に特化したセキュリティ対策が可能 |
50人未満の場合(年間あたりの費用対効果) | ◎ | △ |
50人以上の場合(年間あたりの費用対効果) | ◯ | ◯ |
100人以上の場合(年間あたりの費用対効果) | △ | ◎ |
300人以上の場合((年間あたりの費用対効果) | × | ◎ |
1000人以上の場合(年間あたりの費用対効果) | × | ◎ |
弊社WEELは国内最速で生成AI関係のオープンソースプロジェクト(OSS)を記事化し、月間130万PVを超えました。
生成AI業界は、成長スピードが爆発的であり、それらに日々伴走できるエンジニアコミッターが管理・バージョンアップするOSSの利用・活用・連携が欠かせません。国内ベンダーが作りがちのOSSを積極利用しないAIツールは、すぐに形骸化し、費用対効果が合わなくなるでしょう。
生成AIサービスを利用・開発する場合はOSSの知見が肝。
弊社では「もしもAIサービスを作るなら、どんなオープンソースの組み合わせで開発できるだろう?」という疑問にベストアンサーを提供できます。ぜひお問い合わせください。
➡︎費用対効果の高い生成AIサービスの開発について相談をしてみる。
最後に
弊社は生成系AI特化の事業になるまでは、法人向けシステムの開発・連携・自動化・機能比較等々。
エンジニア目線によるシステム検討・導入支援を行ってきました。
そこで、明らかに高すぎる「ボッタクリ」とも呼べるような業者や、システムに何度も遭遇してきました。
弊社は透明性に特に力を入れており、弊社のノウハウや開発料金などを公開しています。
今まで100社以上の実績がある、SaaS間API連携の経験からシステム・ツール選びには強みがあります。
生成AIサービスの比較、一番いいのを教えてくれ!という方はぜひご連絡を。
また、自社開発と既存のAIサービスの導入で悩んでいる、などなどの場合もご対応しています!
➡︎生成AIサービスの比較、AIサービスの導入について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。