【Deepgram】文字起こしから感情分析までできる全能音声AIを使ってみた

deepgram 音声ai

皆さん、Deepgramという音声AIのプラットフォームはご存知ですか?

音声データからの文字起こしや、さらに高度なタスク(要約や文章整形)などをAPIで展開しています。

え、ご存知ない?

1時間の音声データを12秒で文字起こしできる圧倒的なスピード!OpenAIのWhisperは158秒だから、13倍も違うんです!

ということで、仕事で文字起こしツールを使いたいという皆さんのために、この記事ではDeepgramの概要、導入、実際に使ってみた感想についてまとめています。

この記事を最後まで読むと、APIを使ってDeepgram AIのすごさが理解できるはずです!

ぜひ最後までご覧ください!

目次

Deepgramの概要

Deepgramは、音声AIのソリューションを提供するプラットフォームです。
できることは、以下の2つ。

  1. Speech-to-Text(音声からテキストへ変換)
  2. Speech Understanding(音声理解)

まずは、Speech-to-Textについて。
先述したように音声情報を入力して、その内容をテキストに書き起こせます。
DeepgramのSpeech-to-textは、以下のような3つの特徴があるそうです。

  • 精度: 単語の誤り率(WER)が極めて低い。
  • 速度: 推論速度が業界平均よりも圧倒的に速い。
  • コスト: 競合他社に比べて3-5倍もコスト効率が良い。

次に、Speech Understandingについて。
これは、入力された音声を理解し、それをもとに複雑なタスクを行うというもの。

以下のようにさまざまなタスクを実行可能です。

  • 要約(Summarization): 音声データの特定の部分を要約し、読みやすさと分析の容易さを高めます。
  • 感情分析(Sentiment Analysis): この機能は、ポジティブ、ニュートラル、ネガティブな感情を識別します。
  • トピック検出(Topic Detection): 重要なトピックを特定し、ラベル付けして洞察を得ます。
  • エンティティ検出(Entity Detection): 名前や場所、口座番号などのエンティティを識別します。
  • 話者識別(Speaker Diarization): 複数の話者がいる場合に、それぞれを識別します。
  • 言語検出(Language Detection): 音声内の主要な言語を自動で識別します。

Speech-to-textと、Speech Understandingのそれぞれ、ユースケースとしては以下が考えられます。

  1. コール分析(Call Analytics):顧客との通話データをリアルタイムで分析することが可能です。これにより、顧客満足度の向上や、効率的な問題解決が期待できます。
  2. 会話型AI(Conversational AI):Deepgramの音声理解能力は、チャットボットや仮想アシスタントの精度を大幅に向上させます。特に、自然な会話の流れを理解する能力が高いため、より人間らしい対話が可能です。
  3. コンタクトセンター(Contact Centers):高い精度と速度で音声をテキストに変換できるため、コンタクトセンターでの顧客対応が効率化されます。
  4. ポッドキャストの文字起こし(Podcast Transcription):ポッドキャストやインタビューの内容を高精度で文字に起こすことができます。これにより、コンテンツのアーカイブや検索性が向上します。

さらにこれまでご紹介した機能はAPIで利用可能です。

Deepgramの料金体系

DeepgramをAPI経由で利用する際の料金プランも非常に柔軟で、多様なニーズに対応しています。

以下に料金プランをまとめました。

項目Pay-as-You-GoGrowthEnterprise
無料クレジット$200年間$4Kから
対象者個々の開発者、新規プロジェクト成長フェーズのスタートアップ、中小企業大規模プロジェクト、エンタープライズ
料金Novaモデル: $0.0044/分
Streamingモデル: $0.0059/分
Whisperモデル: $0.0048/分
Novaモデル: $0.0036/分
Streamingモデル: $0.0049/分
Whisperモデル: $0.0048/分
個別見積もり
オプション(Audio Intelligence)$0.0043/分$0.0035/分
サポートコミュニティサポートコミュニティサポートプレミアムレベルのSLA、専用サポートチーム、優先メールサポート


それでは、導入方法を見ていきましょう。

導入方法

まずは、以下のリンクにアクセスします。

Deepgram
Best speech-to-text API for apps | Deepgram | Deepgram Power your apps with automatic speech recognition and language understanding capabilities with the world's most powerful speech-to-text API.

次にSign Up Free をクリック。

Sign up with Google します。

これで準備は完了です。

サービス紹介資料

【無料】2023年11月版生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIの業務活用コンサルティング

・システム間API連携

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

実際に試してみた

先程説明した通りですが、2つのソリューションが提供されています。
それぞれ試してみましょう。

Speech-to-text(音声からテキストへ変換)

こちらは、デモがあるので試してみましょう。

以下の画面で、「Demo:Transcribe pre-recorded files」をクリック。

すると以下の画面になるので、まずは言語を英語に。そして、既存を動画を選びましょう。

すると以下のようになり、音声からテキストが生成されます。再生ボタンを押して確認してみましょう。

正しくテキストに変換できてました。

Speech understanding(音声理解)

音声理解に関しては、Play Ground を通じて利用可能です。

先程の登録では、As Pay You Goプランに登録しているので、200ドル分のクレジットが付与されています。

まずは以下のリンクから、PlayGroundにアクセスします。

あわせて読みたい
Deepgram Deepgram's API Playground allows you to send HTTP requests to Deepgram's API without writing code or setting up an environment.

この画面になったら、音声ファイルを選びます。自信でアップロードもできますが、今回は用意されているファイルを選びます。

次に、音声に対して行いたいタスクを選びます。今回は「Smart Format」を選択し「Run」をクリック。
これを選択すると、音声から変換したテキストに、句読点や数字を付けて読みやすくするんだとか。

実行するとこのようになります。実行結果のすべてを載せたかったのですが、長文すぎたのでキャプチャだけです。

ちなみにレスポンスには以下のような情報が含まれています。

  • transcript(トランスクリプト):処理された音声セグメントに対するテキストです。
  • confidence(信頼度):0から1までの浮動小数点値で、トランスクリプトの全体的な信頼性を示します。値が大きいほど信頼度が高いです。
  • words(単語配列):トランスクリプト内の各単語に関する情報が格納された配列です。

今回は、フォーマッティング(文章の整形)を試しました。
他にも、リプレースメント(置換)や推論などもあるみたいなのでぜひ色々試してみてください。

生成AIツールならOSS利用がおすすめ

じつのところ、巷に溢れるAIツールは以下のリンクにあるようなオープンソースプロジェクトの組み合わせで作られています。(*全て商用可能・無料なものがほとんど)

GitHub
GitHub - EwingYangs/awesome-open-gpt: Collection of Open Source Projects Related to GPT,GPT相关开源... Collection of Open Source Projects Related to GPT,GPT相关开源项目合集🚀、精选🔥🔥 - GitHub - EwingYangs/awesome-open-gpt: Collection of Open Source Projects Re...

ツールはその特性上、どうしても限界があります。

個人で使う場合や、業務の一部分のみを効率化する場合であれば問題ありませんが、社内で大規模に活用する場合は、様々な不都合が発生する可能性があります。

以下に、AIサービスを使用した場合とオープンソース利用による自社開発を行った場合の比較表を作成しました。

初期導入コストや50人未満で活用する場合には、AIサービスに利点が多いです。

しかし、長期的にツールを活用する場合や50人以上の会社で活用する場合には、自社開発を行った方がメリットが大きいです。

加えて、カスタマイズ性や技術資産性、セキュリティの依存性という観点からも、OSS利用による自社開発を行うことを推奨しております。

計算シミュレーションAIサービスOSS利用による自社開発
初期導入コスト/初期開発費
開発費がかからない。(ただし、初期導入コストが実質開発費以上になるようなケースもある)

おおよそ500万以上の場合だと、OSS開発の方が安い
ランニングコストの費用対効果
毎月費用が発生する

基本無料だが、一部管理保守費による費用発生する場合あり
一アカウント当たりの費用対効果
1アカウント当たりの月額課金がかかる

自社クラウドサーバーによる運用
ワークフローの見直し(ツールにワークフローを合わせなくてはいけない)×
カスタマイズ性×
サービスを開発した機能しか使えない

完全オーダーメイド
技術資産性×
これから企業価値のキモとなってくるIT技術を外部に依存する

技術資産をアウトソースしないことで、企業価値が上がる
セキュリティの依存性×
ツール開発会社に依存する

自社に特化したセキュリティ対策が可能
50人未満の場合(年間あたりの費用対効果)
50人以上の場合(年間あたりの費用対効果)
100人以上の場合(年間あたりの費用対効果)
300人以上の場合((年間あたりの費用対効果)×
1000人以上の場合(年間あたりの費用対効果)×

弊社WEELは国内最速で生成AI関係のオープンソースプロジェクト(OSS)を記事化し、月間130万PVを超えました。

生成AI業界は、成長スピードが爆発的であり、それらに日々伴走できるエンジニアコミッターが管理・バージョンアップするOSSの利用・活用・連携が欠かせません。国内ベンダーが作りがちのOSSを積極利用しないAIツールは、すぐに形骸化し、費用対効果が合わなくなるでしょう。

生成AIサービスを利用・開発する場合はOSSの知見が肝。
弊社では「もしもAIサービスを作るなら、どんなオープンソースの組み合わせで開発できるだろう?」という疑問にベストアンサーを提供できます。ぜひお問い合わせください。

➡︎費用対効果の高い生成AIサービスの開発について相談をしてみる。

最後に

弊社は生成系AI特化の事業になるまでは、法人向けシステムの開発・連携・自動化・機能比較等々

エンジニア目線によるシステム検討・導入支援を行ってきました。

そこで、明らかに高すぎる「ボッタクリ」とも呼べるような業者や、システムに何度も遭遇してきました。

弊社は透明性に特に力を入れており、弊社のノウハウや開発料金などを公開しています。

今まで100社以上の実績がある、SaaS間API連携の経験からシステム・ツール選びには強みがあります。

生成AIサービスの比較、一番いいのを教えてくれ!という方はぜひご連絡を。

また、自社開発と既存のAIサービスの導入で悩んでいる、などなどの場合もご対応しています!

➡︎生成AIサービスの比較、AIサービスの導入について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Leon Kobayashi

    必ずフォローすべきAIエバンジェリスト(自称) => 元東証一部上場ITコンサル (拙者、早口オタク過ぎて性に合わず退社)<-イマココ 【好きなもの】リコリコ・しゃぶ葉 宜しくおねがいします。

  • URLをコピーしました!
  • URLをコピーしました!
目次