Voice Agent Builderとは?xAIのノーコードで音声AIエージェントを作れるプラットフォームの使い方・料金を徹底解説

Voice Agent Builder とは xAI ノーコード 音声 AIエージェント 作れる プラットフォーム 使い方 料金 徹底 解説
押さえておきたいポイント
  • Voice Agent Builderは、xAIが2026年7月2日にベータ公開したノーコードの音声AIエージェント構築プラットフォーム
  • τ-voice Benchで67.3%を記録しGeminiやGPTを大幅に上回るGrok Voice Think Fast 1.0を搭載
  • 料金は音声1分あたり0.05ドル(約8円)と競合を圧倒するコストパフォーマンス

Voice Agent Builderは、xAIが2026年7月2日にベータ版として公開した、ノーコードで本番運用レベルの音声AIエージェントを構築できるプラットフォームです!

従来の音声AIスタックでは、音声認識・言語モデル・音声合成という3つのAPIをそれぞれ別プロバイダーから調達し、つなぎ合わせるのが当たり前でした。ホップが増えるたびにコスト・レイテンシ・障害リスクが膨らむという構造的な課題を抱えていたわけです。

とはいえ、「ノーコードで実用に耐えるの?」「料金は他社と比べてどうなの?」と気になる方も多いのではないでしょうか。

この記事では、Voice Agent Builderの概要から仕組み、性能ベンチマーク、料金体系、使い方、業界別の活用シーンまでを徹底的に解説します。ぜひ最後までご覧ください!

\生成AIを活用して業務プロセスを自動化/

tamura

監修者田村 洋樹

株式会社WEEL代表取締役 / 累計25社以上のAIアドバイザリーを担当 / 企業向けセミナー・大学講義でのべ10,000人超に登壇 / 日本HP・インテルなど、大手企業主催カンファレンスへの登壇実績多数。AI導入支援・生成AIを活用した業務改革のプロとして、アドバイザリー・PM・講演者など多面的な立場から企業を支援中。

目次

Voice Agent Builderとは?

Voice Agent Builderとは?
参考:https://x.com/xai/status/2072342803787702422?s=20

Voice Agent Builderは、xAIが開発したGrok Voiceベースの音声エージェント構築プラットフォームで、コードを一切書かずにプロダクションレベルのエージェントを作成・運用できます。

一般的な音声AIスタックは、音声認識(STT)・大規模言語モデル(LLM)・音声合成(TTS)の3つのAPIを別々のプロバイダーから調達してつなぎ合わせる構成が主流です。しかし、ホップが増えるたびにコストとレイテンシが上がり、障害ポイントも増えるという根本的な問題があります。

Voice Agent Builderは、この課題を解消するために設計されています。Grok Voice向けに構築されたspeech-to-speechパスの上に、ひとつのインターフェースとして実装された一体型アーキテクチャを採用しており、3つのAPIを継ぎ接ぎするのではなくモデルと密結合した構造です。

Voice Agent Builderとは?
参考:https://x.ai/news/grok-voice-agent-builder

テレフォニー、ナレッジ検索、ツール連携、ガードレール、MCP(Model Context Protocol)、オブザーバビリティといった機能がワンストップで揃っているのが大きな特徴です。すでに自社の電話番号やAPIインフラを持っている場合でも、SIP経由で既存番号を引き継いだり、自社APIやMCPサーバーにツールを接続したり、WebSocket経由で独自クライアントを繋いだりと柔軟に対応できます。

なお、xAIの音声インフラへの取り組みは今回が初めてではありません。基盤となるGrok Voice Agent APIは2025年12月にローンチされ、カスタムボイス対応は2026年5月に追加されました。Voice Agent Builderは、これらの技術を開発者以外にも使えるようにするノーコードレイヤーとして位置づけられています。

Voice Agent Builderの仕組み

Voice Agent Builderの仕組み

Voice Agent Builderは、従来バラバラだった音声処理パイプラインをひとつのspeech-to-speechモデルに統合した一体型アーキテクチャで構成されています。

一般的なSTT→LLM→TTSの3段階パイプラインでは各段階が別プロバイダーのAPIとなりがちですが、Voice Agent BuilderではこれらをすべてGrok Voiceに密結合した単一パスとして処理します。

アーキテクチャの中核を成すのは、3つの構成モジュールです。

プロンプト(Instructions)

まず「プロンプト(Instructions)」がエージェントの土台となります。通話がどのように進むべきかを自然言語で記述するだけで、モデルがリアルタイムに推論しながら応答を生成するため、長い指示にも追従しつつ曖昧なリクエストにも対処できるのが特徴です。

ナレッジベース

次に「ナレッジベース」が知識の供給源です。プレーンテキスト、Markdown、Word、PowerPoint、Excel、HTML、JSONなど一般的なフォーマットのドキュメントをアップロードすると、エージェントが通話中にリアルタイムで検索・参照します。

ドキュメントは「コレクション」という単位で整理でき、複数のエージェント間で共有可能です。ポリシーや製品仕様を毎回プロンプトにコピペする手間がなくなります。

ツール(Tools)とコネクタ

最後に「ツール(Tools)とコネクタ」がアクション実行を担います。Google CalendarやOutlook Calendarでの予約登録、メール送信、API経由での注文確認・返金処理、LinearやNotionでのチケット管理、Google DriveやOneDriveからのファイル参照など、通話中にさまざまな外部サービスと連携して業務を完結させられます。

Voice Agent Builderの特徴

Voice Agent Builderを語るうえで外せないのが、搭載されている音声モデルGrok Voice Think Fast 1.0の圧倒的なベンチマーク性能です。

Voice Agent Builderの特徴
参考:https://x.ai/news/grok-voice-agent-builder

Sierraが開発したτ-voice Benchにおいて、Grok Voice Think Fast 1.0は67.3%のスコアを記録しています。Gemini 3.1 Flash Live(43.8%)やGPT Realtime 1.5(35.3%)を大きく引き離し、2位との差は20ポイント以上です。

スクロールできます
モデルτ-voice Bench スコア
Grok Voice Think Fast 1.067.3%
Gemini 3.1 Flash Live43.8%
Grok Voice Fast 1.038.3%
GPT Realtime 1.535.3%
Voice Agent Builderの特徴

τ-voice Benchは、ノイズ・アクセント・割り込み・自然なターンテイキングといった現実の通話環境を再現して評価するベンチマークです。低品質なテレフォニー音声、バックグラウンドノイズ、発信者が途中で話題を変えるといった過酷な条件下でテストされており、クリーンなスタジオ音声でのASRベンチマークとは一線を画しています。

レイテンシの面でもサブセカンド(1秒未満)の応答速度を達成しています。xAIは音声活動検出(VAD)、トークナイザー、オーディオモデルのすべてをゼロからインハウスで構築しており、各コンポーネントを細かく制御できる一気通貫の開発体制が低レイテンシの源泉です。

Voice Agent Builderの特徴
参考:https://x.ai/voice

音声のバリエーションも豊富で、80種類以上のビルトインボイスに加え、約2分間の音声サンプルからブランド独自のボイスクローンを作成する機能も備わっています。対応言語は日本語を含む25以上で、多言語でのカスタマーサポートにも対応可能です。

X上で話題のコスト破壊力

Voice Agent Builderのリリース前からxAI Voice APIの驚異的な低価格は注目を集めていましたが、今回のBuilderにも同じ料金体系が適用されたことで、改めてSNSで大きな話題になっています。

今回解説する事例において、弊社がX(旧Twitter)で発見した参考となるツイートを紹介させていただいております。取り下げなどのご連絡は、contact@weel.co.jp からご連絡ください。

日本のAIユーザーの間でも、以下のようなポストが注目を集めました。

このポストでは、1時間ぶっ通しで利用しても約480円、1分あたり約8円という驚きのコスト感が紹介されています。ビルトインのツール呼び出しやFunction Callにも対応している点が評価される一方、英語と比べて日本語はやや品質が劣るとの指摘もあり、日本語環境での実運用を検討する際は実際にテストして確認するのがおすすめです。

Voice Agent Builderの安全性・制約

Voice Agent Builderの安全性・制約

Voice Agent Builderは、エンタープライズ利用を想定した複数のコンプライアンス基準に対応しています。

SOC 2認証済み、HIPAA対応資格あり、GDPRにも準拠しており、医療・金融・法律といった規制産業でも導入を検討できる体制です。企業向けには、SAML SSO、ロールベースアクセス制御、監査ログといったセキュリティ機能も提供されています。

ガードレール機能では、カード番号の読み上げ禁止やスクリプト外のトピックへの応答制限など、エージェントの行動範囲を運用者側で定義できます。通話中にはリアルタイム通知が飛ぶため、人間のオペレーターが常にエージェントの振る舞いを監視して、必要に応じた介入が可能です。

ただし、2026年7月時点ではベータ版としての提供である点は押さえておく必要があるでしょう。セッションの最大時間は30分、チームあたりの同時接続数は100セッションという上限が設定されており、大規模コールセンターでの本格運用には事前検証が不可欠です。

Voice Agent Builderの料金

Voice Agent Builderの料金体系は、xAIが掲げる「シンプルで透明」という方針を体現したわかりやすい従量課金制です。

競合の音声スタックでは音声認識・推論・合成・プラットフォームそれぞれに個別の課金メーターがつくのが一般的ですが、Voice Agent Builderではメーターの数を最小限に絞り、通話ボリュームに単価を掛けるだけで済む設計になっています。

スクロールできます
項目料金備考
音声エージェント利用料$0.05 / 分(約8円)ボイス利用料込み、プラットフォーム料なし
テレフォニー利用料$0.01 / 分(約1.6円)xAI提供の無料プロビジョニング番号利用時
電話番号無料アカウントごとに1番号が無料で付与
SIP接続(既存番号持ち込み)追加料金なし主要テレフォニープロバイダー対応
ボイスクローン追加料金なし約2分の音声サンプルから作成可能
Voice Agent Builderの料金

10分間のカスタマーサポート通話で換算すると、合計で約0.60ドル(約96円)という計算になります。ElevenLabsやVapiなどの競合と比較しても大幅に低い水準とされており、コスト面がネックで音声エージェント導入を見送っていた中小企業にとっても検討しやすい価格帯です。

ただし、通話中にツール呼び出し(Function Call、Web検索、X検索、コレクション検索、MCP連携など)を使うと別途課金が発生します。つまり、1分あたり$0.05というのはあくまでセッションの最低額であり、実際の請求額はツールの使用頻度によって変動する点には留意してください。

Voice Agent Builderのライセンス

Voice Agent Builderはプロプライエタリ(独自)のSaaSプラットフォームとして提供されており、オープンソースのようなライセンス体系ではありません。

利用にはxAIの利用規約(Terms of Service)への同意が必要です。以下は、xAIの各種規約に基づいた権利関係の整理になります。

スクロールできます
項目可否備考
商用利用⭕️
出力の所有権⭕️
改変🔺プロンプトやツール設定の変更は可。モデル自体の改変は不可
再配布❌️モデルやプラットフォーム自体の再配布は不可
特許利用特許に関する明示的な許諾条項なし
私的利用⭕️
Voice Agent Builderのライセンス

注意すべき点として、xAIと競合するAIサービスの開発に出力を利用することや、出力データのスクレイピング・転売・モデル蒸留は明確に禁止されています。本番環境での利用を検討する際は、必ず最新の利用規約を確認してください。

Voice Agent Builderの使い方

Voice Agent Builderは、ブラウザからノーコードで操作できるプラットフォームです。今回はゼロからエージェントを作成し、通話テストを行うまでの手順を解説します。

STEP
xAI Consoleにログインする

まず、xAI Console にアクセスしてログインします。Google、Apple、X(旧Twitter)アカウントでのログインに対応しており、初めての場合は新規登録が必要です。ログイン後のダッシュボードには、APIキーの管理やモデルの選択など各種機能へのナビゲーションが表示されます。

Voice Agent Builderの使い方
STEP
Voice Agent Builderを開いてプリセットを選択する

ナビゲーションメニューから「Voice」→「Agents」を選択するか、こちらのURLに直接アクセスしてください。

Voice Agent Builderの使い方

「Create Agent」をクリックするとプリセット選択画面が開きます。

Voice Agent Builderの使い方

Customer Support、Sales Associate、Personal Assistant、Customの4種類から用途に近いものを選びましょう。

Voice Agent Builderの使い方
STEP
プロンプト(Instructions)を設定する

エージェントがどう通話を進めるべきかを、自然言語で記述します。例えば、以下のような構成が考えられます。

## 挨拶
発信者に挨拶し、注文番号を確認する。

## 対応
注文を検索し、通話中に問題を解決する。

## クロージング
対応内容を要約し、お客様が満足しているか確認する。

モデルはリアルタイムに推論するため、長い指示にも追従でき、曖昧なリクエストにも柔軟に対応します。

STEP
(任意)ナレッジベースにドキュメントをアップロードする

「Knowledge」セクションからコレクションを新規作成し、自社のFAQ・製品マニュアル・返品ポリシーなどのドキュメントをドラッグ&ドロップでアップロードします。対応フォーマットはプレーンテキスト・Markdown・Word・PowerPoint・Excel・HTML・JSONなどです。コレクションは複数エージェント間で共有でき、同じポリシーを何度もコピペする必要がなくなります。

STEP
(任意)ツールとコネクタを接続する

「Tools」タブから、エージェントが通話中に使用する外部ツールを設定します。Google Calendar・Outlook Calendarでの予約登録、Gmail経由での確認メール送信、Web検索・X検索による最新情報の取得、Linear・Notionでのチケット管理、カスタムAPIやMCPサーバーによる自社システム連携が可能です。

「Transfer to human」アクションを追加すれば、エージェントが対応しきれないケースで人間のオペレーターに通話を自動転送する設定もできます。

STEP
ボイスを選択する

「Voice」セクションで、80種類以上のビルトインボイスからエージェントの声を選びます。Ara・Eve・Leoなどが代表的です。ブランド独自の声を使いたい場合は、約2分間の音声サンプルをアップロードしてボイスクローンを作成できます。

Voice Agent Builderの使い方
STEP
ブラウザでテスト通話を実行する

設定が完了したら、画面右側の「Preview」パネルからそのままブラウザ上でテスト通話を行えます。電話がなくても、変更を加えてすぐにその場で確認できるため、プロンプトやツール設定の調整サイクルが非常にスムーズに回ります。

STEP
電話番号を取得して本番運用を開始する

テストに問題がなければ、「Phone Numbers」セクションで無料の電話番号を取得します。既存の電話番号を使いたい場合はSIP接続で引き継ぐことも可能です。番号を取得すれば、実際の電話からエージェントに発信して本番運用を開始できます。

また、ノーコードのBuilderだけでなく、Voice Agent APIをWebSocket経由で直接利用する方法もあります。自社アプリやカスタムUIに音声エージェントを組み込みたい場合に最適です。

STEP
Voice Agent APIをWebSocket経由で直接利用

Pythonでの接続例は以下のとおりです。

import asyncio
import json
import os
import websockets

async def voice_agent():
    async with websockets.connect(
        "wss://api.x.ai/v1/realtime?model=grok-voice-latest",
        additional_headers={
            "Authorization": f"Bearer {os.environ['XAI_API_KEY']}"
        }
    ) as ws:
        await ws.send(json.dumps({
            "type": "session.update",
            "session": {
                "voice": "eve",
                "instructions": "You are a helpful customer support agent.",
                "turn_detection": {"type": "server_vad"},
                "tools": [{"type": "web_search"}]
            }
        }))

        async for message in ws:
            event = json.loads(message)
            print(f"Event: {event['type']}")

asyncio.run(voice_agent())

OpenAI Realtime APIから移行する場合は、ベースURLの変更・APIキーの差し替え・Grokボイスモデルの指定というわずかな変更で対応できるのも大きな利点です。既存のOpenAI SDKを使っている場合、クライアントのエンドポイントをxAIに向けてAPIキーを入れ替えるだけで動作します。

【業界別】Voice Agent Builderの活用シーン

Voice Agent Builderは、電話対応が発生するあらゆる業界で活用の余地があります。ここからは特に導入効果が期待できる業界ごとに具体的なユースケースを紹介します。

カスタマーサポート・コールセンター業界

最もわかりやすい活用先がカスタマーサポート業務です。注文状況の確認、返品・返金処理、よくある問い合わせへの自動応答など、定型的な電話対応をエージェントに任せることでオペレーターの負荷を大幅に軽減できます。

ナレッジベースにFAQや返品ポリシーをアップロードしておけば、エージェントがリアルタイムで参照しながら回答するため、人手による対応ミスも減らせるでしょう。対応しきれない複雑なケースは、人間のオペレーターへの自動転送も可能です。

生成AIをカスタマーサポートで活用する方法について、詳しく知りたい方は以下の記事も参考にしてみてください。

医療・ヘルスケア業界

予約受付、診察スケジュールの確認、受診前の問い合わせ対応など、クリニックや病院のフロント業務を自動化する用途で活躍してくれるでしょう。HIPAA対応資格を備えている点は、医療機関にとって安心材料のひとつです。

ガードレール機能で患者の個人情報の取り扱いに制限をかけることで、コンプライアンスを維持しつつ電話対応を効率化できます。特にピーク時間帯に集中する電話をエージェントがさばけるのは、少人数体制のクリニックにとって心強いはずです。

なお、医療・薬業界における生成AIの活用方法については下記の記事をご覧ください。

医療業界はこちら

薬業界はこちら

不動産業界

物件の問い合わせ対応、内見の予約管理、空き状況の確認など、不動産仲介の初期対応は電話が中心になりがちですよね。

Voice Agent Builderで一次対応を自動化すれば、営業担当者は商談やクロージングに集中できるようになります。物件情報をナレッジベースに格納しておけば、エージェントが物件の間取りや価格といった基本情報を自動で案内してくれるため、対応の質を落とさずに業務を効率化できるでしょう。

不動産業界における生成AI活用について、詳しく知りたい方は以下の記事も参考にしてみてください。

【課題別】Voice Agent Builderが解決できること

ここでは業種横断的に多くの企業が直面している課題と、Voice Agent Builderによる解決アプローチを整理します。

電話対応にかかる人件費を削減

音声エージェントが一次対応を自動処理するため、人間のオペレーターが必要な通話数そのものを減らせます。1分あたり約8円という料金は、人件費と比較すれば圧倒的に低コストです。夜間や休日の無人対応も実現でき、24時間体制のカスタマーサポートを低予算で構築したい企業にとって有力な選択肢となるでしょう。

音声AI導入のための開発コスト・技術ハードルを下げる

従来、プロダクションレベルの音声エージェントを構築するには、WebSocket API・オーディオストリーミングプロトコル・テレフォニー統合に精通した開発者が不可欠でした。

Voice Agent Builderはノーコードで約2分でセットアップが完了するため、技術リソースが限られた企業でも導入のハードルを大幅に下げることが期待できます。

複数ツールの分断で音声AIの品質やコストが安定させる

STT・LLM・TTSを別々のプロバイダーに依存していると、レイテンシが積み上がり、コストの見通しも立てにくくなりやすくなると思います。

そこで、Voice Agent Builderの一体型アーキテクチャは全工程を単一パスで処理するため、品質とコスト両面での安定運用が見込めます。従量課金のメーターもシンプルで、予算管理のしやすさも魅力です。

Voice Agent Builderを使ってみた

実際にVoice Agent Builderのコンソール画面で「カスタマーサポートエージェント」を構築し、動作を検証してみましょう。今回は、xAIが掲げる「2分でエージェント構築」という触れ込みが実際に正しいのか、タイマーを回しながら試してみます。

Consoleにアクセスして「Customer Support」プリセットを選択し、以下のような日本語プロンプトを入力します。

あなたはECサイトのカスタマーサポートです。
注文番号を確認し、配送状況を案内してください。
返品の場合は返品ポリシーに基づいて対応してください。
対応が難しい場合は、人間のオペレーターに転送してください。
Voice Agent Builderを使ってみた
Voice Agent Builderを使ってみた

ボイスを設定し、ここまでの作業は確かに1〜2分以内で完了しました。Previewパネルからブラウザ上でテスト通話を開始すると、数秒でエージェントが応答を開始してくれました。

プリセットの力もあるとはいえ、この手軽さは素晴らしいですね。

よくある質問

最後に、Voice Agent Builderに関して、多くの方が疑問に感じるポイントをQ&A形式でまとめました。

Voice Agent Builderは無料で使えますか?

はい、無料で試せます。xAI Consoleでアカウントを作成すれば、ブラウザ上でのテスト通話はすぐに利用可能です。実際の電話番号を使った通話には従量課金(音声$0.05/分、テレフォニー$0.01/分)が発生しますが、プラットフォーム利用料や月額固定費は一切かかりません。

日本語に対応していますか?

はい、25以上の言語に対応しており、日本語もサポートされています。ただし、英語と比較すると聞き取り精度やイントネーションの自然さにはまだ改善の余地があります。本番運用の前に、想定される通話シナリオで十分なテストを行うことをおすすめします。

OpenAIのRealtime APIから移行できますか?

移行は比較的容易です。ベースURLの変更、APIキーの差し替え、Grokボイスモデルの指定というわずかな修正で対応でき、SDK互換性も高いため移行コストは小さいと言えます。ただし一部のイベント名が異なるなど完全互換ではない箇所もあるため、公式ドキュメントで差分を事前に確認しておくのが安全です。

Voice Agent Builderで音声AIエージェントを構築しよう!

Voice Agent Builderは、ノーコードで2分というスピード感と、τ-voice Bench1位のGrok Voice Think Fast 1.0の性能を1分あたり約8円で手に入れられる画期的なプラットフォームです。

ベータ版であること、日本語品質にはまだ伸びしろがあること、セッション長や同時接続数に制約が残ることなど、本番運用に向けては慎重な検証が欠かせません。しかし、カスタマーサポートや予約受付といった定型的な電話対応に課題を感じている企業にとっては、まずは無料のテスト環境で試してみる価値が十分にあるでしょう。

最後に

いかがだったでしょうか?

弊社では、AI導入を検討中の企業向けに、業務効率化や新しい価値創出を支援する情報提供・導入支援を行っています。最新のAIを活用し、効率的な業務改善や高度な分析が可能です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル(LLM)比較レポート
LLM比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次