Gemini 3.5 Live Translateとは?リアルタイム音声翻訳AI・仕組み・活用事例・使い方まとめ

- Gemini 3.5 Live Translateは70以上の言語でほぼリアルタイムに音声→音声翻訳できる音声AIモデル
- 話者のイントネーション・ペーシング・ピッチを保持した自然な翻訳音声を連続生成し、従来のターンバイターン方式とは異なる翻訳を実現
- Google Meet・Google翻訳アプリ・Gemini Live APIを通じて開発者・企業・一般ユーザーの3チャネルで同時展開中
2026年6月、GoogleからGeminiシリーズの最新音声モデルが登場しました。
今回登場した「Gemini 3.5 Live Translate」は、70以上の言語でほぼリアルタイムの音声→音声翻訳を実現する最新の音声AIモデルです。話者のイントネーション・ペーシング・ピッチを保持しながら、滑らかで自然な翻訳音声を連続的に生成できます。
従来のターンバイターン方式では、「話し終わるまで翻訳が始まらない」「不自然な間が生じてしまう」「対応言語が限られている」といった課題がありました。
一方でGemini 3.5 Live Translateは、話者が話しながら翻訳を連続生成することでこれらの課題を解消しています。話者から数秒遅れで追従しながら、自然なリズムで翻訳音声を届けることが可能です。
しかし、新しい翻訳モデルが登場するたびに、「従来の翻訳サービスと何が違うのか」「どのような場面で活用できるのか」「開発者はAPIをどう使いこなせるのか」といった疑問を感じる方も多いのではないでしょうか。
そこで本記事では、Gemini 3.5 Live Translateの概要や仕組み、特徴を整理しながら、具体的な活用方法や使い方について詳しく解説します。
最後までお読みいただくことで、Gemini 3.5 Live Translateがどのような思想で設計され、どのような場面で力を発揮するのかが理解できるはずです。
\生成AIを活用して業務プロセスを自動化/
Gemini 3.5 Live Translateとは
Gemini 3.5 Live Translateは、Googleが2026年6月に公開した最新の音声→音声翻訳AIモデルです。

70以上の言語を自動検出し、話者のイントネーション・ペーシング・ピッチを保持した自然な翻訳音声をほぼリアルタイムで生成。
現在Googleは毎月1兆語以上を数十億ユーザーに翻訳しており、Gemini 3.5 Live Translateはその技術基盤をさらに発展させた、リアルタイム音声翻訳の新世代モデルです。
| 比較項目 | Gemini 3.5 Live Translate | 従来のターンバイターン方式 |
|---|---|---|
| 翻訳タイミング | 発話と並行して連続生成 | 発話終了後に翻訳開始 |
| 対応言語数 | 70以上 | モデル依存 |
| 遅延 | 数秒 | 発話終了後からさらに数秒以上 |
| ノイズ環境対応 | ロバスト性あり | 環境に大きく依存 |
Gemini 3.5 Live Translateは、開発者向け(Gemini Live API・Google AI Studio)、企業向け(Google Meet)、一般ユーザー向け(Google翻訳アプリ)の3チャネルで展開しています。
生成AIを活用した自動翻訳については下記で詳しく解説

Gemini 3.5 Live Translateの仕組み
Gemini 3.5 Live Translateは、音声をストリームとしてリアルタイムで処理するアーキテクチャを採用しています。
従来のターンバイターン方式と異なり、発話を分割して継続的に処理することで、途切れのない翻訳音声を生成可能。コンテキストを待つことで品質を高める側面と即座に翻訳してスピーカーと同期する側面のトレードオフを動的に調整しながら動作します。
Gemini 3.5 Live Translateが音声を処理する基本的な流れは以下のとおりです。
- 入力された音声をストリームとしてリアルタイムで取り込む
- 70以上の言語を自動検出し、手動設定なしで多言語入力を処理する
- 話者のイントネーション・ペーシング・ピッチを抽出・保持する
- コンテキストと翻訳速度のバランスを動的に調整しながら翻訳音声を生成する
- ノイズの多い環境でも安定した翻訳音声を出力し続ける
モデルは話者から常に数秒遅れで追従し、セッション全体を通じて流暢な音声を維持します。
GPT-5級の推論で音声AIが進化したリアルタイム音声モデルであるGPT-Realtime-2について、詳しく知りたい方は下記の記事もご覧ください。

Gemini 3.5 Live Translateの特徴
Gemini 3.5 Live Translateの特徴は、リアルタイムの連続翻訳・ノイズロバスト性・話者特性の保持を高いレベルで両立している点です。ここでは主な特徴を詳しく見ていきます。
70以上の言語を検出して連続翻訳できる
Gemini 3.5 Live Translateは、70以上の言語を検出できます。
従来の音声翻訳システムでは翻訳前に言語を手動選択する必要がありましたが、Gemini 3.5 Live Translateはその手間を省き、会話の流れに沿って入力言語は自動的に対応。
複数の言語が混在する会議や通話でも、設定変更なしにシームレスな翻訳が可能です。
ただし、出力言語は別途指定が必要。
話者のトーンを保持した自然な翻訳音声を生成できる
単に言葉を翻訳するだけでなく、話者のイントネーション・ペーシング・ピッチを保持した翻訳音声を生成できる点が大きなポイントです。
機械的で単調な音声ではなく、元の話者のトーンに近い自然な翻訳音声を届けられます。感情や意図が言語の壁を超えて伝わりやすくなるという点で、従来モデルとは異なります。
騒がしい環境でも安定して動作するノイズロバスト性がある
Gemini 3.5 Live Translateはノイズロバスト性に優れており、騒がしく予測不可能な環境でもアプリケーションを安定して機能させられます。
ライブイベント・屋外・工場など、従来の音声認識が苦手としてきた環境でも安定した動作が期待できます。ビジネス現場での実用性を高める重要な特性といえるでしょう。
Google Meet・Gemini Live API・Google Translateの3チャネルで展開している
Gemini 3.5 Live Translateは単一のサービスではなく、開発者・企業・一般ユーザーそれぞれに適したチャネルで提供されています。
| 提供チャネル | 対象ユーザー | ステータス |
|---|---|---|
| Gemini Live API・Google AI Studio | 開発者 | パブリックプレビュー |
| Google Meet | 企業(Google Workspaceユーザー) | プライベートプレビュー |
| Google翻訳アプリ(Android・iOS) | 一般ユーザー | グローバル展開中 |
Gemini 3.5 Live Translateの安全性・制約
Gemini 3.5 Live Translateは、AIコンテンツの透明性と安全性を確保するための仕組みを備えています。
SynthIDによる音声透かし処理が施されている
Gemini 3.5 Live Translateで生成された全ての音声にはSynthIDによる透かし処理(ウォーターマーク)が施されています。
SynthIDはGoogleが開発した知覚不可能な透かし技術で、音声出力に直接埋め込まれます。AIが生成したコンテンツを検出可能にし、誤情報の拡散防止に貢献します。
| 安全機能 | 内容 |
|---|---|
| SynthID透かし | 全生成音声に知覚不可能な透かしを埋め込み |
| ミスインフォメーション防止 | AIコンテンツの検出を可能にする設計 |
| モデルカード | 安全性・責任に関するアプローチを公式公開 |
Gemini 3.5 Live Translateの料金
Gemini 3.5 Live TranslateのAPI料金は100万トークンあたりの音声入力が3.5ドル、アウトプットが21ドルです。また無料枠も用意されていますので、無料で利用することも可能。

MacBookで演奏できるリアルタイムAI音楽モデルであるMagenta RealTime 2について、詳しく知りたい方は下記の記事もご覧ください。

Gemini 3.5 Live Translateのライセンス
Gemini 3.5 Live Translateのライセンスについて、Google公式記事内では個別のライセンスは明記されていませんでした。
ただし、Gemini 3.5 Live Translateは、開発者向けにはGemini Live APIとGoogle AI Studio、企業向けにはGoogle Meet、一般ユーザー向けにはGoogle翻訳アプリで提供されるとされています。
Gemini APIとGoogle AI Studioは、開発者が業務・ビジネス目的でGoogle AIモデルを利用するためのサービスとされており、主に開発者向けです。
一方、Google Meetで利用する場合はGoogle Workspaceの規約が関係します。Google Cloudのサービス固有規約では、生成AIサービスによって生成されたOutputはCustomer Dataとして扱われ、Googleは生成物に新しく作成された知的財産権の所有権を主張しないとされています。
Google翻訳アプリで利用する場合は、Googleの一般的な利用規約およびサービス別の追加規約が適用されます。
| 利用用途 | 可否 |
|---|---|
| 商用利用 | 利用経路によって異なる |
| 改変 | 不明 |
| 配布 | 不明 |
| 特許使用 | 不明 |
| 私的使用 | 利用経路によって異なる |
Gemini 3.5 Live Translateの使い方
Gemini 3.5 Live Translateは、利用するチャネルによって使い方が異なります。ここでは開発者向けAPIと一般ユーザー向けアプリ、それぞれの基本的な手順を解説します。
Gemini Live APIで使用する
Google AI Studioにアクセスし、Googleアカウントでログインします。Gemini Live APIはパブリックプレビューとして提供されています。
ターゲット言語を選択し、Talkボタンをクリックすれば音声入力画面になりますので、その画面で喋れば翻訳がされます。

実際に使ってみましたが、体感では2-3秒遅れくらいで英語に翻訳されました。私の滑舌が悪いのか、日本語の精度がイマイチなのかはわかりませんが、正確に入力されていないことがありました。
実際に使っている様子が下記です。
スマートフォンアプリのGoogle翻訳で使用する
ios・AndroidいずれかでGoogle翻訳をインストールします。すでにインストール済みの方は最新版にアップデートをしましょう。
Google翻訳を起動したら、左下に「リアルタイム翻訳」があるので、それをタップ。
相手の言語・自分の言語を選択し、リスニング・会話・テキストのみから目的とする用途を選択します。なお、リスニングはヘッドフォンを接続していないと利用することができません。

実際にこちらの会話を英語にしてもらっている様子がこちらです。
【業界別】Gemini 3.5 Live Translateの活用シーン
Gemini 3.5 Live Translateは、言語の壁を超えたリアルタイムコミュニケーションが求められるさまざまな業界での活用が期待されています。
ライドシェア・物流
GrabはGemini 3.5 Live Translateをテスト導入し、ドライバーと乗客間の多言語コミュニケーションに活用しています。

Grabプラットフォームでは月1,000万件以上の音声通話が発生しており、リアルタイム翻訳が実用化されれば言語の壁を超えたサービス提供が可能になります。
このようにGemini 3.5 Live Translateは配送・タクシー・物流業界など、現場で多言語対応が求められるシーンへの応用も期待できます。
物流業界の生成AI導入で解決できる課題について、詳しく知りたい方は下記の記事もあわせてご覧ください。

国際ビジネス・会議
Google Meetへの統合により、1ミーティングで2,000以上の言語組み合わせに対応できるようになります。
従来は英語との翻訳のみだったものが、英語を介さない直接翻訳も可能になりました。
対応言語も従来の5言語から70以上へと大幅に拡充されており、国際企業のグローバル会議や多国籍チームのオンラインMTGにおいて翻訳コスト・通訳手配の削減につながる可能性があるでしょう。
メディア・エンターテインメント
CJ ENMのようなメディア企業は、Gemini 3.5 Live Translateの翻訳品質・精度・低遅延を高く評価しています。

ライブ配信やブロードキャストにおいて、同時多言語翻訳によるコンテンツリーチの拡大が期待できます。番組の多言語ダビングや国際配信における音声制作への応用も考えられるでしょう。
エンタメ業界の問題と課題を生成AIで解決する方法について、詳しく知りたい方は下記の記事もあわせてご覧ください。
Gemini 3.5 Live Translateを使ってみた
今回はスマホアプリのGoogle翻訳でリスニング機能を試してみたいと思います。下記の動画を視聴しながらライブ翻訳されるかをやってみます。
実際に翻訳されている様子がこちらです。
リアルタイムで翻訳された内容がイヤホンからそのまま流れてきます。喋っている内容はほぼ一切聞こえません。
これに関してはもしかしたら慣れが必要かもしれないですが。ただ遅延はほんの僅かっぽいので、これまで以上に異なる言語でのコミュニケーションはしやすくなりそうです。
超低遅延×高精度を両立する次世代音声認識モデルであるVoxtral Transcribe 2について、詳しく知りたい方は下記の記事もご覧ください。

【課題別】Gemini 3.5 Live Translateが解決できること
Gemini 3.5 Live Translateが解決できる代表的な課題を紹介します。
翻訳の間延びなしにリアルタイムで会話できる
従来のターンバイターン方式では、話者が話し終えるまで翻訳が始まらず、会話のリズムが途切れていました。
Gemini 3.5 Live Translateは発話と並行して翻訳音声を連続生成することで、自然な会話のリズムを保ちながらコミュニケーションを続けられます。
70以上の言語に設定変更なしで自動対応できる
多言語が混在する環境では、言語設定の切り替えが煩わしい場面がありました。
Gemini 3.5 Live Translateは70以上の言語を検出し、手動の設定変更なしに多言語入力を処理。複数言語が飛び交う会議や通話でも、シームレスに対応できます。
話者の感情・トーンを保持した翻訳を届けられる
翻訳後の音声が単調・機械的になり、感情や意図が伝わりにくいという課題がありました。
Gemini 3.5 Live Translateはイントネーション・ペーシング・ピッチを保持した翻訳音声を生成するため、元の話者のトーンが相手にも伝わります。
| 課題 | Gemini 3.5 Live Translateによる解決 |
|---|---|
| 翻訳待ちの間延び | 連続生成で数秒遅れのみ |
| 言語の手動設定 | 70以上の言語を自動検出 |
| 機械的な翻訳音声 | イントネーション・ピッチを保持 |
| 騒がしい環境での精度低下 | ノイズロバスト性で安定動作 |
Gemini 3.5 Live Translateのよくある質問
ここではGemini 3.5 Live Translateのよくある質問について回答していきます。Gemini 3.5 Live Translateの使用を検討している場合には、ぜひ参考にしてみてください。
Gemini 3.5 Live Translateで言語の壁を超えよう
Gemini 3.5 Live Translateは、話者のトーンを保持しながら70以上の言語をほぼリアルタイムで翻訳するという、これまでにない音声翻訳AIモデルです。
単なる翻訳精度の向上にとどまらず、「翻訳を待つ」体験から「話しながら届く」体験へと根本的な変化をもたらすモデルといえるでしょう。
今後はGoogle Meet・Google翻訳アプリ・Gemini Live APIの三方向から展開が進み、ビジネスから日常会話まで多様なシーンでの利用が広がっていくでしょう。特に国際ビジネスやグローバルチームでの活用において、翻訳コストや通訳手配の在り方が大きく変わることが期待できます。
ぜひ皆さんも本記事を参考にGemini 3.5 Live Translateを使ってみてください!
最後に
いかがだったでしょうか?
Gemini 3.5 Live Translateを活用することで、言語の壁を超えたリアルタイムコミュニケーションが実現できます。一方で、現時点ではプレビュー段階にある機能も多く、正式リリース後の料金体系や利用規約の整備も重要な確認事項です。公式ドキュメントを併せて参照することも、スムーズな導入につながる選択肢といえるでしょう。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

