Gemini 3.5 Live Translateとは？リアルタイム音声翻訳AI・仕組み・活用事例・使い方まとめ

2026-06-10

押さえておきたいポイント

Gemini 3.5 Live Translateは70以上の言語でほぼリアルタイムに音声→音声翻訳できる音声AIモデル
話者のイントネーション・ペーシング・ピッチを保持した自然な翻訳音声を連続生成し、従来のターンバイターン方式とは異なる翻訳を実現
Google Meet・Google翻訳アプリ・Gemini Live APIを通じて開発者・企業・一般ユーザーの3チャネルで同時展開中

2026年6月、GoogleからGeminiシリーズの最新音声モデルが登場しました。

今回登場した「Gemini 3.5 Live Translate」は、70以上の言語でほぼリアルタイムの音声→音声翻訳を実現する最新の音声AIモデルです。話者のイントネーション・ペーシング・ピッチを保持しながら、滑らかで自然な翻訳音声を連続的に生成できます。

For over 20 years, we've dedicated ourselves to removing language barriers so people can learn, speak and connect more deeply than ever before.

Today, we’re taking our next step with the release of Gemini 3.5 Live Translate — our latest audio model for live, speech-to-speech… https://t.co/wu2h6WnO1i pic.twitter.com/qnsMs4BUCf
— Google (@Google) June 9, 2026

従来のターンバイターン方式では、「話し終わるまで翻訳が始まらない」「不自然な間が生じてしまう」「対応言語が限られている」といった課題がありました。

一方でGemini 3.5 Live Translateは、話者が話しながら翻訳を連続生成することでこれらの課題を解消しています。話者から数秒遅れで追従しながら、自然なリズムで翻訳音声を届けることが可能です。

しかし、新しい翻訳モデルが登場するたびに、「従来の翻訳サービスと何が違うのか」「どのような場面で活用できるのか」「開発者はAPIをどう使いこなせるのか」といった疑問を感じる方も多いのではないでしょうか。

そこで本記事では、Gemini 3.5 Live Translateの概要や仕組み、特徴を整理しながら、具体的な活用方法や使い方について詳しく解説します。

最後までお読みいただくことで、Gemini 3.5 Live Translateがどのような思想で設計され、どのような場面で力を発揮するのかが理解できるはずです。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Gemini 3.5 Live Translateとは

Gemini 3.5 Live Translateは、Googleが2026年6月に公開した最新の音声→音声翻訳AIモデルです。

**参考：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/?utm_source=tw&utm_medium=social&utm_campaign=og&utm_content=&utm_term=**

70以上の言語を自動検出し、話者のイントネーション・ペーシング・ピッチを保持した自然な翻訳音声をほぼリアルタイムで生成。

現在Googleは毎月1兆語以上を数十億ユーザーに翻訳しており、Gemini 3.5 Live Translateはその技術基盤をさらに発展させた、リアルタイム音声翻訳の新世代モデルです。

スクロールできます

比較項目	Gemini 3.5 Live Translate	従来のターンバイターン方式
翻訳タイミング	発話と並行して連続生成	発話終了後に翻訳開始
対応言語数	70以上	モデル依存
遅延	数秒	発話終了後からさらに数秒以上
ノイズ環境対応	ロバスト性あり	環境に大きく依存

Gemini 3.5 Live Translateと従来方式の主な比較（2026年6月時点）

Gemini 3.5 Live Translateは、開発者向け（Gemini Live API・Google AI Studio）、企業向け（Google Meet）、一般ユーザー向け（Google翻訳アプリ）の3チャネルで展開しています。

生成AIを活用した自動翻訳については下記で詳しく解説

WEEL

生成AIを利用した自動翻訳の活用法！無料のおすすめAIツールや注意点を解説！ | WEEL 生成AIを活用した自動翻訳は、国際的なビジネスから日常生活に至るまでさまざまな分野の発展に貢献しています。生成AIと自動翻訳の組み合わせがもたらす効果は計り知れませ…

単語解説

未来を変えるAI「Gemini」ChatGPTを超える…その可能性を徹底解説 | WEEL

AIモデルとは？生成AI・基盤モデルを含む種類一覧と仕組み・開発での選び方を徹底解説 | WEEL

生成AIのAPIとは？業務効率を高める使い方からできること、活用事例を徹底解説 | WEEL

Google AI Studioとは？初心者でも分かる使い方と活用方法を徹底解説 | WEEL

Gemini 3.5 Live Translateの仕組み

Gemini 3.5 Live Translateは、音声をストリームとしてリアルタイムで処理するアーキテクチャを採用しています。

従来のターンバイターン方式と異なり、発話を分割して継続的に処理することで、途切れのない翻訳音声を生成可能。コンテキストを待つことで品質を高める側面と即座に翻訳してスピーカーと同期する側面のトレードオフを動的に調整しながら動作します。

Gemini 3.5 Live Translateが音声を処理する基本的な流れは以下のとおりです。

入力された音声をストリームとしてリアルタイムで取り込む
70以上の言語を自動検出し、手動設定なしで多言語入力を処理する
話者のイントネーション・ペーシング・ピッチを抽出・保持する
コンテキストと翻訳速度のバランスを動的に調整しながら翻訳音声を生成する
ノイズの多い環境でも安定した翻訳音声を出力し続ける

モデルは話者から常に数秒遅れで追従し、セッション全体を通じて流暢な音声を維持します。

GPT-5級の推論で音声AIが進化したリアルタイム音声モデルであるGPT-Realtime-2について、詳しく知りたい方は下記の記事もご覧ください。

WEEL

【GPT-Realtime-2】GPT-5級の推論で音声AIが進化！リアルタイム音声モデルの性能・料金・使い方を徹底解説 … GPT-Realtime-2は、OpenAIが2026年5月8日に公開したGPT-5クラスの推論能力を持つリアルタイム音声モデル。コンテキストウィンドウは従来の4倍となる128Kトークンに拡大し、…

Gemini 3.5 Live Translateの特徴

Gemini 3.5 Live Translateの特徴は、リアルタイムの連続翻訳・ノイズロバスト性・話者特性の保持を高いレベルで両立している点です。ここでは主な特徴を詳しく見ていきます。

70以上の言語を検出して連続翻訳できる

Gemini 3.5 Live Translateは、70以上の言語を検出できます。

従来の音声翻訳システムでは翻訳前に言語を手動選択する必要がありましたが、Gemini 3.5 Live Translateはその手間を省き、会話の流れに沿って入力言語は自動的に対応。

複数の言語が混在する会議や通話でも、設定変更なしにシームレスな翻訳が可能です。

ただし、出力言語は別途指定が必要。

話者のトーンを保持した自然な翻訳音声を生成できる

単に言葉を翻訳するだけでなく、話者のイントネーション・ペーシング・ピッチを保持した翻訳音声を生成できる点が大きなポイントです。

機械的で単調な音声ではなく、元の話者のトーンに近い自然な翻訳音声を届けられます。感情や意図が言語の壁を超えて伝わりやすくなるという点で、従来モデルとは異なります。

騒がしい環境でも安定して動作するノイズロバスト性がある

Gemini 3.5 Live Translateはノイズロバスト性に優れており、騒がしく予測不可能な環境でもアプリケーションを安定して機能させられます。

ライブイベント・屋外・工場など、従来の音声認識が苦手としてきた環境でも安定した動作が期待できます。ビジネス現場での実用性を高める重要な特性といえるでしょう。

単語解説

音声認識で業務はどう変わる？ビジネスでの活用事例・注意点をわかりやすく解説！ | WEEL

Google Meet・Gemini Live API・Google Translateの3チャネルで展開している

Gemini 3.5 Live Translateは単一のサービスではなく、開発者・企業・一般ユーザーそれぞれに適したチャネルで提供されています。

スクロールできます

提供チャネル	対象ユーザー	ステータス
Gemini Live API・Google AI Studio	開発者	パブリックプレビュー
Google Meet	企業（Google Workspaceユーザー）	プライベートプレビュー
Google翻訳アプリ（Android・iOS）	一般ユーザー	グローバル展開中

Gemini 3.5 Live Translateの提供チャネル一覧（2026年6月時点）

Gemini 3.5 Live Translateの安全性・制約

Gemini 3.5 Live Translateは、AIコンテンツの透明性と安全性を確保するための仕組みを備えています。

SynthIDによる音声透かし処理が施されている

Gemini 3.5 Live Translateで生成された全ての音声にはSynthIDによる透かし処理（ウォーターマーク）が施されています。

SynthIDはGoogleが開発した知覚不可能な透かし技術で、音声出力に直接埋め込まれます。AIが生成したコンテンツを検出可能にし、誤情報の拡散防止に貢献します。

SynthIDの透かしはユーザーには聞こえないため、翻訳の自然さを損なわずに安全性を確保できます。

スクロールできます

安全機能	内容
SynthID透かし	全生成音声に知覚不可能な透かしを埋め込み
ミスインフォメーション防止	AIコンテンツの検出を可能にする設計
モデルカード	安全性・責任に関するアプローチを公式公開

Gemini 3.5 Live Translateの安全性機能（2026年6月時点）

単語解説

SynthIDとは？GoogleのAIコンテンツ識別技術の仕組みを解説 | WEEL

Gemini 3.5 Live Translateの料金

Gemini 3.5 Live TranslateのAPI料金は100万トークンあたりの音声入力が3.5ドル、アウトプットが21ドルです。また無料枠も用意されていますので、無料で利用することも可能。

**参考：https://ai.google.dev/gemini-api/docs/pricing?hl=ja**

MacBookで演奏できるリアルタイムAI音楽モデルであるMagenta RealTime 2について、詳しく知りたい方は下記の記事もご覧ください。

WEEL

【Magenta RealTime 2】MacBookで演奏できるリアルタイムAI音楽モデルを徹底解説！ | WEEL Magenta RealTime 2はGoogleが2026年6月に公開したオープンウェイトのリアルタイム音楽生成AIモデル。MacBookのApple Silicon上で200ms未満のレイテンシで動作し、テキスト…

Gemini 3.5 Live Translateのライセンス

Gemini 3.5 Live Translateのライセンスについて、Google公式記事内では個別のライセンスは明記されていませんでした。

ただし、Gemini 3.5 Live Translateは、開発者向けにはGemini Live APIとGoogle AI Studio、企業向けにはGoogle Meet、一般ユーザー向けにはGoogle翻訳アプリで提供されるとされています。

Gemini APIとGoogle AI Studioは、開発者が業務・ビジネス目的でGoogle AIモデルを利用するためのサービスとされており、主に開発者向けです。

一方、Google Meetで利用する場合はGoogle Workspaceの規約が関係します。Google Cloudのサービス固有規約では、生成AIサービスによって生成されたOutputはCustomer Dataとして扱われ、Googleは生成物に新しく作成された知的財産権の所有権を主張しないとされています。

Google翻訳アプリで利用する場合は、Googleの一般的な利用規約およびサービス別の追加規約が適用されます。

利用用途	可否
商用利用	利用経路によって異なる
改変	不明
配布	不明
特許使用	不明
私的使用	利用経路によって異なる

Gemini 3.5 Live Translateのライセンス一覧表

単語解説

生成AIとは何か？従来AIとの違いから仕組み・メリット・企業活用事例まで徹底解説 | WEEL

Gemini 3.5 Live Translateの使い方

Gemini 3.5 Live Translateは、利用するチャネルによって使い方が異なります。ここでは開発者向けAPIと一般ユーザー向けアプリ、それぞれの基本的な手順を解説します。

Gemini Live APIで使用する

STEP

Google AI Studioにアクセスする

Google AI Studioにアクセスし、Googleアカウントでログインします。Gemini Live APIはパブリックプレビューとして提供されています。

STEP

音声入力をする

ターゲット言語を選択し、Talkボタンをクリックすれば音声入力画面になりますので、その画面で喋れば翻訳がされます。

**参考：https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview**

実際に使ってみましたが、体感では2-3秒遅れくらいで英語に翻訳されました。私の滑舌が悪いのか、日本語の精度がイマイチなのかはわかりませんが、正確に入力されていないことがありました。

実際に使っている様子が下記です。

スマートフォンアプリのGoogle翻訳で使用する

STEP

Google翻訳をインストール

ios・AndroidいずれかでGoogle翻訳をインストールします。すでにインストール済みの方は最新版にアップデートをしましょう。

STEP

リアルタイム翻訳を選択

Google翻訳を起動したら、左下に「リアルタイム翻訳」があるので、それをタップ。

相手の言語・自分の言語を選択し、リスニング・会話・テキストのみから目的とする用途を選択します。なお、リスニングはヘッドフォンを接続していないと利用することができません。

実際にこちらの会話を英語にしてもらっている様子がこちらです。

【業界別】Gemini 3.5 Live Translateの活用シーン

Gemini 3.5 Live Translateは、言語の壁を超えたリアルタイムコミュニケーションが求められるさまざまな業界での活用が期待されています。

ライドシェア・物流

GrabはGemini 3.5 Live Translateをテスト導入し、ドライバーと乗客間の多言語コミュニケーションに活用しています。

Grabプラットフォームでは月1,000万件以上の音声通話が発生しており、リアルタイム翻訳が実用化されれば言語の壁を超えたサービス提供が可能になります。

このようにGemini 3.5 Live Translateは配送・タクシー・物流業界など、現場で多言語対応が求められるシーンへの応用も期待できます。

物流業界の生成AI導入で解決できる課題について、詳しく知りたい方は下記の記事もあわせてご覧ください。

WEEL

【物流業界】こんなことに困っていませんか？生成AI導入で解決できる課題と企業実例を解説 | WEEL 物流業界の課題解決に生成AIが貢献。事務、ドライバー、倉庫の人手不足やDX推進、環境対策など、具体例を交えて詳しく解説。

国際ビジネス・会議

Google Meetへの統合により、1ミーティングで2,000以上の言語組み合わせに対応できるようになります。

従来は英語との翻訳のみだったものが、英語を介さない直接翻訳も可能になりました。

対応言語も従来の5言語から70以上へと大幅に拡充されており、国際企業のグローバル会議や多国籍チームのオンラインMTGにおいて翻訳コスト・通訳手配の削減につながる可能性があるでしょう。

メディア・エンターテインメント

CJ ENMのようなメディア企業は、Gemini 3.5 Live Translateの翻訳品質・精度・低遅延を高く評価しています。

ライブ配信やブロードキャストにおいて、同時多言語翻訳によるコンテンツリーチの拡大が期待できます。番組の多言語ダビングや国際配信における音声制作への応用も考えられるでしょう。

エンタメ業界の問題と課題を生成AIで解決する方法について、詳しく知りたい方は下記の記事もあわせてご覧ください。

WEEL

エンタメ業界の問題と課題を生成AIが解決！実際の活用事例も徹底解説 | WEEL 生成AIの進化でエンタメ業界が変わる！実際の活用事例6選と具体的なメリットを紹介します。

Gemini 3.5 Live Translateを使ってみた

今回はスマホアプリのGoogle翻訳でリスニング機能を試してみたいと思います。下記の動画を視聴しながらライブ翻訳されるかをやってみます。

実際に翻訳されている様子がこちらです。

リアルタイムで翻訳された内容がイヤホンからそのまま流れてきます。喋っている内容はほぼ一切聞こえません。

これに関してはもしかしたら慣れが必要かもしれないですが。ただ遅延はほんの僅かっぽいので、これまで以上に異なる言語でのコミュニケーションはしやすくなりそうです。

超低遅延×高精度を両立する次世代音声認識モデルであるVoxtral Transcribe 2について、詳しく知りたい方は下記の記事もご覧ください。

WEEL

Voxtral Transcribe 2とは？超低遅延×高精度を両立する次世代音声認識モデルを徹底解説 | WEEL Voxtral Transcribe 2は、Mistral AIが発表した次世代の音声認識モデル。高精度な文字起こしと200ms未満の超低遅延リアルタイム処理を両立し、バッチ処理向けとライブ用途…

【課題別】Gemini 3.5 Live Translateが解決できること

Gemini 3.5 Live Translateが解決できる代表的な課題を紹介します。

翻訳の間延びなしにリアルタイムで会話できる

従来のターンバイターン方式では、話者が話し終えるまで翻訳が始まらず、会話のリズムが途切れていました。

Gemini 3.5 Live Translateは発話と並行して翻訳音声を連続生成することで、自然な会話のリズムを保ちながらコミュニケーションを続けられます。

70以上の言語に設定変更なしで自動対応できる

多言語が混在する環境では、言語設定の切り替えが煩わしい場面がありました。

Gemini 3.5 Live Translateは70以上の言語を検出し、手動の設定変更なしに多言語入力を処理。複数言語が飛び交う会議や通話でも、シームレスに対応できます。

話者の感情・トーンを保持した翻訳を届けられる

翻訳後の音声が単調・機械的になり、感情や意図が伝わりにくいという課題がありました。

Gemini 3.5 Live Translateはイントネーション・ペーシング・ピッチを保持した翻訳音声を生成するため、元の話者のトーンが相手にも伝わります。

スクロールできます

課題	Gemini 3.5 Live Translateによる解決
翻訳待ちの間延び	連続生成で数秒遅れのみ
言語の手動設定	70以上の言語を自動検出
機械的な翻訳音声	イントネーション・ピッチを保持
騒がしい環境での精度低下	ノイズロバスト性で安定動作

Gemini 3.5 Live Translateが解決できる主な課題

Gemini 3.5 Live Translateのよくある質問

ここではGemini 3.5 Live Translateのよくある質問について回答していきます。Gemini 3.5 Live Translateの使用を検討している場合には、ぜひ参考にしてみてください。

何言語に対応していますか？

70以上の言語に対応しています。手動での言語設定は不要で、入力音声から自動的に言語を検出します。

料金はかかりますか？

Google翻訳アプリでの一般向け利用については無料で展開中です。一方でGemini Live APIの開発者向け料金は100万トークンあたりの音声入力が3.5ドル、アウトプットが21ドルです。APIには無料枠もあります。

Google Meet以外でも使えますか？

はい、Gemini Live API・Google AI Studioを通じた開発者向け利用と、Google翻訳アプリ（Android・iOS）での一般向け利用が可能です。

AIが生成した翻訳音声だと分かるような対策はされていますか？

はい、Gemini 3.5 Live Translateで生成された全ての音声にはSynthIDによる知覚不可能な透かしが埋め込まれており、AIコンテンツとして検出可能な設計です。

Gemini 3.5 Live Translateで言語の壁を超えよう

Gemini 3.5 Live Translateは、話者のトーンを保持しながら70以上の言語をほぼリアルタイムで翻訳するという、これまでにない音声翻訳AIモデルです。

単なる翻訳精度の向上にとどまらず、「翻訳を待つ」体験から「話しながら届く」体験へと根本的な変化をもたらすモデルといえるでしょう。

今後はGoogle Meet・Google翻訳アプリ・Gemini Live APIの三方向から展開が進み、ビジネスから日常会話まで多様なシーンでの利用が広がっていくでしょう。特に国際ビジネスやグローバルチームでの活用において、翻訳コストや通訳手配の在り方が大きく変わることが期待できます。

ぜひ皆さんも本記事を参考にGemini 3.5 Live Translateを使ってみてください！

最後に

いかがだったでしょうか？

Gemini 3.5 Live Translateを活用することで、言語の壁を超えたリアルタイムコミュニケーションが実現できます。一方で、現時点ではプレビュー段階にある機能も多く、正式リリース後の料金体系や利用規約の整備も重要な確認事項です。公式ドキュメントを併せて参照することも、スムーズな導入につながる選択肢といえるでしょう。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

大規模言語モデル（LLM）比較レポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、大規模言語モデル（LLM）を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。

無料で相談する

資料をダウンロードする

AIの種類 Google 開発会社名音声生成生成AIずかん

URLをコピーしました！

URLをコピーしました！

Gemini 3.5 Live Translateとは？リアルタイム音声翻訳AI・仕組み・活用事例・使い方まとめ

Gemini 3.5 Live Translateとは

Gemini 3.5 Live Translateの仕組み