Google、同時通訳に近い音声モデル「Gemini 3.5 Live Translate」発表
Google、同時通訳に近い「Gemini 3.5 Live Translate」

米Googleは6月9日(現地時間)、最新の音声モデル「Gemini 3.5 Live Translate」を発表した。従来の翻訳方式とは異なり、話し手が話し終わるのを待たずに、数秒の遅延で連続的に音声を生成し、シームレスな同時通訳に近い体験を実現する。

70以上の言語をリアルタイム翻訳

本モデルは70以上の言語を自動検出し、話し手のイントネーションやペース、ピッチを維持したまま自然な合成音声で翻訳する。開発は3つの軸で同時に進められる。

開発者向けと企業向けの展開

開発者向けには「Gemini Live API」および「Google AI Studio」でパブリックプレビューとして提供を開始。企業向けには「Google Meet」で、一部のGoogle Workspace法人顧客を対象にプライベートプレビューが今月から始まり、年内にはより広範なロールアウトを予定する。

Pickt横長バナー — Telegram用の共同買い物リストアプリ

一般ユーザーはGoogle翻訳アプリで

一般ユーザー向けには、AndroidおよびiOSの「Google翻訳」アプリでグローバルに順次展開される。Google翻訳アプリの「ライブ翻訳モード」を利用する際は、任意のヘッドフォンを接続することで、話し手のトーンを反映した同時通訳を70以上の言語で体験できる。さらにAndroid版では、ヘッドフォンを使わず端末の受話口から翻訳音声を聞ける新しい「リスニング」のロールアウトも始まる。

Google Meetの音声翻訳機能が大幅アップデート

Google Meetでは、既存の音声翻訳機能が「Gemini 3.5 Live Translate」ベースに更新される。従来は英語との間で5言語のみに限られていたが、今回の更新で70以上の言語に対応し、1つの会議内で2000を超える言語ペアでの会話が可能になる。インターフェースも更新し、音声翻訳機能に素早くアクセスできるようにする。

ストリーミング処理とノイズ耐性

Gemini 3.5 Live Translateは、ストリーミングで音声を処理しながら、文節を待って品質を高めるか、即時に翻訳して話し手と同期するかのトレードオフを動的に調整する。多言語入力を手動設定なしで扱えるほか、騒がしい環境にも対応するノイズ耐性を備える。

Googleは用途として、多言語の通話や会議、接客、ライブ配信などを挙げている。パートナーである配車サービスのGrabは、ドライバーと乗客のコミュニケーション向けにこのモデルをテスト中で、同社では月間1000万件超の音声通話が発生しているという。

電子透かし技術「SynthID」を搭載

なお、同モデルが生成する音声にはすべて電子透かし技術「SynthID」が埋め込まれ、AI生成コンテンツであることを検出可能にしている。

Pickt記事後バナー — 家族イラスト付きの共同買い物リストアプリ