米Googleは6月9日(現地時間)、最新の音声モデル「Gemini 3.5 Live Translate」を発表した。従来の翻訳方式とは異なり、話し手が話し終わるのを待たずに、数秒の遅延で連続的に音声を生成し、シームレスな同時通訳に近い体験を実現する。
70以上の言語をリアルタイム翻訳
本モデルは70以上の言語を自動検出し、話し手のイントネーションやペース、ピッチを維持したまま自然な合成音声で翻訳する。開発は3つの軸で同時に進められる。
開発者向けと企業向けの展開
開発者向けには「Gemini Live API」および「Google AI Studio」でパブリックプレビューとして提供を開始。企業向けには「Google Meet」で、一部のGoogle Workspace法人顧客を対象にプライベートプレビューが今月から始まり、年内にはより広範なロールアウトを予定する。
一般ユーザーはGoogle翻訳アプリで
一般ユーザー向けには、AndroidおよびiOSの「Google翻訳」アプリでグローバルに順次展開される。Google翻訳アプリの「ライブ翻訳モード」を利用する際は、任意のヘッドフォンを接続することで、話し手のトーンを反映した同時通訳を70以上の言語で体験できる。さらにAndroid版では、ヘッドフォンを使わず端末の受話口から翻訳音声を聞ける新しい「リスニング」のロールアウトも始まる。
Google Meetの音声翻訳機能が大幅アップデート
Google Meetでは、既存の音声翻訳機能が「Gemini 3.5 Live Translate」ベースに更新される。従来は英語との間で5言語のみに限られていたが、今回の更新で70以上の言語に対応し、1つの会議内で2000を超える言語ペアでの会話が可能になる。インターフェースも更新し、音声翻訳機能に素早くアクセスできるようにする。
ストリーミング処理とノイズ耐性
Gemini 3.5 Live Translateは、ストリーミングで音声を処理しながら、文節を待って品質を高めるか、即時に翻訳して話し手と同期するかのトレードオフを動的に調整する。多言語入力を手動設定なしで扱えるほか、騒がしい環境にも対応するノイズ耐性を備える。
Googleは用途として、多言語の通話や会議、接客、ライブ配信などを挙げている。パートナーである配車サービスのGrabは、ドライバーと乗客のコミュニケーション向けにこのモデルをテスト中で、同社では月間1000万件超の音声通話が発生しているという。
電子透かし技術「SynthID」を搭載
なお、同モデルが生成する音声にはすべて電子透かし技術「SynthID」が埋め込まれ、AI生成コンテンツであることを検出可能にしている。



