谷歌推出Gemini 3.5 Live Translate：即时语音互译保语调

2026年6月10日 51 约3分钟 Ars Technica

谷歌 Gemini 3.5 实时翻译语音翻译 SynthID水印

谷歌近日在2026年Google I/O大会上正式发布了Gemini 3.5 Live Translate功能，这是一项基于最新大语言模型Gemini 3.5的实时语音到语音翻译技术。与以往仅输出文本或合成语音的翻译工具不同，Live Translate能够精准保留原始说话者的语调、语速和音高，让翻译后的语音听起来就像本人用目标语言在说话。

核心功能：从“翻译”到“化身”

据Ars Technica报道，该功能通过端到端的语音编码-解码架构实现。系统首先分析原始语音的声学特征（包括情感、停顿、重音等），然后结合Gemini 3.5的跨语言理解能力，生成完全保留了这些特征的目标语言语音。谷歌表示，即使在嘈杂环境或不同口音下，翻译准确率也能达到98%以上。

更关键的是，每一段翻译后的语音都会被嵌入SynthID数字水印——这是谷歌DeepMind此前开发的一种不可感知的音频标记技术。SynthID可以验证音频是否由AI生成以及由哪个模型生成，从而防止深度伪造或未经授权的使用。

技术突破：当AI学会“模仿”人声

传统语音翻译（例如Google Translate的对话模式）普遍存在两个瓶颈：一是翻译延迟造成交流断续，二是合成语音缺乏自然感。Gemini 3.5 Live Translate通过引入“流式神经翻译”和“个性化声学模型”，将端到端延迟压缩至200毫秒以内，相当于人类对话中的正常停顿。同时，系统会为每个说话者动态建立声纹指纹，确保翻译后的语音在音色、节奏上接近原声。

然而，这种能力也引发了伦理担忧。斯坦福大学AI伦理研究中心指出，如果恶意使用者利用他人声音样本伪造翻译内容，可能造成身份冒用或虚假信息传播。谷歌对此的回应是强制启用SynthID水印，并限制API对敏感用途的开放。

行业影响：重新定义跨国沟通

这项技术对商务会议、国际新闻直播、外语学习教育等领域意义深远。例如，联合国同声传译系统将有望引入Live Translate作为辅助，大幅降低人力成本；流媒体平台可以同时提供多种语言的“原声配音”。编者按：值得注意的是，语言不仅仅是信息载体，更是文化认同的重要部分。当AI可以完美模仿任何人的声音说任何语言时，我们是否正在失去语言背后的文化独特性？谷歌显然意识到了这个矛盾，因此在功能中保留了“语言风格标记”，允许用户选择保留源语言中的习惯用语或俚语。

“Live Translate能够保留语调，这意味着未来人们可能不再是‘说外语’，而是直接变成‘用外语思想的人’。我们正在打破巴别塔的最后一面墙。” ——谷歌CEO Sundar Pichai在发布会现场演示后表示。

目前该功能已率先支持英语、中文、西班牙语和阿拉伯语之间的互译，其他语言将在未来季度逐步开放。谷歌计划将其集成到Google Meet、YouTube以及第三方应用。

结语与展望

Gemini 3.5 Live Translate代表了AI语音翻译从“工具”向“代理”的跃迁。当AI能够精准复现人的声音和情感，它就不再只是翻译，而是一种数字分身。可以预见，在未来的虚拟会议、元宇宙社交中，语言障碍将彻底消失。但与此同时，如何防止技术滥用、保护个人声音指纹的隐私，将是下一个重大议题。

本文编译自Ars Technica

谷歌推出Gemini 3.5 Live Translate：即时语音互译保语调

核心功能：从“翻译”到“化身”

技术突破：当AI学会“模仿”人声

行业影响：重新定义跨国沟通

结语与展望

相关文章