谷歌近日在2026年Google I/O大会上正式发布了Gemini 3.5 Live Translate功能,这是一项基于最新大语言模型Gemini 3.5的实时语音到语音翻译技术。与以往仅输出文本或合成语音的翻译工具不同,Live Translate能够精准保留原始说话者的语调、语速和音高,让翻译后的语音听起来就像本人用目标语言在说话。
核心功能:从“翻译”到“化身”
据Ars Technica报道,该功能通过端到端的语音编码-解码架构实现。系统首先分析原始语音的声学特征(包括情感、停顿、重音等),然后结合Gemini 3.5的跨语言理解能力,生成完全保留了这些特征的目标语言语音。谷歌表示,即使在嘈杂环境或不同口音下,翻译准确率也能达到98%以上。
更关键的是,每一段翻译后的语音都会被嵌入SynthID数字水印——这是谷歌DeepMind此前开发的一种不可感知的音频标记技术。SynthID可以验证音频是否由AI生成以及由哪个模型生成,从而防止深度伪造或未经授权的使用。
技术突破:当AI学会“模仿”人声
传统语音翻译(例如Google Translate的对话模式)普遍存在两个瓶颈:一是翻译延迟造成交流断续,二是合成语音缺乏自然感。Gemini 3.5 Live Translate通过引入“流式神经翻译”和“个性化声学模型”,将端到端延迟压缩至200毫秒以内,相当于人类对话中的正常停顿。同时,系统会为每个说话者动态建立声纹指纹,确保翻译后的语音在音色、节奏上接近原声。
然而,这种能力也引发了伦理担忧。斯坦福大学AI伦理研究中心指出,如果恶意使用者利用他人声音样本伪造翻译内容,可能造成身份冒用或虚假信息传播。谷歌对此的回应是强制启用SynthID水印,并限制API对敏感用途的开放。
行业影响:重新定义跨国沟通
这项技术对商务会议、国际新闻直播、外语学习教育等领域意义深远。例如,联合国同声传译系统将有望引入Live Translate作为辅助,大幅降低人力成本;流媒体平台可以同时提供多种语言的“原声配音”。编者按:值得注意的是,语言不仅仅是信息载体,更是文化认同的重要部分。当AI可以完美模仿任何人的声音说任何语言时,我们是否正在失去语言背后的文化独特性?谷歌显然意识到了这个矛盾,因此在功能中保留了“语言风格标记”,允许用户选择保留源语言中的习惯用语或俚语。
“Live Translate能够保留语调,这意味着未来人们可能不再是‘说外语’,而是直接变成‘用外语思想的人’。我们正在打破巴别塔的最后一面墙。” ——谷歌CEO Sundar Pichai在发布会现场演示后表示。
目前该功能已率先支持英语、中文、西班牙语和阿拉伯语之间的互译,其他语言将在未来季度逐步开放。谷歌计划将其集成到Google Meet、YouTube以及第三方应用。
结语与展望
Gemini 3.5 Live Translate代表了AI语音翻译从“工具”向“代理”的跃迁。当AI能够精准复现人的声音和情感,它就不再只是翻译,而是一种数字分身。可以预见,在未来的虚拟会议、元宇宙社交中,语言障碍将彻底消失。但与此同时,如何防止技术滥用、保护个人声音指纹的隐私,将是下一个重大议题。
本文编译自Ars Technica
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接