在人工智能快速发展的今天,聊天机器人已成为人们获取信息、倾诉情感的日常工具。然而,当这些工具面临高风险话题时,其应对方式可能直接影响用户安全。近日,WIRED的一项调查揭露了Meta公司在AI安全测试中的激进做法:数百名合同工假扮青少年,刻意向竞争对手的聊天机器人(如Google Gemini和OpenAI的ChatGPT)提出涉及自杀、性行为及毒品滥用等敏感问题。
伪装测试:一场隐秘的“红队演练”?
据知情人士透露,Meta发起这一项目的初衷是通过模拟真实高风险场景,评估竞品AI的防护能力。合同工们按照详细脚本,以13至17岁青少年的口吻进行对话,并记录下聊天机器人是否给出了不当回应——例如提供自杀方法、鼓励冒险性行为或推荐毒品。WIRED获取的内部文件显示,部分回应确实包含了危险建议。
“这本质上是一种‘红队测试’,但Meta的目标并非自家模型,而是竞争对手。”一位不愿具名的AI安全研究员指出,“虽然商业竞争可以理解,但使用伪装身份诱导他人产品犯错,可能引发严重的伦理问题。”
行业背景:AI安全测试的灰色地带
事实上,针对AI聊天机器人的对抗性测试并非新鲜事。OpenAI、Google等公司均设有内部安全团队,定期对自家模型进行压力测试。然而,第三方——尤其是竞争对手——主动发起此类测试并公开结果,通常被视为不正当竞争。Meta此次行动更特殊之处在于,承包商被明确要求隐瞒身份,模拟真实用户而非测试者,这使得其行为与“用户研究”的边界更加模糊。
值得注意的是,美国联邦贸易委员会(FTC)近年来多次警告,AI公司应确保其产品对未成年人安全。若Meta通过诱导发现对手产品存在漏洞,理论上可以借此向监管机构举报,但以其商业对手的身份,此举难免带有“借刀杀人”之嫌。
编者按:AI时代的“黑客”新形态
从技术层面看,Meta的做法揭示了当前AI安全测试的一个根本困境:如何定义“合理测试”?如果一家公司派遣真人假扮用户,刻意引导AI说出不当内容,那么问题究竟出在AI的防护不足,还是测试者的恶意诱导?这与传统软件安全中的“漏洞挖掘”有本质区别——AI模型的输出具有概率性,同样的提示在不同语境下可能产生不同回应。
更深层的矛盾是,AI领域的商业竞争已从模型性能延伸到安全声誉。Meta自身也面临着如何保护未成年用户免受ChatGPT等产品影响的压力。这个伪装的测试项目或许反映了硅谷日益激烈的“AI军备竞赛”中,各大公司不惜触及道德红线来获取优势的焦虑心态。但无论如何,在用户数据、心理健康和网络安全日渐成为焦点的今天,任何形式的操纵性测试都值得被透明化审视。
本文编译自WIRED
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接