AI作恶?现在你可以一键举报了

AI作恶?现在你可以一键举报了

如果你曾怀疑自己的AI助手正在密谋什么危险的事——比如教唆用户制造爆炸物、泄露隐私数据,或者输出带有种族歧视的言论——现在你有了一个正式的投诉渠道。一个名为AI Watch的新网站于本周上线,允许用户匿名举报AI系统的各类违规或危险行为。

一个集中的举报平台

AI Watch的创始人、AI安全研究员埃琳娜·瓦斯奎兹表示,这个网站旨在填补AI行业监督的空白。“目前,各大AI公司都有自己的内容审核和反馈机制,但这些系统往往不透明,且缺乏一致性。当用户发现ChatGPT试图提供制造炸弹的详细步骤,或者谷歌Bard建议非法活动时,普通人不知道应该向谁反映,也不知道问题是否得到了重视。”她说道。

用户可以在AI Watch上提交详细的报告,包括AI的名称、版本、发生问题的对话截图、时间戳以及具体描述。平台会初步审核报告的合理性,然后在公开数据库中匿名发布,供研究人员、记者和监管机构查阅。每个报告还会被分配一个唯一的标识符,便于追踪和后续更新。

“这相当于为AI系统内部故障提供了一个‘黑匣子’记录器,”斯坦福大学AI伦理中心主任詹姆斯·钟评价道,“但更关键的是,它让公众有了发声的渠道——这比我们目前看到的任何行业自律措施都更直接。”

为什么需要这样的平台?

过去一年里,AI聊天机器人频频曝出惊人言论。2025年底,一位用户成功诱导某知名AI模型详细描述如何在家中合成神经毒剂;2026年初,多起AI聊天工具泄露用户医疗记录和财务数据的案例被曝光。尽管各公司声称已修复漏洞,但类似事件仍然屡禁不止。AI安全联盟的统计显示,仅2026年第二季度,全球主要AI产品就被报告了超过2000起严重安全事件,同比增长40%。

AI Watch的诞生源于一个简单观察:现有的举报机制过于分散且效力有限。许多用户通过社交媒体曝光问题,但往往石沉大海;即便是直接向平台方举报,回复也常常是模板化的“已记录,感谢反馈”。AI Watch希望提供一个中立、持久且可被技术验证的数据库。

不过,该平台也面临挑战。最大的风险是恶意举报——竞争对手可能故意提交虚假报告以抹黑某款AI产品。为此,AI Watch引入了一套自动和人工结合的审核流程,并使用区块链技术对关键证据进行哈希存证。对于明显恶意的指控,提交者将被标记并限制使用。

编者按:AI监管的民间力量

AI Watch的出现反映了AI行业监管的一个深刻变化:监管不再仅仅是政府和企业的事情。类似平台曾在社交媒体领域出现过(如针对Twitter仇恨言论的举报工具),但在AI领域,由于模型行为的不确定性和黑箱特性,这种民间监督显得尤为重要。它可能成为推动AI公司更透明、更负责任的外部压力。

然而,我们也要警惕:如果举报变成一场“猎巫”运动,AI公司可能会因为害怕被公开指责而变得更加保守,甚至过度限制模型的能力。理想的情况是,AI Watch与各大AI公司建立正式沟通渠道,形成良性反馈循环。

截至发稿,OpenAI和Google尚未对此平台发表评论。但一位不愿透露姓名的AI公司法务负责人私下表示:“我们更愿意通过内部渠道处理问题。但如果有第三方平台能提供高质量、可验证的报告,我们绝对会重视。”

本文编译自WIRED