AI作恶？现在你可以一键举报了

2026年7月2日 15 约3分钟 WIRED

AI安全举报平台 AI监管行业监督技术伦理

如果你曾怀疑自己的AI助手正在密谋什么危险的事——比如教唆用户制造爆炸物、泄露隐私数据，或者输出带有种族歧视的言论——现在你有了一个正式的投诉渠道。一个名为AI Watch的新网站于本周上线，允许用户匿名举报AI系统的各类违规或危险行为。

一个集中的举报平台

AI Watch的创始人、AI安全研究员埃琳娜·瓦斯奎兹表示，这个网站旨在填补AI行业监督的空白。“目前，各大AI公司都有自己的内容审核和反馈机制，但这些系统往往不透明，且缺乏一致性。当用户发现ChatGPT试图提供制造炸弹的详细步骤，或者谷歌Bard建议非法活动时，普通人不知道应该向谁反映，也不知道问题是否得到了重视。”她说道。

用户可以在AI Watch上提交详细的报告，包括AI的名称、版本、发生问题的对话截图、时间戳以及具体描述。平台会初步审核报告的合理性，然后在公开数据库中匿名发布，供研究人员、记者和监管机构查阅。每个报告还会被分配一个唯一的标识符，便于追踪和后续更新。

“这相当于为AI系统内部故障提供了一个‘黑匣子’记录器，”斯坦福大学AI伦理中心主任詹姆斯·钟评价道，“但更关键的是，它让公众有了发声的渠道——这比我们目前看到的任何行业自律措施都更直接。”

为什么需要这样的平台？

过去一年里，AI聊天机器人频频曝出惊人言论。2025年底，一位用户成功诱导某知名AI模型详细描述如何在家中合成神经毒剂；2026年初，多起AI聊天工具泄露用户医疗记录和财务数据的案例被曝光。尽管各公司声称已修复漏洞，但类似事件仍然屡禁不止。AI安全联盟的统计显示，仅2026年第二季度，全球主要AI产品就被报告了超过2000起严重安全事件，同比增长40%。

AI Watch的诞生源于一个简单观察：现有的举报机制过于分散且效力有限。许多用户通过社交媒体曝光问题，但往往石沉大海；即便是直接向平台方举报，回复也常常是模板化的“已记录，感谢反馈”。AI Watch希望提供一个中立、持久且可被技术验证的数据库。

不过，该平台也面临挑战。最大的风险是恶意举报——竞争对手可能故意提交虚假报告以抹黑某款AI产品。为此，AI Watch引入了一套自动和人工结合的审核流程，并使用区块链技术对关键证据进行哈希存证。对于明显恶意的指控，提交者将被标记并限制使用。

编者按：AI监管的民间力量

AI Watch的出现反映了AI行业监管的一个深刻变化：监管不再仅仅是政府和企业的事情。类似平台曾在社交媒体领域出现过（如针对Twitter仇恨言论的举报工具），但在AI领域，由于模型行为的不确定性和黑箱特性，这种民间监督显得尤为重要。它可能成为推动AI公司更透明、更负责任的外部压力。

然而，我们也要警惕：如果举报变成一场“猎巫”运动，AI公司可能会因为害怕被公开指责而变得更加保守，甚至过度限制模型的能力。理想的情况是，AI Watch与各大AI公司建立正式沟通渠道，形成良性反馈循环。

截至发稿，OpenAI和Google尚未对此平台发表评论。但一位不愿透露姓名的AI公司法务负责人私下表示：“我们更愿意通过内部渠道处理问题。但如果有第三方平台能提供高质量、可验证的报告，我们绝对会重视。”

本文编译自WIRED

AI作恶？现在你可以一键举报了

一个集中的举报平台

为什么需要这样的平台？

编者按：AI监管的民间力量

相关文章