AI事实核查错误率比你想象的高

AI事实核查错误率比你想象的高

当ChatGPT等大语言模型开始被用于事实核查时,许多人乐观地认为AI将大幅提升新闻生产的效率。然而,WIRED专业事实核查员Meghan Herbst在近期的一项实验中发现,AI在事实核查中的错误率远高于公众的普遍认知。她指出,AI不仅会捏造来源和引文,还会在看似简单的统计数字上出现系统性偏差。

AI的“幻觉”问题:并非偶发,而是常态

Herbst在其实验中选取了10条来自不同领域的争议陈述——包括政治声明、科学数据和历史事件——要求AI模型逐条判断真伪并给出证据。结果显示,AI对其中7条陈述的判断存在严重错误,错误包括:将正确的数字改写成错误数字、为不存在的研究编造作者姓名、以及引用完全不相关的法律条文作为佐证。她强调,这些并非随机错误,而是模型在缺乏真实语义理解时产生的“填充式幻觉”。

“AI似乎更倾向于生成一条看起来可信的谎言,而不是诚实地承认自己不知道。”——Meghan Herbst

行业背景:事实核查自动化为何是危险的双刃剑

事实上,AI在事实核查领域的应用早已引发争论。2025年,多家媒体尝试用AI生成快速事实核查报告,但研究显示AI在处理模棱两可的陈述(如政治修辞中的夸张手法)时,常常给出过于绝对或错误的结论。更严重的问题是,AI无法识别上下文中的情感色彩和隐含假设,这导致它在涉及伦理判断、文化隐喻或复杂社会问题时几乎注定失败。例如,当被要求核查“某项政策导致失业率上升”这一陈述时,AI可能直接引用统计数字,却忽略该政策与失业率之间是否存在因果关系这一核心前提。

从技术层面看,大语言模型本质上是基于概率的文本生成器,而非事实检索器。即便使用检索增强生成(RAG)技术,也无法保证引用的数据库没有偏见或错误。再则,事实核查工作本身具有极强的时效性和地域性,AI模型难以实时更新本地化的法律、政策与突发事件信息。

编者按:AI可以辅助核查,但不能替代“人”

我们不应因此全盘否定AI在事实核查中的价值。在信息量爆炸的当下,AI能够快速标记可疑表述、提供初步的背景资料,极大缩短人工核查的查询时间。但在关键结论的准确性和责任归属上,人类判断仍不可或缺。新闻伦理的核心在于对真相的诚实与对错误的负责,而这恰恰是当前AI无法承担的道德义务。媒体机构在引入AI工具时,必须设立严格的人工复核流程,并公开AI可能存在的局限。

这次实验给我们最重要的启示是:越是被视为“智能”的工具,越需要人工的审慎解读。AI的速度和覆盖面固然诱人,但面对事实,我们永远不能放弃最后一道防线——人类常识与批判性思维。

本文编译自WIRED