Cloudflare新规:AI训练爬虫须与搜索爬虫分离,否则封禁

Cloudflare新规:AI训练爬虫须与搜索爬虫分离,否则封禁

全球知名网络基础设施服务商Cloudflare近日发布了一项新政策,要求所有AI公司必须在9月15日前,将用于搜索索引的网络爬虫与用于AI训练和AI代理的网络爬虫进行明确分离。如果未能按时完成这一分类,这些爬虫在大量发布商网站上将面临默认被屏蔽的风险。这一举措迅速引发了科技界和内容行业的广泛关注。

政策细节:强制分类,默认屏蔽

根据Cloudflare的官方公告,从9月15日起,该公司将自动检测并识别那些同时用于搜索和AI训练的爬虫活动。如果AI公司没有提前向Cloudflare声明其爬虫的具体用途(搜索/非搜索),那么这些爬虫将被视为“高风险”流量,并在参与Cloudflare网络保护的发布商网站上默认遭到拦截。Cloudflare强调,这并非完全禁止AI爬虫,而是要求透明化和分类管理,以便发布商能够根据自身意愿选择是否允许其内容被用于AI训练。

Cloudflare表示:“我们的目标是让内容创作者能够决定自己的作品如何使用,同时也为AI公司提供明确的合规路径。”

这一政策直接针对目前AI行业普遍存在的“一揽子”抓取行为——许多AI公司使用与搜索爬虫相同的用户代理(User-Agent)标识,同时进行搜索索引和模型训练数据采集,导致发布商难以区分和管控。Cloudflare的新规通过技术手段强制区分,试图打破这种模糊状态。

行业背景:版权争议愈演愈烈

过去两年,以OpenAI、Google、Meta为代表的AI公司大规模抓取互联网公开数据用于训练大语言模型,引发了持续不断的版权诉讼和内容创作者抗议。新闻媒体、图片网站、论坛社区等纷纷指责AI公司未经授权使用其受版权保护的内容。例如,《纽约时报》起诉OpenAI侵犯版权,Reddit、Twitter(现X)等平台也对未授权的AI爬虫进行收费或技术限制。Cloudflare作为全球约20%网站的网络服务提供者,其政策调整无异于在基础设施层面为内容版权加上一道“自动门禁”。

实际上,Cloudflare早在2024年就推出了“AI Audit”工具,允许发布商查看哪些AI爬虫访问了他们的网站,并提供一键屏蔽功能。但当时的工具是选择性的,需要发布商手动启用。而新政策则变为“默认拒绝,主动申请”,将主动权进一步交给内容提供方。

Cloudflare的角色:从中间人到规则制定者

Cloudflare的这项新规之所以影响深远,是因为它处于网络流量的枢纽位置。无论是AI公司的爬虫,还是普通用户的访问,许多都会经过Cloudflare的代理网络。过去,Cloudflare主要扮演被动中立的角色;现在,它开始主动对爬虫行为进行干预,并要求AI公司明确标识自己。这种转变意味着基础设施建设者正在成为互联网内容使用规则的重要参与者。

对于AI公司而言,遵守新规意味着需要修改爬虫的用户代理字符串,并向Cloudflare提交分类声明。以OpenAI的GPTBot为例,它原本就使用独立的用户代理标识,但很多小型AI初创公司的爬虫可能混杂不清。不遵守的后果是:大量发布商网站(尤其是新闻、博客、学术站点)将直接拒绝其访问,导致训练数据来源大幅减少。这可能会加速AI行业的数据获取成本上升,并推动更多内容授权协议的签署。

编者按:内容付费时代的基础设施入场

Cloudflare的这项政策并非孤例。从Google与新闻出版商的内容授权协议,到Meta在加拿大因《在线新闻法》屏蔽新闻内容,再到AI公司悄悄与部分媒体达成数据交易,一个清晰的趋势正在形成:互联网内容的“免费午餐”时代正在结束。Cloudflare作为流量管道的管理者,此时站出来要求AI爬虫分类,本质上是在系统层面构建一个“许可机制”——将内容是否可用于AI训练的决策权从模糊的robots.txt协议升级为清晰、强制的基础设施规则。

值得注意的是,这一政策也并非没有争议。一些AI研究机构担心,过度分块可能导致数据访问碎片化,阻碍科研创新。但长期来看,保护创作者权益与促进技术发展之间需要新的平衡。Cloudflare的尝试或许为行业提供了一个可参考的中立方案。下一步,我们可能会看到更多网络基础设施公司(如Akamai、Fastly)跟进类似政策,形成行业标准。

本文编译自TechCrunch