AI 抓取如何摧毁维基百科的基础设施：付费墙背后的危机

Aisha Washington
6月6日
讀畢需時 10 分鐘

已更新：6月17日

How AI Scraping Is Killing Wikipedia's Infrastructure: The Crisis Behind the Paywall

深入了解危机：AI 抓取及其影响

Wikipedia 正在发生什么？AI 机器人正使平台不堪重负

Wikipedia 正面临一场前所未有的危机。作为全球最大的免费知识库，其服务器资源正被自动化系统以难以预料的规模消耗。2025 年 11 月，Wikimedia Foundation 要求 AI 公司停止将该平台视为免费数据源，并开始通过官方的 Wikimedia Enterprise API 支付费用。

数据触目惊心。在 2025 年 5 月至 6 月期间，在 Wikipedia 上规避检测的 AI 机器人 在伪装成人类用户的同时消耗了大量带宽。在升级检测系统后，Wikimedia Foundation 发现 AI 爬虫占用了 65% 的高资源消耗流量，但仅占实际页面访问量的 35%。与此同时，人类流量同比下降了 8%。

为什么 AI 公司正在抓取维基百科

大语言模型需要海量的高质量训练数据。维基百科的内容具有独特的价值：每篇文章都经过准确性编辑，每个观点都有来源，每个条目都遵循严格的中立原则。相比之下，大多数互联网内容充斥着垃圾信息、偏见和误导性信息。

OpenAI、Google、Meta 以及其他公司已经系统地抓取了维基百科来训练它们的模型。逻辑很简单：既然可以从全球最大的百科全书免费提取数据，为什么要为人工筛选的数据付费？

这揭示了 AI 对互联网基础设施的影响。维基百科是为人类读者设计的，而不是为了让人工智能系统进行工业规模的数据采集。

技术危机：AI 机器人如何逃避检测

The Technical Crisis: How AI Bots Evade Detection

伪装成人类的 AI 机器人

在 2025 年 5 月和 6 月，Wikimedia Foundation 发现了一些令人担忧的情况。在正常的流量模式之外，数据请求量出现了异常激增。调查揭开了真相：AI 机器人通过伪装成人类用户逃避 Wikipedia 的检测。

这些机器人通过更换 IP 地址、轮换 User-Agent 字符串并采用欺骗性技术来绕过安全系统。Wikimedia Foundation 投入了大量的工程资源，仅仅是为了识别这些伪装的爬虫并实施新的检测算法。

AI 抓取 Wikipedia不仅仅是在公开进行——它正以欺骗性的方式发生。各家公司正在积极隐藏其数据收集活动。

带宽问题：50% 的增长

自 2024 年 1 月以来，Wikipedia 多媒体内容的带宽已增长了 50%。这一增长全部来自 AI 爬虫流量，而非人类用户。

原因何在？Wikipedia 的基础设施运行在不同的成本模型上。热门内容缓存在全球各地的区域数据中心，访问缓存内容的成本很低。而冷门内容则存储在昂贵的核心数据中心。

人类读者是有选择性的。他们访问热门文章。AI 爬虫则是无差别的。它们进行“批量阅读”，访问数百万个页面，包括极少有人涉足的冷门条目。这迫使服务器不断从昂贵的核心基础设施中检索数据。Wikimedia Foundation 解释道：“虽然人类读者通常关注特定主题，但机器人经常进行批量阅读，访问大量页面，包括那些人类很少访问的页面。这意味着这些请求更有可能被路由到核心数据中心，从而大大增加资源消耗。”

一些爬虫甚至试图访问 Wikipedia 的内部系统——代码审查平台和错误跟踪数据库。这造成了带宽浪费和潜在的安全风险。

人的代价：页面浏览量下降与可持续性受威胁

The Human Cost: Declining Page Views and Threatened Sustainability

Wikipedia 的流量危机

这是一个令人不安的现实：Wikipedia 的人类页面浏览量下降正在加速。2025 年，人类访问量同比下降了 8%。

原因何在？Wikimedia Foundation 的首席执行官解释说：“我们认为这反映了生成式 AI 和社交媒体如何影响人们搜索信息的方式，特别是随着搜索引擎越来越多地使用生成式 AI 直接向搜索者提供答案。”

Google 的 AI 摘要直接在搜索结果中回答问题。用户不再需要点击进入 Wikipedia。年轻用户已经转向社交媒体获取信息。

讽刺的是：基于 Wikipedia 内容训练的 AI 系统现在正与 Wikipedia 自身争夺读者。

资金危机

Wikipedia 依靠捐款运行并依赖志愿者编辑。Wikimedia Foundation 警告称：“随着 Wikipedia 访问量的减少，能够成长并丰富内容的志愿者会变少，且支持这项工作的个人捐赠者也会减少。”

这是具体的威胁。当流量下降时，潜在捐赠者对 Wikipedia 存在的感知度会降低。志愿者编辑在看到参与度下降时会失去动力。内容质量随之恶化。衰退加速。一个死亡螺旋正在形成。

案例研究：Charlie Kirk 枪击事件暴露了系统的脆弱性

当突发新闻压垮基础设施时

2025年9月10日，保守派活动家 Charlie Kirk 在 Utah Valley University 遭枪击身亡。这一突发的全球新闻事件准确地说明了 AI 抓取在关键时刻如何影响 Wikipedia 服务器。

数百万人涌向 Wikipedia 了解 Kirk、Turning Point USA 以及该事件。这正是 Wikipedia 基础设施的设计初衷，系统本应能够处理这种流量激增。

但实际情况是：在人类访问 Kirk 的条目时，AI 爬虫同时抓取了数百篇相关文章。持续的 AI 抓取所产生的基准带宽需求，意味着系统几乎没有余力来吸收这种突发的合法流量激增。

Wikimedia Foundation 的分析揭示了这一点：“自2024年1月以来，基准带宽需求一直在稳步增长，且没有放缓的迹象。基准使用量的增长意味着我们处理异常事件的余地变小了。”

尽管 Wikipedia 通常可以处理突发新闻期间的人类流量，但 AI 机器人的压力剥夺了安全裕度。人类和机器人的流量叠加最终压垮了系统。

这证明了 AI 抓取不仅是一个财务问题，更是一个服务可靠性问题。在信息最为关键的时刻，平台无法保证其服务真实用户的能力。

法律问题：AI 抓取是否合法？

The Legal Question: Is It Legal for AI to Scrape?

AI 训练中的版权与合理使用

AI 抓取任何网站是否合法？答案正日益趋向于：如果没有许可或付费，可能不合法。

最近的法院裁决正在改变这一格局。2025 年 2 月，一名联邦法官裁定，当 AI 系统与原始内容所有者竞争时，未经授权利用受版权保护的作品进行 AI 训练不属于合理使用。在 Thomson Reuters Enterprise Centre GMBH v. Ross Intelligence Inc. 一案中，法院发现，尽管存在合理使用的辩护，但为了训练竞争性 AI 产品而复制受版权保护的内容违反了版权法。

法官的理由非常直接：其目的是商业性的，且损害了原始作品的市场。尽管 Ross 将内容用于训练而非重新分发，法院仍认定这不属于转换性使用。

Wikipedia 的内容虽然在 Creative Commons (CC-BY-SA) 下获得自由许可，但仍然带有署名要求。许多 AI 公司在抓取 Wikipedia 时未能提供正确的来源署名。这违反了许可条款。

解决方案：Wikimedia Enterprise API 和付费访问

面向 AI 公司的 Wikipedia 付费 API

Wikimedia Foundation 并没有直接禁止 AI 公司，而是通过官方的 Wikimedia Enterprise API 寻求变现。Wikipedia 对人类读者仍然完全免费。

相反，Wikimedia Enterprise 平台提供大规模访问 针对高频数据访问向 AI 公司收费：

免费层级：

每月请求次数有限
每月更新两次
基础支持

付费层级：

每日无限次请求
实时或每小时更新
具备 99% SLA 的优先支持
无隐藏费用

这种结构非常务实。小型项目和学术研究人员可以继续免费使用 Wikipedia 的数据。商业 AI 公司和大规模运营机构则必须升级为付费访问。付费层级可确保：

可靠的访问：付费客户享有优先权和有保障的运行时间
稳定的服务：可预测的高流量访问且不会崩溃
法律明确性：正式协议可降低诉讼风险
署名支持：机器可读的许可信息支持正确的署名
更新的数据: 每日或实时更新消除了对私有爬虫的需求

对于 AI 公司来说，这笔账算得通。官方访问的成本低于维护抓取基础设施的成本。他们消除了法律风险。可靠性和效率的提升证明了这笔支出的合理性。

核心问题

AI 公司应该为训练数据付费吗？

从现实角度来看，答案正日益趋向于“是”。从法律角度来看，法院裁定未经授权抓取高价值内容违反了版权法。从商业角度来看，支付数据访问费用比维护抓取基础设施更便宜。

此外还涉及伦理层面。Wikipedia 的 800 万志愿者编辑投入了数百万小时来创建经过验证的内容。AI 公司正在利用这些劳动成果训练价值数十亿美元的模型，却未提供补偿。

这是不可持续的。当志愿者被剥削时，他们会失去动力。质量随之下降。AI 公司所依赖的资源也会随之恶化。

为什么 Wikipedia 要求 AI 开发者使用其 API？

答案是生存。Wikimedia Foundation 正面临一场多维度的危机：

基础设施危机：AI 抓取使服务器不堪重负，导致服务可靠性问题
财务危机：人工访问量下降意味着捐款减少
社区危机：访客减少意味着潜在志愿者减少
竞争危机：替代性的 AI 百科全书正在兴起

通过强制执行官方 API 访问，该基金会实现了：

可预测的收入：付费订阅提供了可持续的资金
基础设施保护：官方 API 比无节制的抓取更高效
强制署名：API 响应中包含机器可读的许可信息
社区维护：可持续的资金支持志愿者基础设施
法律定位：正式协议可减少未来的诉讼

常见问题解答：了解 AI Scraping、Wikipedia 和 Enterprise API

FAQ: Understanding AI Scraping, Wikipedia, and the Enterprise API

问：究竟什么是 AI scraping？它与普通的网站访问有何不同？

答：普通的网站访问是由人类驱动且具有选择性的。一个人阅读一篇文章，点击几个链接，然后离开。AI scraping 则是自动化的且不加区分。爬虫会下载数百万篇文章，包括冷门文章，并以人类绝不会遵循的模式进行访问。它会反复访问冷库服务器，而不是缓存内容。它 24/7 全天候持续运行，消耗资源的规模是人类永远无法企及的。

问：Wikimedia Foundation 对 AI scraping 提出了哪些具体担忧？

答：该基金会提出了多项担忧：

资源消耗: 65% 的昂贵带宽消耗来自机器人，而它们仅占流量的 35%
基础设施威胁: 系统无法在重大新闻事件期间保证可靠性
欺骗性行为: 机器人通过伪装成人类来试图隐藏身份
财务可持续性: 流量下降意味着捐款减少
社区影响: 访客减少意味着志愿者减少和内容质量下降
归属权: AI 公司在使用 Wikipedia 内容时未注明人类编辑者的贡献

问：Wikimedia Enterprise API 是如何运作的，谁需要使用它？

答：Wikimedia Enterprise API 提供不同的访问层级：

免费版（适用于小型项目、研究人员、非营利组织）：

每月请求次数有限
每月更新两次
不提供技术支持

付费版（适用于商业 AI 公司和大规模用户）：

无限次请求
每日更新（或实时流式传输）
99% 在线率保证的优先支持
标准化格式的结构化、经验证数据

任何为商业 AI 模型进行大规模数据提取的公司都应使用付费层级。这包括 OpenAI、Google、Meta 及类似公司。

问：AI 公司可以在未经许可的情况下合法抓取 Wikipedia 吗？

答：答案正日益趋向于“不可以”。涉及以下几个因素：

版权：Wikipedia 内容采用 CC-BY-SA 许可，这要求署名。未经适当署名的抓取违反了许可条款。
合理使用: 最近的法院判决表明，抓取受版权保护的内容来训练竞争性 AI 产品并不属于合理使用。
服务条款: Wikipedia 的条款禁止违反其政策或造成服务器负担的抓取行为。
商业损害: 如果 AI 抓取损害了 Wikipedia 的可持续性，可能构成对业务运营的侵权干扰。

法律格局正在演变。如果 AI 公司继续进行不受控制的抓取，将面临日益增长的法律风险。

问：既然可以免费抓取，为什么 AI 公司还要为训练数据付费？

答：有几个原因：

实际层面:

官方 API 访问比维护爬虫基础设施更可靠、更高效
法律确定性消除了诉讼风险
合规性变得更加容易

财务：

相对于训练数据和模型性能的价值，其成本微乎其微
避免法律纠纷和基础设施维护带来的长期节省
可抵税的业务支出

伦理：

Wikipedia 的志愿者们通过数百万小时的劳动创造了这些内容
AI 公司从基于这些内容训练的模型中获利
为数据访问付费是对这种价值的认可，也是对来源的回馈

系统性：

如果公司不为内容付费，平台就会崩溃，数据源也会消失
可持续的资金支持保护了造福每个人的知识共享资源

问：AI 抓取如何威胁更广泛的互联网基础设施？

答：AI 抓取揭示了互联网原始经济模式的根本缺陷。互联网曾假设基础设施应该是免费且开放的。当用户是人类时，这种模式是行之有效的。

工业规模的 AI 抓取则完全不同。资源消耗是以 TB 和 PB 计量的，而非人类查询。这种经济模式无法维系。

如果维基百科在人工智能公司无偿消耗其资源的情况下无法维持自身，该模式就会失败。其他平台也面临同样的威胁。如果免费的协作知识系统无法在人工智能驱动的世界中生存，那么全球获取可靠信息的机会将会如何？

结论：清算

维基百科面临的危机反映了人工智能驱动的世界中知识经济更广泛的清算。

几十年来，互联网一直基于信息应该免费的假设运行。这适用于人类消费，但不适用于工业规模的人工智能提取。

人工智能公司利用维基百科、Google 搜索结果、Reddit 讨论以及无数免费来源训练了他们的模型。他们利用未付费的内容建立了价值数十亿美元的业务。

维基媒体基金会的回应——通过 Wikimedia Enterprise API 要求付费——并非反人工智能。这是认识到可持续性需要补偿。内容创作有价值，基础设施有成本，志愿者需要支持。

人工智能公司是否会付费仍悬而未决。有些会采用官方 API，其他可能尝试绕过限制。法律系统最终将决定什么是被允许的。

但有一点很清楚：从维基百科免费、无限提取数据的时代正在结束。世界如何适应将决定维基百科等平台是生存并繁荣，还是在无偿提取下崩溃。

开放知识的未来取决于在开放性与可持续性之间找到平衡。维基媒体基金会 2025 年 11 月的声明代表了首次重大的机构化尝试，旨在达成这种平衡。

其结果将对维基百科以及为人工智能系统提供知识基础设施的每个平台都至关重要。

AI 抓取如何摧毁维基百科的基础设施：付费墙背后的危机

深入了解危机：AI 抓取及其影响

Wikipedia 正在发生什么？AI 机器人正使平台不堪重负

为什么 AI 公司正在抓取维基百科

技术危机：AI 机器人如何逃避检测

伪装成人类的 AI 机器人

带宽问题：50% 的增长

人的代价：页面浏览量下降与可持续性受威胁

Wikipedia 的流量危机

资金危机

案例研究：Charlie Kirk 枪击事件暴露了系统的脆弱性

当突发新闻压垮基础设施时

法律问题：AI 抓取是否合法？

AI 训练中的版权与合理使用

解决方案：Wikimedia Enterprise API 和付费访问

面向 AI 公司的 Wikipedia 付费 API

核心问题

AI 公司应该为训练数据付费吗？

为什么 Wikipedia 要求 AI 开发者使用其 API？

常见问题解答：了解 AI Scraping、Wikipedia 和 Enterprise API

结论：清算

最新文章

免费开始

产品功能

替代方案

解决方案

更多资源

公司信息

深入了解危机：AI 抓取及其影响

Wikipedia 正在发生什么？AI 机器人正使平台不堪重负

为什么 AI 公司正在抓取维基百科

技术危机：AI 机器人如何逃避检测

伪装成人类的 AI 机器人

带宽问题：50% 的增长

人的代价：页面浏览量下降与可持续性受威胁

Wikipedia 的流量危机

资金危机

案例研究：Charlie Kirk 枪击事件暴露了系统的脆弱性

当突发新闻压垮基础设施时

法律问题：AI 抓取是否合法？

AI 训练中的版权与合理使用

解决方案：Wikimedia Enterprise API 和付费访问

面向 AI 公司的 Wikipedia 付费 API

核心问题

AI 公司应该为训练数据付费吗？

为什么 Wikipedia 要求 AI 开发者使用其 API？

常见问题解答：了解 AI Scraping、Wikipedia 和 Enterprise API

结论：清算

免费开始

产品​功能

替代方案

​解决方案

更多资源

公司信息

产品功能

解决方案