当前位置:文章中心>行业新闻
公司动态 行业新闻

AI蜘蛛爬虫如狼似虎,维基百科哭了 选择认怂

发布时间:2025-05-02 点击数:12

内容保卫战冰火两重天:美国媒体宣战 AI,维基百科却选择 “投降”

在人工智能席卷全球的浪潮中,内容平台与 AI 厂商的博弈正上演着戏剧性的两极分化。一边是代表全美 2200 多家新闻机构的新闻 / 媒体联盟高举 “支持负责任 AI” 大旗,向监管机构施压,要求强制科技巨头为 AI 训练使用的内容付费;另一边,曾经以知识共享闻名的维基百科却宣布 “缴械”—— 运营方维基媒体基金会近日与谷歌旗下 Kaggle 平台达成合作,公开优化后的 AI 训练数据集,这场看似 “背叛” 的妥协背后,实则藏着内容平台在 AI 时代的无奈与挣扎。

被爬虫拖垮的非营利平台

维基媒体基金会的 “投降” 并非毫无征兆。自 2024 年 1 月起,维基共享资源的流量数据就出现了诡异的变化:1.44 亿个图像、视频等文件的带宽使用量暴增 50%,而这些流量几乎全部来自 AI 厂商的爬虫。作为采用分布式存储架构的非营利组织,维基媒体基金会的系统本是为人类用户的自然浏览习惯设计 —— 热门内容缓存于边缘节点,冷门内容存储在核心数据中心。但 AI 爬虫的 “地毯式抓取” 彻底打破了这种平衡:它们不分冷热、批量抓取所有内容,导致原本鲜少访问的冷门数据被反复调取,核心数据中心的流量负荷飙升至 65%,而爬虫仅占总访问量的 35%。

 

面对这种 “机器挤兑”,维基媒体基金会陷入了绝境。作为依赖公众捐赠的非营利机构,其既无力承担巨额带宽成本,也无法像商业公司那样投入资金升级反爬虫技术。更尴尬的是,在 AI 数据抓取尚处灰色地带的当下,基金会既不能将内容变现,又难以阻止爬虫入侵,最终只能选择 “化被动为主动”—— 与 Kaggle 合作发布 JSON 格式的专用数据集。这种专为机器解析设计的数据格式,不仅便于 AI 直接调用,还能引导爬虫转向 Kaggle,从而将维基百科平台的爬虫带宽消耗降低 30%。

内容平台的集体困境:反爬虫 VS 用户体验

维基百科的妥协并非孤例。去年 5 月,知乎曾试图通过限制非登录用户查看全文来抵御 AI 爬虫,然而短短半年后便不得不撤回这一措施。究其原因,在于内容平台面临着两难抉择:严格的反爬虫策略虽然能保护知识产权,却会严重影响用户体验,进而削弱商业价值;而放任爬虫抓取,则意味着免费为 AI 厂商 “供血”。无论是知乎的 “先堵后放”,还是维基百科的 “主动开放”,本质上都是在商业利益与技术对抗之间寻求生存之道。

 

与此同时,美国新闻媒体正试图通过另一条路径突围。新闻 / 媒体联盟发起的 “支持负责任 AI” 运动,直指 AI 厂商无偿使用新闻内容的现状。他们呼吁监管机构出台强制付费机制,要求 OpenAI、谷歌等科技巨头为训练 AI 所使用的新闻数据支付版权费用。这场 “宣战” 虽然彰显了传统媒体的抗争决心,但在 AI 技术野蛮生长的当下,能否突破法律与技术的双重壁垒,仍是未知数。

时代之困:内容平台的转型阵痛

这场内容保卫战的冰火两重天,折射出整个行业在 AI 时代的集体焦虑。当 AI 爬虫以指数级速度进化,传统反爬虫技术逐渐失效;当数据成为新的生产资料,内容平台却难以界定自身权益边界。非营利的维基百科选择 “止损”,商业媒体选择 “抗争”,但无论是哪种选择,都无法掩盖内容平台在技术浪潮中的被动地位。

 

或许,这场博弈的最终解法,既不在于单方面的对抗,也非彻底的妥协。如何在保障内容创作者权益的同时,推动 AI 技术的良性发展?如何构建公平合理的数据使用机制?这些问题的答案,将决定未来内容平台与 AI 产业的共生模式。而维基百科与美国媒体的不同选择,恰似两块试验田,正等待时间检验其成效。