SEOAIRobots.txtPrivacy

配置 robots.txt 时与 AI 爬虫的博弈:如何保护内容又不被 Google 忽略

2026-03-1411 分钟阅读

2026 年,内容爬取已成‘新淘金热’。本文复盘 daima.life 如何通过精细化配置 robots.txt 与边缘侧过滤,既能阻挡 GPTBot 等 AI 抓取数据,又能确保 Google 权重稳步提升。

1. 糟糕的开头

我当时就裂开了。今天早上醒来,习惯性扫了一眼 daima.life 的流量统计,发现有一波来自几个神秘 IP 的巨量访问。我点进去一看源码,好家伙,我的原创博客内容竟然原封不动地出现在了几个垃圾 AI 生成网站上,连我代码注释里的错别字都一模一样。这些“数据淘金者”现在连基本的职业道德都不要了,直接暴力抓取去喂他们的 LLM。如果我不反击,我辛苦维护的 **Privacy-First** 纯净技术社区就真成了别人的免费养料。

2. 我的思考

在 2026 年,保护内容的难度已经指数级上升。如果你在大气层直接放一个 Disallow: /,那恭喜你,你的 SEO 会在三天内跌进外太空。Google 依然是流量命脉,我不能失去它。但我绝对不能忍受我的创意被 GPTBot 这种只吃不拉的商业爬虫“无偿征用”。

我需要一套“有色眼镜”策略:对 Googlebot 这种能带来流量的“财神爷”客气点,对那些只有抓取没有贡献的 AI 训练爬虫重拳出击。这不仅仅是简单的屏蔽,而是一场关于 `User-Agent` 的心理战。

3. 技术硬核区

我没有在根目录只写一个简单的文本文件,而是结合了边缘计算。但首先,我们要把 robots.txt 的阵地构筑好。这里的关键在于针对性。在 2026 年,忽略 AI 爬虫的 User-Agent 列表等同于裸奔。

// daima.life 2026 版 robots.txt 核心配置
User-agent: Googlebot
Allow: /
Crawl-delay: 1

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: *
Disallow: /private/
Allow: /

这里有几个陷阱:很多开发者以为 * 就涵盖了一切。错!现在的商业 AI 爬虫会专门绕过通配符规则。你必须显式地喊出 GPTBot 的名字。此外,我还利用了 Cloudflare Workers 在边缘侧做了一层“影子屏蔽”:如果请求的 UA 是那些已知的恶意爬虫,但我又不想让它在 robots.txt 里察觉到我的警觉,我会直接给它返回一个经过“污染”的垃圾数据包。这种“蜜罐策略”才是 2026 年极客该有的反击姿势。

4. FAQ 模块

Q1: 屏蔽了 AI 爬虫真的会影响 SEO 排名吗?

A: 只要你正确配置了 GooglebotAllow 权限,基本没有影响。相反,由于你减少了无效抓取对服务器带宽(虽然我们在 CF Pages 没这压力)和算力的占用,Google 反而会觉得你的站更健康。

Q2: 现在的 AI 爬虫不是都会伪造 User-Agent 吗?robots.txt 还有用?

A: 没错,顶级爬虫会伪造。所以 robots.txt 只是“君子协定”的第一道防线。在 daima.life,我们还有边缘侧的速率限制(Rate Limiting)和行为模型识别。如果一个 UA 自称是 Chrome 但它在一秒钟内抓取了 50 个页面且不加载 CSS,那它就是鬼,直接封 IP 没商量。

Q3: 为什么还需要设置 Crawl-delay?

A: 2026 年的蜘蛛爬行非常暴力。设置 1 秒的延迟是为了让搜索蜘蛛的行为更符合人类逻辑。虽然我们的 Pages 性能强悍,但维持一个优雅的被抓取节奏,能有效避免某些垃圾聚合站利用实时同步接口瞬间把你的新文章“洗”走。

5. 结尾

当我看着那些 AI 爬虫在 Disallow 的红灯前吃瘪,而 Google 的索引量依然稳步上升时,我感受到了一种掌握博弈主动权的快感。未来的 Web 是一个属于“防守型创作者”的时代。我们不仅要会写代码,还要会守卫代码。下一阶段,我准备尝试在 HTML 里注入一些只有 AI 能读懂但会干扰其权重计算的“语义毒药”。你准备好加入这场保卫战了吗?