配置 robots.txt 时与 AI 爬虫的博弈：如何保护内容又不被 Google 忽略

1. 糟糕的开头

我当时就裂开了。今天早上醒来，习惯性扫了一眼 daima.life 的流量统计，发现有一波来自几个神秘 IP 的巨量访问。我点进去一看源码，好家伙，我的原创博客内容竟然原封不动地出现在了几个垃圾 AI 生成网站上，连我代码注释里的错别字都一模一样。这些“数据淘金者”现在连基本的职业道德都不要了，直接暴力抓取去喂他们的 LLM。如果我不反击，我辛苦维护的 **Privacy-First** 纯净技术社区就真成了别人的免费养料。

2. 我的思考

在 2026 年，保护内容的难度已经指数级上升。如果你在大气层直接放一个 Disallow: /，那恭喜你，你的 SEO 会在三天内跌进外太空。Google 依然是流量命脉，我不能失去它。但我绝对不能忍受我的创意被 GPTBot 这种只吃不拉的商业爬虫“无偿征用”。

我需要一套“有色眼镜”策略：对 Googlebot 这种能带来流量的“财神爷”客气点，对那些只有抓取没有贡献的 AI 训练爬虫重拳出击。这不仅仅是简单的屏蔽，而是一场关于 `User-Agent` 的心理战。

3. 技术硬核区

我没有在根目录只写一个简单的文本文件，而是结合了边缘计算。但首先，我们要把 robots.txt 的阵地构筑好。这里的关键在于针对性。在 2026 年，忽略 AI 爬虫的 User-Agent 列表等同于裸奔。

// daima.life 2026 版 robots.txt 核心配置
User-agent: Googlebot
Allow: /
Crawl-delay: 1

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: *
Disallow: /private/
Allow: /

这里有几个陷阱：很多开发者以为 * 就涵盖了一切。错！现在的商业 AI 爬虫会专门绕过通配符规则。你必须显式地喊出 GPTBot 的名字。此外，我还利用了 Cloudflare Workers 在边缘侧做了一层“影子屏蔽”：如果请求的 UA 是那些已知的恶意爬虫，但我又不想让它在 robots.txt 里察觉到我的警觉，我会直接给它返回一个经过“污染”的垃圾数据包。这种“蜜罐策略”才是 2026 年极客该有的反击姿势。

4. FAQ 模块

Q1: 屏蔽了 AI 爬虫真的会影响 SEO 排名吗？

A: 只要你正确配置了 Googlebot 的 Allow 权限，基本没有影响。相反，由于你减少了无效抓取对服务器带宽（虽然我们在 CF Pages 没这压力）和算力的占用，Google 反而会觉得你的站更健康。

Q2: 现在的 AI 爬虫不是都会伪造 User-Agent 吗？robots.txt 还有用？

A: 没错，顶级爬虫会伪造。所以 robots.txt 只是“君子协定”的第一道防线。在 daima.life，我们还有边缘侧的速率限制（Rate Limiting）和行为模型识别。如果一个 UA 自称是 Chrome 但它在一秒钟内抓取了 50 个页面且不加载 CSS，那它就是鬼，直接封 IP 没商量。

Q3: 为什么还需要设置 Crawl-delay？

A: 2026 年的蜘蛛爬行非常暴力。设置 1 秒的延迟是为了让搜索蜘蛛的行为更符合人类逻辑。虽然我们的 Pages 性能强悍，但维持一个优雅的被抓取节奏，能有效避免某些垃圾聚合站利用实时同步接口瞬间把你的新文章“洗”走。

5. 结尾

当我看着那些 AI 爬虫在 Disallow 的红灯前吃瘪，而 Google 的索引量依然稳步上升时，我感受到了一种掌握博弈主动权的快感。未来的 Web 是一个属于“防守型创作者”的时代。我们不仅要会写代码，还要会守卫代码。下一阶段，我准备尝试在 HTML 里注入一些只有 AI 能读懂但会干扰其权重计算的“语义毒药”。你准备好加入这场保卫战了吗？

配置 robots.txt 时与 AI 爬虫的博弈：如何保护内容又不被 Google 忽略

1. 糟糕的开头

2. 我的思考

3. 技术硬核区

4. FAQ 模块

5. 结尾

推荐工具

Robots.txt 生成

SEO 综合检测

相关阅读

那些藏在 URL 里的双重编码漏洞：一次 SQL 注入的完整路径

那个把对象直接 toString 传进 URL 的同事，把我们的接口搞崩了