为什么 robots.txt 是 AI 可见度的第一道门槛
你花了大量时间优化内容、建设外链、提升权威性,却发现 ChatGPT 和 Perplexity 根本不推荐你的品牌。问题可能出在一个最容易被忽略的文件上——robots.txt。
robots.txt 是网站根目录下的纯文本文件,它告诉搜索引擎和 AI 爬虫"哪些页面可以抓取,哪些不行"。如果你的 robots.txt 屏蔽了 AI 爬虫,你的内容就相当于对 AI 世界隐身了。
AI 爬虫和传统爬虫有什么不同?
传统搜索引擎爬虫(如 Googlebot)抓取内容用于索引和排名。AI 爬虫的目标更复杂,它们分为两类:
- 训练爬虫:抓取网页内容用于训练大语言模型(如 GPTBot 为 OpenAI 模型训练收集数据)
- 搜索/检索爬虫:实时抓取内容用于回答用户问题(如 ChatGPT-User 在用户提问时检索最新信息)
这种分工意味着你可以精细控制:允许 AI 在回答中引用你的内容,但不允许用你的数据训练模型。
数据揭示的残酷现实
根据 Paul Calvano 的研究,5.14% 的域名屏蔽了 GPTBot。看起来比例不高?但效果触目惊心——GPTBot 的实际页面覆盖率已经从 84% 暴跌至 12%,因为被屏蔽的往往是大型出版商和高权重网站。
更关键的是,屏蔽 GPTBot 的网站在 ChatGPT 回答中的被引用频率降低了 73%。换句话说,你关上了门,AI 就真的不再提你了。
2026 年你需要认识的 9 大 AI 爬虫
以下是目前活跃的主要 AI 爬虫及其用途:
| 爬虫名称 | 所属公司 | 用途 | robots.txt 标识 |
|---|---|---|---|
| GPTBot | OpenAI | 模型训练 | GPTBot |
| ChatGPT-User | OpenAI | 实时搜索检索 | ChatGPT-User |
| OAI-SearchBot | OpenAI | 搜索功能 | OAI-SearchBot |
| ClaudeBot | Anthropic | 模型训练 | ClaudeBot |
| anthropic-ai | Anthropic | AI 训练 | anthropic-ai |
| Google-Extended | Gemini 训练 | Google-Extended | |
| PerplexityBot | Perplexity | 搜索+训练 | PerplexityBot |
| Bytespider | 字节跳动 | 训练+搜索 | Bytespider |
| cohere-ai | Cohere | 模型训练 | cohere-ai |
注意:ClaudeBot 训练爬虫被高达 69% 的网站屏蔽。而 AI 训练流量占所有 AI 爬虫请求的 42%。大部分网站只屏蔽训练爬虫,同时保留搜索爬虫的访问权限。
三种 robots.txt 策略:选择适合你的
策略一:全部允许(推荐中小品牌)
如果你的目标是最大化 AI 可见度,让所有 AI 爬虫自由抓取:
# AI 爬虫 - 全部允许
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: PerplexityBot
Allow: /
适用场景:希望被 AI 推荐的品牌官网、内容型网站、SaaS 产品页。对中小品牌来说,训练数据带来的间接品牌曝光远大于"数据被用于训练"的风险。
策略二:屏蔽训练,允许搜索(推荐大型内容站)
只允许 AI 在回答问题时引用你的内容,但不允许用于模型训练:
# 屏蔽训练爬虫
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: cohere-ai
Disallow: /
# 允许搜索/检索爬虫
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
适用场景:新闻媒体、付费内容平台、大型出版商。你希望 AI 引用你但不希望数据被用于训练竞品模型。
策略三:全部屏蔽(不推荐)
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
风险警告:选择这个策略意味着你的品牌将从 AI 搜索世界中消失。考虑到被引用频率降低 73% 的数据,除非你有极强的版权保护需求,否则不建议完全屏蔽。
5 分钟实操:检查和修复你的 robots.txt
第一步:查看当前状态
在浏览器中访问 https://你的域名/robots.txt,查看是否有针对 AI 爬虫的规则。如果完全没有提到 GPTBot、ClaudeBot 等,说明你使用的是默认的 User-agent: * 规则——大多数情况下这意味着允许抓取,但最好显式声明。
第二步:使用工具检测
用 RankWeave 的免费 AI 可见度审计,一键检测你的 robots.txt 配置是否对 AI 爬虫友好。工具会分析你的 robots.txt 并告诉你哪些 AI 爬虫被屏蔽了。
第三步:根据策略修改
根据你选择的策略,编辑网站根目录下的 robots.txt 文件。各主流 CMS 的操作方式:
- WordPress:安装 Yoast SEO 或 Rank Math 插件,在"工具 → 文件编辑器"中修改 robots.txt
- Shopify:Settings → Custom Liquid → 编辑 robots.txt.liquid 模板
- Next.js / Nuxt:在 public 目录下直接创建或修改 robots.txt 文件
- Wix:SEO 设置 → robots.txt 编辑器
第四步:验证生效
修改后,再次访问 https://你的域名/robots.txt 确认变更已生效。然后回到 RankWeave 重新运行审计,确认 AI 爬虫状态显示正常。
进阶:Cloudflare 用户的陷阱
如果你使用 Cloudflare,要特别注意以下几点:
Bot Fight Mode 可能误杀 AI 爬虫
Cloudflare 的 Bot Fight Mode 和 Super Bot Fight Mode 会主动拦截它认为是恶意的自动化流量。问题在于,某些 AI 爬虫可能被误判为恶意 Bot 而被拦截——即使你的 robots.txt 明确允许它们。
解决方案:在 Cloudflare 仪表盘的 Security → Bots 中,检查 Bot Fight Mode 的设置。如果你发现 AI 爬虫日志中出现大量 403 错误,考虑将已知的 AI 爬虫 IP 段添加到白名单。
WAF 规则冲突
Cloudflare 的 Web Application Firewall (WAF) 规则可能与 AI 爬虫的请求模式冲突,特别是当爬虫在短时间内发送大量请求时。
建议:为 GPTBot、ChatGPT-User 等已知 AI 爬虫的 User-Agent 创建 WAF 豁免规则。
AI Audit 功能
2026 年 Cloudflare 推出了 AI Audit 功能,可以在仪表盘中直接查看哪些 AI 爬虫访问了你的网站、抓取了多少页面。这比分析服务器日志方便得多,建议开启。
配置完后,下一步做什么?
robots.txt 只是 AI 可见度优化的第一步。确保 AI 爬虫能抓取你的内容后,你还需要:
-
添加结构化数据:用 Schema.org JSON-LD 帮助 AI 理解你的内容。有结构化数据的页面被 AI 引用的概率提高 2.5 倍。详见我们的 Schema.org 结构化数据入门指南。
-
建立知识图谱存在感:在 Wikidata 创建品牌条目,让 AI 系统从"知识图谱"这个权威来源认识你的品牌。详见 Wikidata 品牌条目创建指南。
-
全面 GEO 优化:从技术基础到内容策略,系统提升 AI 可见度。了解 什么是 GEO 以及 AI 搜索优化完整指南。
记住:robots.txt 决定 AI 能不能看到你,结构化数据决定 AI 能不能看懂你,知识图谱决定 AI 会不会信任你。三者缺一不可。
用 RankWeave 免费检测你的网站,看看 AI 爬虫眼中的你是什么样子。