robots.txt AI 爬虫配置指南:别让你的网站对 AI 隐身

手把手教你配置 robots.txt 管理 9 大 AI 爬虫。附 2026 最新模板,5 分钟让 ChatGPT、Claude、Perplexity 能发现你的内容。

robots.txtAI爬虫GEOAI搜索优化技术SEO

为什么 robots.txt 是 AI 可见度的第一道门槛

你花了大量时间优化内容、建设外链、提升权威性,却发现 ChatGPT 和 Perplexity 根本不推荐你的品牌。问题可能出在一个最容易被忽略的文件上——robots.txt

robots.txt 是网站根目录下的纯文本文件,它告诉搜索引擎和 AI 爬虫"哪些页面可以抓取,哪些不行"。如果你的 robots.txt 屏蔽了 AI 爬虫,你的内容就相当于对 AI 世界隐身了。

AI 爬虫和传统爬虫有什么不同?

传统搜索引擎爬虫(如 Googlebot)抓取内容用于索引和排名。AI 爬虫的目标更复杂,它们分为两类:

  • 训练爬虫:抓取网页内容用于训练大语言模型(如 GPTBot 为 OpenAI 模型训练收集数据)
  • 搜索/检索爬虫:实时抓取内容用于回答用户问题(如 ChatGPT-User 在用户提问时检索最新信息)

这种分工意味着你可以精细控制:允许 AI 在回答中引用你的内容,但不允许用你的数据训练模型。

数据揭示的残酷现实

根据 Paul Calvano 的研究,5.14% 的域名屏蔽了 GPTBot。看起来比例不高?但效果触目惊心——GPTBot 的实际页面覆盖率已经从 84% 暴跌至 12%,因为被屏蔽的往往是大型出版商和高权重网站。

更关键的是,屏蔽 GPTBot 的网站在 ChatGPT 回答中的被引用频率降低了 73%。换句话说,你关上了门,AI 就真的不再提你了。

2026 年你需要认识的 9 大 AI 爬虫

以下是目前活跃的主要 AI 爬虫及其用途:

爬虫名称所属公司用途robots.txt 标识
GPTBotOpenAI模型训练GPTBot
ChatGPT-UserOpenAI实时搜索检索ChatGPT-User
OAI-SearchBotOpenAI搜索功能OAI-SearchBot
ClaudeBotAnthropic模型训练ClaudeBot
anthropic-aiAnthropicAI 训练anthropic-ai
Google-ExtendedGoogleGemini 训练Google-Extended
PerplexityBotPerplexity搜索+训练PerplexityBot
Bytespider字节跳动训练+搜索Bytespider
cohere-aiCohere模型训练cohere-ai

注意:ClaudeBot 训练爬虫被高达 69% 的网站屏蔽。而 AI 训练流量占所有 AI 爬虫请求的 42%。大部分网站只屏蔽训练爬虫,同时保留搜索爬虫的访问权限。

三种 robots.txt 策略:选择适合你的

策略一:全部允许(推荐中小品牌)

如果你的目标是最大化 AI 可见度,让所有 AI 爬虫自由抓取:

# AI 爬虫 - 全部允许
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

适用场景:希望被 AI 推荐的品牌官网、内容型网站、SaaS 产品页。对中小品牌来说,训练数据带来的间接品牌曝光远大于"数据被用于训练"的风险。

策略二:屏蔽训练,允许搜索(推荐大型内容站)

只允许 AI 在回答问题时引用你的内容,但不允许用于模型训练:

# 屏蔽训练爬虫
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: cohere-ai
Disallow: /

# 允许搜索/检索爬虫
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

适用场景:新闻媒体、付费内容平台、大型出版商。你希望 AI 引用你但不希望数据被用于训练竞品模型。

策略三:全部屏蔽(不推荐)

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

风险警告:选择这个策略意味着你的品牌将从 AI 搜索世界中消失。考虑到被引用频率降低 73% 的数据,除非你有极强的版权保护需求,否则不建议完全屏蔽。

5 分钟实操:检查和修复你的 robots.txt

第一步:查看当前状态

在浏览器中访问 https://你的域名/robots.txt,查看是否有针对 AI 爬虫的规则。如果完全没有提到 GPTBot、ClaudeBot 等,说明你使用的是默认的 User-agent: * 规则——大多数情况下这意味着允许抓取,但最好显式声明。

第二步:使用工具检测

RankWeave 的免费 AI 可见度审计,一键检测你的 robots.txt 配置是否对 AI 爬虫友好。工具会分析你的 robots.txt 并告诉你哪些 AI 爬虫被屏蔽了。

第三步:根据策略修改

根据你选择的策略,编辑网站根目录下的 robots.txt 文件。各主流 CMS 的操作方式:

  • WordPress:安装 Yoast SEO 或 Rank Math 插件,在"工具 → 文件编辑器"中修改 robots.txt
  • Shopify:Settings → Custom Liquid → 编辑 robots.txt.liquid 模板
  • Next.js / Nuxt:在 public 目录下直接创建或修改 robots.txt 文件
  • Wix:SEO 设置 → robots.txt 编辑器

第四步:验证生效

修改后,再次访问 https://你的域名/robots.txt 确认变更已生效。然后回到 RankWeave 重新运行审计,确认 AI 爬虫状态显示正常。

进阶:Cloudflare 用户的陷阱

如果你使用 Cloudflare,要特别注意以下几点:

Bot Fight Mode 可能误杀 AI 爬虫

Cloudflare 的 Bot Fight Mode 和 Super Bot Fight Mode 会主动拦截它认为是恶意的自动化流量。问题在于,某些 AI 爬虫可能被误判为恶意 Bot 而被拦截——即使你的 robots.txt 明确允许它们。

解决方案:在 Cloudflare 仪表盘的 Security → Bots 中,检查 Bot Fight Mode 的设置。如果你发现 AI 爬虫日志中出现大量 403 错误,考虑将已知的 AI 爬虫 IP 段添加到白名单。

WAF 规则冲突

Cloudflare 的 Web Application Firewall (WAF) 规则可能与 AI 爬虫的请求模式冲突,特别是当爬虫在短时间内发送大量请求时。

建议:为 GPTBot、ChatGPT-User 等已知 AI 爬虫的 User-Agent 创建 WAF 豁免规则。

AI Audit 功能

2026 年 Cloudflare 推出了 AI Audit 功能,可以在仪表盘中直接查看哪些 AI 爬虫访问了你的网站、抓取了多少页面。这比分析服务器日志方便得多,建议开启。

配置完后,下一步做什么?

robots.txt 只是 AI 可见度优化的第一步。确保 AI 爬虫能抓取你的内容后,你还需要:

  1. 添加结构化数据:用 Schema.org JSON-LD 帮助 AI 理解你的内容。有结构化数据的页面被 AI 引用的概率提高 2.5 倍。详见我们的 Schema.org 结构化数据入门指南

  2. 建立知识图谱存在感:在 Wikidata 创建品牌条目,让 AI 系统从"知识图谱"这个权威来源认识你的品牌。详见 Wikidata 品牌条目创建指南

  3. 全面 GEO 优化:从技术基础到内容策略,系统提升 AI 可见度。了解 什么是 GEO 以及 AI 搜索优化完整指南

记住:robots.txt 决定 AI 能不能看到你,结构化数据决定 AI 能不能看懂你,知识图谱决定 AI 会不会信任你。三者缺一不可。

RankWeave 免费检测你的网站,看看 AI 爬虫眼中的你是什么样子。