robots.txt AI 爬虫配置指南:别让你的网站对 AI 隐身

手把手教你配置 robots.txt 管理 9 大 AI 爬虫。附 2026 最新模板,5 分钟让 ChatGPT、Claude、Perplexity 能发现你的内容。

robots.txt AI 爬虫AI 爬虫配置robots.txt 配置指南AI 可见度屏蔽 AI 爬虫

为什么 robots.txt 是 AI 可见度的第一道门槛

你花了大量时间优化内容、建设外链、提升权威性,却发现 ChatGPT 和 Perplexity 根本不推荐你的品牌。问题可能出在一个最容易被忽略的文件上——robots.txt

robots.txt 是网站根目录下的纯文本文件,它告诉搜索引擎和 AI 爬虫"哪些页面可以抓取,哪些不行"。如果你的 robots.txt 屏蔽了 AI 爬虫,你的内容就相当于对 AI 世界隐身了。 一份正确的 robots.txt ai 爬虫 配置是确保内容可见的基础。

AI 爬虫和传统爬虫有什么不同?

传统搜索引擎爬虫(如 Googlebot)抓取内容用于索引和排名。AI 爬虫的目标更复杂,它们分为两类:

  • 训练爬虫:抓取网页内容用于训练大语言模型(如 GPTBot 为 OpenAI 模型训练收集数据)
  • 搜索/检索爬虫:实时抓取内容用于回答用户问题(如 ChatGPT-User 在用户提问时检索最新信息)

这种分工意味着你可以通过 ai 爬虫配置 进行精细控制:允许 AI 在回答中引用你的内容,但不允许用你的数据训练模型。

数据揭示的残酷现实

根据 Paul Calvano 的研究,5.14% 的域名屏蔽了 GPTBot。看起来比例不高?但效果触目惊心——GPTBot 的实际页面覆盖率已经从 84% 暴跌至 12%,因为被屏蔽的往往是大型出版商和高权重网站。

更关键的是,屏蔽 GPTBot 的网站在 ChatGPT 回答中的被引用频率降低了 73%。换句话说,你关上了门,AI 就真的不再提你了。

2026 年你需要认识的 9 大 AI 爬虫

以下是目前活跃的主要 AI 爬虫及其用途:

爬虫名称所属公司用途robots.txt 标识
GPTBotOpenAI模型训练GPTBot
ChatGPT-UserOpenAI实时搜索检索ChatGPT-User
OAI-SearchBotOpenAI搜索功能OAI-SearchBot
ClaudeBotAnthropic模型训练ClaudeBot
anthropic-aiAnthropicAI 训练anthropic-ai
Google-ExtendedGoogleGemini 训练Google-Extended
PerplexityBotPerplexity搜索+训练PerplexityBot
Bytespider字节跳动训练+搜索Bytespider
cohere-aiCohere模型训练cohere-ai

注意:ClaudeBot 训练爬虫被高达 69% 的网站屏蔽。而 AI 训练流量占所有 AI 爬虫请求的 42%。大部分网站只屏蔽训练爬虫,同时保留搜索爬虫的访问权限。这体现了 robots.txt 配置指南 中关于平衡控制与可见度的核心思想。

三种 robots.txt 策略:选择适合你的

策略一:全部允许(推荐中小品牌)

如果你的目标是最大化 AI 可见度,让所有 AI 爬虫自由抓取:

# AI 爬虫 - 全部允许
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: PerplexityBot
Allow: /

适用场景:希望被 AI 推荐的品牌官网、内容型网站、SaaS 产品页。对中小品牌来说,训练数据带来的间接品牌曝光远大于"数据被用于训练"的风险。

策略二:屏蔽训练,允许搜索(推荐大型内容站)

只允许 AI 在回答问题时引用你的内容,但不允许用于模型训练:

# 屏蔽训练爬虫
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: cohere-ai
Disallow: /

# 允许搜索/检索爬虫
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

适用场景:新闻媒体、付费内容平台、大型出版商。你希望 AI 引用你但不希望数据被用于训练竞品模型。

策略三:全部屏蔽(不推荐)

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

风险警告:选择这个策略意味着你的品牌将从 AI 搜索世界中消失。考虑到被引用频率降低 73% 的数据,除非你有极强的版权保护需求,否则不建议完全屏蔽。

5 分钟实操:检查和修复你的 robots.txt

第一步:查看当前状态

在浏览器中访问 https://你的域名/robots.txt,查看是否有针对 AI 爬虫的规则。如果完全没有提到 GPTBot、ClaudeBot 等,说明你使用的是默认的 User-agent: * 规则——大多数情况下这意味着允许抓取,但最好显式声明。

第二步:使用工具检测

RankWeave 的免费 AI 可见度审计,一键检测你的 robots.txt ai 爬虫 配置是否友好。工具会分析你的 robots.txt 并告诉你哪些 AI 爬虫被屏蔽了。

第三步:根据策略修改

根据你选择的策略,编辑网站根目录下的 robots.txt 文件。各主流 CMS 的操作方式:

  • WordPress:安装 Yoast SEO 或 Rank Math 插件,在"工具 → 文件编辑器"中修改 robots.txt
  • Shopify:Settings → Custom Liquid → 编辑 robots.txt.liquid 模板
  • Next.js / Nuxt:在 public 目录下直接创建或修改 robots.txt 文件
  • Wix:SEO 设置 → robots.txt 编辑器

第四步:验证生效

修改后,再次访问 https://你的域名/robots.txt 确认变更已生效。然后回到 RankWeave 重新运行审计,确认 AI 爬虫状态显示正常。遵循这份 robots.txt 配置指南 能确保你的设置正确无误。

进阶:Cloudflare 用户的陷阱

如果你使用 Cloudflare,要特别注意以下几点:

Bot Fight Mode 可能误杀 AI 爬虫

Cloudflare 的 Bot Fight Mode 和 Super Bot Fight Mode 会主动拦截它认为是恶意的自动化流量。问题在于,某些 AI 爬虫可能被误判为恶意 Bot 而被拦截——即使你的 robots.txt 明确允许它们。

解决方案:在 Cloudflare 仪表盘的 Security → Bots 中,检查 Bot Fight Mode 的设置。如果你发现 AI 爬虫日志中出现大量 403 错误,考虑将已知的 AI 爬虫 IP 段添加到白名单。

WAF 规则冲突

Cloudflare 的 Web Application Firewall (WAF) 规则可能与 AI 爬虫的请求模式冲突,特别是当爬虫在短时间内发送大量请求时。

建议:为 GPTBot、ChatGPT-User 等已知 AI 爬虫的 User-Agent 创建 WAF 豁免规则。

AI Audit 功能

2026 年 Cloudflare 推出了 AI Audit 功能,可以在仪表盘中直接查看哪些 AI 爬虫访问了你的网站、抓取了多少页面。这比分析服务器日志方便得多,建议开启。

配置完后,下一步做什么?

robots.txt 只是 AI 可见度优化的第一步。确保 AI 爬虫能抓取你的内容后,你还需要:

  1. 添加结构化数据:用 Schema.org JSON-LD 帮助 AI 理解你的内容。有结构化数据的页面被 AI 引用的概率提高 2.5 倍。详见我们的 Schema.org 结构化数据入门指南

  2. 建立知识图谱存在感:在 Wikidata 创建品牌条目,让 AI 系统从"知识图谱"这个权威来源认识你的品牌。详见 Wikidata 品牌条目创建指南

  3. 全面 GEO 优化:从技术基础到内容策略,系统提升 AI 可见度。了解 什么是 GEO 以及 AI 搜索优化完整指南

记住:robots.txt 决定 AI 能不能看到你,结构化数据决定 AI 能不能看懂你,知识图谱决定 AI 会不会信任你。三者缺一不可。

服务器日志:怎么验证 AI 爬虫真的在抓你的站

光改 robots.txt 不够,必须看日志确认爬虫真的来了。下面是几个常见 Web 服务器的日志查询方法:

Nginx 日志

# 过去 7 天 AI 爬虫访问统计
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended|ChatGPT-User|Bytespider" \
  /var/log/nginx/access.log | \
  awk '{print $NF}' | sort | uniq -c | sort -rn | head -20

# 看 GPTBot 抓了哪些 URL
grep "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -30

Cloudflare 用户

开启 AI Audit(Security → Bots → AI Audit),仪表盘直接看:每个 AI 爬虫的请求数、抓取的 URL、响应状态码。看到 403 / 429 集中爆发就是 WAF 误杀,看到 200 才是真的抓到。

健康指标

  • GPTBot 一周抓不到 5 个独立 URL → 你的内链结构或 sitemap 有问题
  • ChatGPT-User 一周 0 次访问 → 没人通过 ChatGPT 联网搜索查到你的品牌
  • ClaudeBot 持续 200 但 ChatGPT 联网搜索仍不引用 → 检查 Schema 和内容结构

常见问题

robots.txt 改完后多久生效?

对 Googlebot 和大多数 AI 爬虫来说,下次抓取你的 robots.txt 时(通常 24-72 小时)就生效。但对已经被训练进模型的数据没有追溯效力——即使你今天屏蔽了 GPTBot,OpenAI 已经训练的版本里你的旧内容还会被引用,要等下次模型更新(通常 6-12 个月)才会消失。

我屏蔽了所有 AI 爬虫但 ChatGPT 还能引用我,为什么?

两个可能:(1) ChatGPT 在你屏蔽前已经把内容训练进模型了,旧数据仍然有效;(2) 用户在 ChatGPT 联网搜索模式下让 ChatGPT-User 实时抓取——这是用户主动行为,部分 AI 爬虫会忽略 robots.txt(虽然不合规但确实发生)。要彻底拒绝,得在服务器层面(Cloudflare/Nginx)按 User-Agent 直接 403。

AI 爬虫不遵守 robots.txt 怎么办?

合规的爬虫(GPTBot、ClaudeBot、Google-Extended、PerplexityBot)都遵守 robots.txt。不合规的灰色爬虫(很多打着 AI 训练名义的小爬虫)确实会无视 robots.txt——这时只能在 Web 服务器层做 User-Agent 过滤,或用 Cloudflare 的 Bot Management 拦截。robots.txt 是君子协定,不是技术屏障。

屏蔽训练爬虫真的能减少品牌信息被滥用吗?

能,但有限。屏蔽 GPTBot 会阻止 OpenAI 在新一轮训练里使用你的内容,但你的内容早期版本(如果之前被抓过)仍在已发布模型里。第三方训练(如有人爬下你的内容再去训练自己的模型)你管不了。核心策略应该是:法律声明 + robots.txt 双重保护,不要把版权保护完全压在 robots.txt 上

sitemap.xml 要不要给 AI 爬虫专门优化?

建议提供。AI 爬虫和搜索引擎共用同一个 sitemap,所以保持 sitemap 健康(lastmod 准确、URL 全覆盖、不超过 50000 条)就够了。额外可以做的:在 robots.txt 末尾加一行 Sitemap: https://你的域名/sitemap.xml,这样 AI 爬虫不需要自己猜路径。

我用 Cloudflare 的 "Block AI Bots" 一键屏蔽了,要恢复吗?

强烈建议恢复。Cloudflare 在 2025 年推出的"一键屏蔽 AI"功能默认开启会拦截 18 个主流 AI 爬虫,包括 ChatGPT-User 这类用户主动检索的爬虫。这意味着用户问 ChatGPT 关于你的品牌时,AI 根本无法实时获取你的信息——影响远比你想象的大。建议在 Cloudflare 仪表盘 Security → Bots 里关闭这个总开关,改用本指南的策略二(屏蔽训练,允许搜索)做精细控制。

Next.js / Nuxt 项目的 robots.txt 怎么写?

Next.js App Router 推荐用 app/robots.ts

export default function robots() {
  return {
    rules: [
      { userAgent: 'GPTBot', allow: '/' },
      { userAgent: 'ChatGPT-User', allow: '/' },
      { userAgent: 'PerplexityBot', allow: '/' },
      { userAgent: 'Google-Extended', allow: '/' },
      { userAgent: 'ClaudeBot', allow: '/' },
    ],
    sitemap: 'https://example.com/sitemap.xml',
  };
}

Pages Router 在 public/robots.txt 直接写文本即可。Nuxt 用 @nuxtjs/robots 模块的配置数组。

想全面了解你的网站 SEO 状况?试试 RankWeave SEO 审计工具,一键检测 ai 爬虫配置 和 AI 爬虫可访问性。

免费检测你的品牌 AI 可见度

看看 ChatGPT、DeepSeek 是否推荐你的品牌

立即免费检测 →

30秒出结果,无需注册