47项AI就绪度审计清单：我们为每个客户网站使用的技术检查表

我们最初构建 RankWeave 站点审计引擎时，只有 12 项检查。三个月后，这个数字增长到了 47——因为"Google 能看到你"和"AI 能理解你"之间的差距，远比任何人预想的都大。

我们已经在 200 多个网站上跑过这套 47 项 AI 就绪度审计，涵盖 SaaS、电商、医疗、法律和本地服务行业。结论非常一致：平均每个网站只通过 47 项中的 19 项，而最常失败的 3 项修复时间都不超过一小时。

这篇文章是完整的 AI 就绪度审计清单。我们在每个客户项目中都使用它，现在分享出来，你也可以自己对照检查。

为什么需要专门的 AI 就绪度审计

传统 SEO 审计检查的是 Google 能否抓取和索引你的页面。这很必要，但已经不够。ChatGPT、Gemini、Claude 等 AI 引擎不做页面排名——它们从多个来源综合生成答案。它们选择来源的标准与 Google 算法有三个根本性差异：

结构化数据权重更高。 根据 Data World 研究，当内容包含 JSON-LD 标记时，GPT-4 的准确率从 16% 跃升至 54%。Google 主要用结构化数据生成富摘要，AI 引擎用它理解实体和关系。
知识图谱收录很关键。 Google 检查你是否有知识面板。AI 引擎直接查 Wikidata、Wikipedia 和百度百科，作为事实性声明的真相来源。
爬虫访问是碎片化的。 Google 只有一个 bot（Googlebot）。AI 引擎至少有 9 个独立爬虫，每个都有自己的 User-Agent。屏蔽一个不等于屏蔽全部，默认行为因 CDN 和 CMS 而异。

一个传统 SEO 审计得 95 分的网站，网站AI就绪度检查 可能只得 35 分。我们亲眼见过这种情况反复发生。

4 大类别及其权重

RankWeave 审计引擎从 4 个加权类别对每个网站打分（满分 100）：

类别	权重	覆盖范围
技术基础	30%	AI 爬虫访问、robots.txt 配置、服务端渲染
内容结构	25%	元数据、标题层级、内容深度、OG 标签
权威信号	20%	知识图谱条目、Wikidata 属性、Wikipedia 收录
实体信号	25%	JSON-LD Schema 类型、实体关系、FAQ 和文章标记

权重基于我们审计数据的相关性分析：技术基础权重最高，因为爬虫被屏蔽的话，其他所有优化都没有意义。

下面逐一拆解每个类别的关键检查项。

类别一：技术基础（30%）

该类别包含 14 项检查。以下是失败率最高的三项。

检查项 #1：GPTBot 访问权限（失败率：38%）

在我们审计的 200 多个网站中，38% 在 robots.txt 中明确屏蔽了 GPTBot，或通过 Cloudflare 的 Bot Fight Mode 隐式屏蔽。屏蔽 GPTBot 的网站在 ChatGPT 回答中被引用的频率降低 73%。

怎么查： 访问 你的域名/robots.txt，搜索"GPTBot"。如果看到 Disallow: /，你的内容对 ChatGPT 不可见。同时检查 Cloudflare 的 Security > Bots 设置——Bot Fight Mode 可能在 robots.txt 允许的情况下静默屏蔽 AI 爬虫。

所有 9 个 AI 爬虫的详细配置方案，请参考我们的 robots.txt AI 爬虫配置指南。

检查项 #2：服务端渲染的 JSON-LD（失败率：52%）

超过一半的受测网站通过客户端 JavaScript 注入 JSON-LD——通过 Google Tag Manager、React 水合或动态脚本注入。问题在于：GPTBot 和 ClaudeBot 无法执行 JavaScript。如果你的结构化数据只在 JS 执行后才出现，AI 爬虫永远看不到。

怎么查： 查看页面源代码（不是"检查元素"），搜索 application/ld+json。如果原始 HTML 中没有 JSON-LD 代码块，AI 爬虫就看不到它。

检查项 #3：全站 HTTPS（失败率：8%）

数量上不算大问题，但一旦出问题影响就很严重。有些网站的 HTTP 版本会重定向到 HTTPS，但重定向链条会让部分 AI 爬虫困惑。还有些网站存在混合内容警告，导致爬虫中断抓取。

怎么查： 确保你的网站在 HTTPS 上直接返回 200 状态码，重定向链不超过一跳。

其他技术基础检查项

完整列表包括：ChatGPT-User 访问、OAI-SearchBot 访问、ClaudeBot 访问、Google-Extended 访问、PerplexityBot 访问、Bytespider 访问、CCBot 访问、anthropic-ai 访问、响应时间低于 3 秒、无爬虫特定的 403/429 错误。

类别二：内容结构（25%）

该类别包含 11 项检查。失败率最高的三项：

检查项 #4：Meta Description 存在且经过优化（失败率：29%）

近三分之一的受审网站要么没有 meta description，要么用了自动生成的重复标题内容。AI 引擎把 meta description 作为页面摘要信号——一段写得好的描述能提高你的页面被选为引用来源的概率。

怎么查： 每个重要页面应该有一段 120-160 字符的唯一 meta description，概括该页面的核心价值。

检查项 #5：内容深度超过 1500 字（失败率：61%）

这是内容类检查中失败率最高的一项。字数不足 1500 的页面被 AI 引擎引用的概率显著降低。BrightEdge 的分析显示，AI 回答中 86% 的引用来自内容充实的深度页面。

AI 引擎更倾向于选择能提供全面回答的来源。内容单薄的页面——即使传统 SEO 优化得很好——给 AI 的可引用素材也很有限。

怎么查： 你的核心着陆页、产品页和博客文章应超过 1500 字。这不是灌水，而是足够深入地覆盖话题，让 AI 引擎选择你的页面而非竞品。

检查项 #6：Open Graph 标签完整（失败率：34%）

OG 标签（og:title、og:description、og:image）不仅用于社交分享。浏览网页的 AI 引擎——包括 Perplexity 的检索系统——把 OG 元数据作为内容质量和相关性的信号。

怎么查： 每个页面应有完整的三个核心 OG 标签。og:image 应该是真实图片，不是占位符或失效链接。

其他内容结构检查项

Title 标签存在、H1 存在且匹配意图、标题层级合理（H2/H3 逻辑清晰）、正文内容超过 500 字符、有博客/文章板块、有 FAQ/帮助板块、canonical URL 正确设置、多语言站点的 hreflang 标签。

类别三：权威信号（20%）

该类别包含 9 项检查。失败率最高的三项：

检查项 #7：Wikidata 条目存在（失败率：78%）

这是整个审计中失败率最高的检查项。近 80% 的品牌没有任何 Wikidata 条目。然而 Yext 的 2026 年研究证实，从 ChatGPT 到 Apple Intelligence，每个主流 AI 系统都使用 Wikidata 作为事实验证来源。

没有 Wikidata 条目，AI 引擎没有权威来源可以验证你品牌的基本信息。结果要么是编造（幻觉），要么是完全忽略。

怎么查： 在 wikidata.org 搜索你的品牌。如果没有条目，至少创建一个包含以下属性的条目：官方名称、instance of（公司/组织）、官方网站、成立日期和所属行业。详细操作指南见我们的 Wikidata 品牌条目创建指南。

检查项 #8：Wikipedia 收录（失败率：89%）

比 Wikidata 更难达成，因为 Wikipedia 有严格的关注度要求。但拥有 Wikipedia 词条的品牌在 AI 回答中被引用的频率是没有的 3-4 倍。

怎么查： 如果你的品牌目前还不符合 Wikipedia 收录条件，先专注 Wikidata，同时积累第三方报道（媒体、评测、行业报告），为未来创建 Wikipedia 词条做准备。

检查项 #9：知识源 NAP 一致性（失败率：44%）

名称（Name）、地址（Address）、电话（Phone）在 Wikidata、Google 商家资料和官网之间的一致性很重要，因为 AI 引擎会交叉验证这些来源。不一致会降低信任分数。

怎么查： 确保品牌名称、总部地址和联系方式在所有知识来源中完全一致。

其他权威信号检查项

百度百科条目（中国市场可见度）、Google 知识面板存在、品牌在权威第三方来源中被提及、行业目录收录、社交媒体资料一致性。

类别四：实体信号（25%）

该类别包含 13 项检查。失败率最高的三项：

检查项 #10：Organization Schema 存在（失败率：41%）

最基础的 JSON-LD

类型，41% 的受审网站仍然缺失。Organization Schema 以机器可读格式告诉 AI 引擎你品牌的官方名称、Logo、社交账号和联系信息。

怎么查： 首页应包含一个 @type: "Organization" 的 JSON-LD 代码块，至少包含：name、url、logo 和 sameAs（链接到社交账号）。模板和详细说明见我们的 Schema.org 结构化数据指南。

检查项 #11：相关页面有 FAQ Schema（失败率：73%）

FAQ 内容是 AI 回答中引用率最高的内容类型之一，因为它直接匹配 AI 引擎的问答格式。但大多数网站要么没有 FAQ 页面，要么有 FAQ 内容却缺少对应的 FAQPage Schema 标记。

怎么查： 如果你有 FAQ 内容，用 FAQPage JSON-LD 包裹它。如果没有 FAQ 内容，考虑在核心产品和服务页面添加。

检查项 #12：博客文章有 Article Schema（失败率：56%）

没有 Article Schema 的博客文章更难被 AI 引擎解析。Schema 告诉 AI 作者、发布日期、修改日期和主题——这些都是影响内容是否被选为引用来源的信号。

怎么查： 每篇博客文章应有 Article 或 BlogPosting JSON-LD，包含 author、datePublished、dateModified 和 headline 属性。

其他实体信号检查项

带 SearchAction 的 WebSite Schema、产品页的 Product Schema、BreadcrumbList Schema、本地商户的 LocalBusiness Schema、Review/AggregateRating Schema、教程内容的 HowTo Schema、活动页的 Event Schema、链接到权威资料的 sameAs 属性。

得分现实：大多数网站处于什么水平

基于我们 200 多次审计的数据集：

分数区间	网站占比	典型画像
80-100	4%	有专属 SEO 团队的大型企业站
60-79	18%	有一定 GEO 意识的中型公司
40-59	43%	平均水平——SEO 不错，AI 就绪度差
20-39	28%	屏蔽 AI 爬虫或缺少结构化数据的网站
0-19	7%	新建或疏于维护的网站

中位数得分是 44。最常见的模式是：一个在 Google 上排名不错的网站，从未做过 AI 就绪度审计——而这两个现实之间的差距，就是机会所在。

自己跑一次审计

两个选择：

选项一：免费在线审计。 访问 RankWeave 免费健康检查——输入域名，60 秒内获得 4 个类别的评分。无需注册。

选项二：开源命令行工具。 我们把审计引擎提取成了开源 npm 包：

npm install rankweave-geo-audit

import { audit } from 'rankweave-geo-audit';

const result = await audit({
  domain: 'example.com',
  companyName: 'Example Inc',
});

console.log(result.overallScore);       // 0-100
console.log(result.dimensions);         // 4 个类别评分
console.log(result.recommendations);    // 可执行建议（中英双语）

评分算法、权重和全部 47 项检查都在 GitHub 上公开透明，供审查和改进。

修复优先级：先改什么

如果你的分数低于 60，我们推荐以下顺序：

解除 AI 爬虫屏蔽（5 分钟）——影响最大的单一改动。爬虫进不来，其他一切都无从谈起。
添加 Organization + WebSite JSON-LD（1 小时）——给 AI 引擎一个机器可读的品牌身份。
修复 meta description 和 OG 标签（2-3 小时）——提高被选为引用来源的概率。
创建 Wikidata 条目（半天）——在 AI 引擎信任的知识图谱中建立品牌存在。
充实薄弱内容（持续）——把核心页面扩展到 1500 字以上。

这个清单上的每一项都是今天就能动手的。与 AI 可见度诊断（衡量 AI 引擎当前怎么谈论你的品牌）不同，站点审计衡量的是你直接可控的部分。

延伸阅读：AI 爬虫 robots.txt 完全指南 2026 | 如何让 ChatGPT 推荐你的品牌 | GEO 与 SEO 的区别 | AI 搜索优化完整指南