47项AI就绪度审计清单:我们为每个客户网站使用的技术检查表

我们用RankWeave的47项审计清单测试了200多个网站。这是分4大类的完整检查表——技术基础、内容结构、权威信号、实体信号——附带哪些项目影响最大的实测数据。

AI就绪度审计网站AI就绪度检查AI就绪度审计清单SEO审计清单网站技术检查表

我们最初构建 RankWeave 站点审计引擎时,只有 12 项检查。三个月后,这个数字增长到了 47——因为"Google 能看到你"和"AI 能理解你"之间的差距,远比任何人预想的都大。

我们已经在 200 多个网站上跑过这套 47 项 AI 就绪度审计,涵盖 SaaS、电商、医疗、法律和本地服务行业。结论非常一致:平均每个网站只通过 47 项中的 19 项,而最常失败的 3 项修复时间都不超过一小时。

这篇文章是完整的 AI 就绪度审计清单。我们在每个客户项目中都使用它,现在分享出来,你也可以自己对照检查。

为什么需要专门的 AI 就绪度审计

传统 SEO 审计检查的是 Google 能否抓取和索引你的页面。这很必要,但已经不够。ChatGPT、Gemini、Claude 等 AI 引擎不做页面排名——它们从多个来源综合生成答案。它们选择来源的标准与 Google 算法有三个根本性差异:

  1. 结构化数据权重更高。 根据 Data World 研究,当内容包含 JSON-LD 标记时,GPT-4 的准确率从 16% 跃升至 54%。Google 主要用结构化数据生成富摘要,AI 引擎用它理解实体和关系。

  2. 知识图谱收录很关键。 Google 检查你是否有知识面板。AI 引擎直接查 Wikidata、Wikipedia 和百度百科,作为事实性声明的真相来源。

  3. 爬虫访问是碎片化的。 Google 只有一个 bot(Googlebot)。AI 引擎至少有 9 个独立爬虫,每个都有自己的 User-Agent。屏蔽一个不等于屏蔽全部,默认行为因 CDN 和 CMS 而异。

一个传统 SEO 审计得 95 分的网站,网站AI就绪度检查 可能只得 35 分。我们亲眼见过这种情况反复发生。

4 大类别及其权重

RankWeave 审计引擎从 4 个加权类别对每个网站打分(满分 100):

类别权重覆盖范围
技术基础30%AI 爬虫访问、robots.txt 配置、服务端渲染
内容结构25%元数据、标题层级、内容深度、OG 标签
权威信号20%知识图谱条目、Wikidata 属性、Wikipedia 收录
实体信号25%JSON-LD Schema 类型、实体关系、FAQ 和文章标记

权重基于我们审计数据的相关性分析:技术基础权重最高,因为爬虫被屏蔽的话,其他所有优化都没有意义。

下面逐一拆解每个类别的关键检查项。

类别一:技术基础(30%)

该类别包含 14 项检查。以下是失败率最高的三项。

检查项 #1:GPTBot 访问权限(失败率:38%)

在我们审计的 200 多个网站中,38% 在 robots.txt 中明确屏蔽了 GPTBot,或通过 Cloudflare 的 Bot Fight Mode 隐式屏蔽。屏蔽 GPTBot 的网站在 ChatGPT 回答中被引用的频率降低 73%

怎么查: 访问 你的域名/robots.txt,搜索"GPTBot"。如果看到 Disallow: /,你的内容对 ChatGPT 不可见。同时检查 Cloudflare 的 Security > Bots 设置——Bot Fight Mode 可能在 robots.txt 允许的情况下静默屏蔽 AI 爬虫。

所有 9 个 AI 爬虫的详细配置方案,请参考我们的 robots.txt AI 爬虫配置指南

检查项 #2:服务端渲染的 JSON-LD(失败率:52%)

超过一半的受测网站通过客户端 JavaScript 注入 JSON-LD——通过 Google Tag Manager、React 水合或动态脚本注入。问题在于:GPTBot 和 ClaudeBot 无法执行 JavaScript。如果你的结构化数据只在 JS 执行后才出现,AI 爬虫永远看不到。

怎么查: 查看页面源代码(不是"检查元素"),搜索 application/ld+json。如果原始 HTML 中没有 JSON-LD 代码块,AI 爬虫就看不到它。

检查项 #3:全站 HTTPS(失败率:8%)

数量上不算大问题,但一旦出问题影响就很严重。有些网站的 HTTP 版本会重定向到 HTTPS,但重定向链条会让部分 AI 爬虫困惑。还有些网站存在混合内容警告,导致爬虫中断抓取。

怎么查: 确保你的网站在 HTTPS 上直接返回 200 状态码,重定向链不超过一跳。

其他技术基础检查项

完整列表包括:ChatGPT-User 访问、OAI-SearchBot 访问、ClaudeBot 访问、Google-Extended 访问、PerplexityBot 访问、Bytespider 访问、CCBot 访问、anthropic-ai 访问、响应时间低于 3 秒、无爬虫特定的 403/429 错误。

类别二:内容结构(25%)

该类别包含 11 项检查。失败率最高的三项:

检查项 #4:Meta Description 存在且经过优化(失败率:29%)

近三分之一的受审网站要么没有 meta description,要么用了自动生成的重复标题内容。AI 引擎把 meta description 作为页面摘要信号——一段写得好的描述能提高你的页面被选为引用来源的概率。

怎么查: 每个重要页面应该有一段 120-160 字符的唯一 meta description,概括该页面的核心价值。

检查项 #5:内容深度超过 1500 字(失败率:61%)

这是内容类检查中失败率最高的一项。字数不足 1500 的页面被 AI 引擎引用的概率显著降低。BrightEdge 的分析显示,AI 回答中 86% 的引用来自内容充实的深度页面。

AI 引擎更倾向于选择能提供全面回答的来源。内容单薄的页面——即使传统 SEO 优化得很好——给 AI 的可引用素材也很有限。

怎么查: 你的核心着陆页、产品页和博客文章应超过 1500 字。这不是灌水,而是足够深入地覆盖话题,让 AI 引擎选择你的页面而非竞品。

检查项 #6:Open Graph 标签完整(失败率:34%)

OG 标签(og:title、og:description、og:image)不仅用于社交分享。浏览网页的 AI 引擎——包括 Perplexity 的检索系统——把 OG 元数据作为内容质量和相关性的信号。

怎么查: 每个页面应有完整的三个核心 OG 标签。og:image 应该是真实图片,不是占位符或失效链接。

其他内容结构检查项

Title 标签存在、H1 存在且匹配意图、标题层级合理(H2/H3 逻辑清晰)、正文内容超过 500 字符、有博客/文章板块、有 FAQ/帮助板块、canonical URL 正确设置、多语言站点的 hreflang 标签。

类别三:权威信号(20%)

该类别包含 9 项检查。失败率最高的三项:

检查项 #7:Wikidata 条目存在(失败率:78%)

这是整个审计中失败率最高的检查项。近 80% 的品牌没有任何 Wikidata 条目。然而 Yext 的 2026 年研究证实,从 ChatGPT 到 Apple Intelligence,每个主流 AI 系统都使用 Wikidata 作为事实验证来源。

没有 Wikidata 条目,AI 引擎没有权威来源可以验证你品牌的基本信息。结果要么是编造(幻觉),要么是完全忽略。

怎么查:wikidata.org 搜索你的品牌。如果没有条目,至少创建一个包含以下属性的条目:官方名称、instance of(公司/组织)、官方网站、成立日期和所属行业。详细操作指南见我们的 Wikidata 品牌条目创建指南

检查项 #8:Wikipedia 收录(失败率:89%)

比 Wikidata 更难达成,因为 Wikipedia 有严格的关注度要求。但拥有 Wikipedia 词条的品牌在 AI 回答中被引用的频率是没有的 3-4 倍。

怎么查: 如果你的品牌目前还不符合 Wikipedia 收录条件,先专注 Wikidata,同时积累第三方报道(媒体、评测、行业报告),为未来创建 Wikipedia 词条做准备。

检查项 #9:知识源 NAP 一致性(失败率:44%)

名称(Name)、地址(Address)、电话(Phone)在 Wikidata、Google 商家资料和官网之间的一致性很重要,因为 AI 引擎会交叉验证这些来源。不一致会降低信任分数。

怎么查: 确保品牌名称、总部地址和联系方式在所有知识来源中完全一致。

其他权威信号检查项

百度百科条目(中国市场可见度)、Google 知识面板存在、品牌在权威第三方来源中被提及、行业目录收录、社交媒体资料一致性。

类别四:实体信号(25%)

该类别包含 13 项检查。失败率最高的三项:

检查项 #10:Organization Schema 存在(失败率:41%)

最基础的 JSON-LD

类型,41% 的受审网站仍然缺失。Organization Schema 以机器可读格式告诉 AI 引擎你品牌的官方名称、Logo、社交账号和联系信息。

怎么查: 首页应包含一个 @type: "Organization" 的 JSON-LD 代码块,至少包含:name、url、logo 和 sameAs(链接到社交账号)。模板和详细说明见我们的 Schema.org 结构化数据指南

检查项 #11:相关页面有 FAQ Schema(失败率:73%)

FAQ 内容是 AI 回答中引用率最高的内容类型之一,因为它直接匹配 AI 引擎的问答格式。但大多数网站要么没有 FAQ 页面,要么有 FAQ 内容却缺少对应的 FAQPage Schema 标记。

怎么查: 如果你有 FAQ 内容,用 FAQPage JSON-LD 包裹它。如果没有 FAQ 内容,考虑在核心产品和服务页面添加。

检查项 #12:博客文章有 Article Schema(失败率:56%)

没有 Article Schema 的博客文章更难被 AI 引擎解析。Schema 告诉 AI 作者、发布日期、修改日期和主题——这些都是影响内容是否被选为引用来源的信号。

怎么查: 每篇博客文章应有 Article 或 BlogPosting JSON-LD,包含 author、datePublished、dateModified 和 headline 属性。

其他实体信号检查项

带 SearchAction 的 WebSite Schema、产品页的 Product Schema、BreadcrumbList Schema、本地商户的 LocalBusiness Schema、Review/AggregateRating Schema、教程内容的 HowTo Schema、活动页的 Event Schema、链接到权威资料的 sameAs 属性。

得分现实:大多数网站处于什么水平

基于我们 200 多次审计的数据集:

分数区间网站占比典型画像
80-1004%有专属 SEO 团队的大型企业站
60-7918%有一定 GEO 意识的中型公司
40-5943%平均水平——SEO 不错,AI 就绪度差
20-3928%屏蔽 AI 爬虫或缺少结构化数据的网站
0-197%新建或疏于维护的网站

中位数得分是 44。最常见的模式是:一个在 Google 上排名不错的网站,从未做过 AI 就绪度审计——而这两个现实之间的差距,就是机会所在。

自己跑一次审计

两个选择:

选项一:免费在线审计。 访问 RankWeave 免费健康检查——输入域名,60 秒内获得 4 个类别的评分。无需注册。

选项二:开源命令行工具。 我们把审计引擎提取成了开源 npm 包:

npm install rankweave-geo-audit
import { audit } from 'rankweave-geo-audit';

const result = await audit({
  domain: 'example.com',
  companyName: 'Example Inc',
});

console.log(result.overallScore);       // 0-100
console.log(result.dimensions);         // 4 个类别评分
console.log(result.recommendations);    // 可执行建议(中英双语)

评分算法、权重和全部 47 项检查都在 GitHub 上公开透明,供审查和改进。

修复优先级:先改什么

如果你的分数低于 60,我们推荐以下顺序:

  1. 解除 AI 爬虫屏蔽(5 分钟)——影响最大的单一改动。爬虫进不来,其他一切都无从谈起。
  2. 添加 Organization + WebSite JSON-LD(1 小时)——给 AI 引擎一个机器可读的品牌身份。
  3. 修复 meta description 和 OG 标签(2-3 小时)——提高被选为引用来源的概率。
  4. 创建 Wikidata 条目(半天)——在 AI 引擎信任的知识图谱中建立品牌存在。
  5. 充实薄弱内容(持续)——把核心页面扩展到 1500 字以上。

这个清单上的每一项都是今天就能动手的。与 AI 可见度诊断(衡量 AI 引擎当前怎么谈论你的品牌)不同,站点审计衡量的是你直接可控的部分。


延伸阅读:AI 爬虫 robots.txt 完全指南 2026 | 如何让 ChatGPT 推荐你的品牌 | GEO 与 SEO 的区别 | AI 搜索优化完整指南

免费检测你的品牌 AI 可见度

看看 ChatGPT、DeepSeek 是否推荐你的品牌

立即免费检测 →

30秒出结果,无需注册