什么是结构化数据?为什么 AI 需要它?
当你在网页上写"苹果",人能根据上下文判断你说的是水果还是公司。但 AI 爬虫面对的是原始 HTML,它需要明确的"标签"来理解内容的含义。这就是结构化数据的作用。对于初学者而言,理解 结构化数据入门 是提升AI可见性的第一步。
结构化数据是一套标准化的标记语言,它用机器可读的方式告诉 AI 爬虫:这个页面讲的是什么实体、有哪些属性、和其他实体什么关系。有结构化数据的页面被 AI 引用的概率提高 2.5 倍。
根据 Stackmatix 的研究,添加了 Schema.org 结构化数据 标记的页面在 AI 搜索引擎中被引用的概率比没有结构化数据的页面高出 2.5 倍。同时,有结构化数据的页面在传统搜索中的点击率也提高了 20-30%。
这不是未来趋势。Google 和 Microsoft 在 2026 年已经将 Schema.org 数据作为 AI Overviews 和 Copilot 等功能的核心输入源。GPT-4 处理结构化数据的准确率从 16% 提升至 54%——AI 正在越来越擅长利用结构化数据,但前提是你得先提供它。
JSON-LD:AI 搜索引擎偏爱的格式
结构化数据有三种主流格式:Microdata、RDFa 和 JSON-LD。Google 官方推荐 JSON-LD,几乎所有 AI 搜索引擎也偏爱这种 JSON-LD格式。原因很简单:
- 独立存在:JSON-LD 格式 作为
<script>标签放在 HTML 的<head>中,不需要修改页面内容 - 易于维护:一个集中的代码块,改起来比散落在 HTML 标签中的 Microdata 方便得多
- AI 友好:AI 爬虫可以直接解析 JSON 数据,不需要遍历 DOM 树
AI 爬虫不执行 JavaScript
这是一个关键细节:大多数 AI 爬虫不会执行 JavaScript。如果你的结构化数据是通过 JavaScript 动态注入的(比如用 React 的 useEffect 或 Google Tag Manager 注入),AI 爬虫可能完全看不到。
最佳实践:确保 JSON-LD 格式 的代码出现在服务器端渲染的 HTML 中。如果你用 Next.js,使用 <script> 标签在 <Head> 组件中输出;如果你用 WordPress,用插件直接写入 HTML。
6 种必备 Schema 类型
1. Organization(组织)
每个品牌官网的必备项。告诉 AI 你是谁。
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "你的品牌名",
"url": "https://你的域名.com",
"logo": "https://你的域名.com/logo.png",
"description": "品牌描述",
"sameAs": [
"https://www.linkedin.com/company/你的品牌",
"https://twitter.com/你的品牌",
"https://www.wikidata.org/wiki/Q你的ID"
],
"contactPoint": {
"@type": "ContactPoint",
"contactType": "customer service",
"email": "support@你的域名.com"
}
}
关键字段:sameAs 用于关联你在各平台的账号,特别是 Wikidata 链接——这会强化 AI 对你品牌身份的确认。
2. WebSite(网站)
帮助 AI 理解你的网站结构和搜索功能。
{
"@context": "https://schema.org",
"@type": "WebSite",
"name": "你的网站名",
"url": "https://你的域名.com",
"potentialAction": {
"@type": "SearchAction",
"target": "https://你的域名.com/search?q={search_term}",
"query-input": "required name=search_term"
}
}
3. Product(产品)
如果你有产品或服务,这是让 AI 在推荐时提到你的关键。
{
"@context": "https://schema.org",
"@type": "Product",
"name": "产品名称",
"description": "产品描述",
"brand": {
"@type": "Brand",
"name": "品牌名"
},
"offers": {
"@type": "Offer",
"price": "99.00",
"priceCurrency": "CNY",
"availability": "https://schema.org/InStock"
},
"aggregateRating": {
"@type": "AggregateRating",
"ratingValue": "4.8",
"reviewCount": "156"
}
}
4. FAQPage(常见问题)
FAQ 页面是 AI 引用的金矿。AI 搜索引擎特别喜欢"问题-回答"格式的内容。
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "你的产品有什么优势?",
"acceptedAnswer": {
"@type": "Answer",
"text": "简洁、权威的回答,控制在 50-80 字,方便 AI 直接引用。"
}
},
{
"@type": "Question",
"name": "如何开始使用?",
"acceptedAnswer": {
"@type": "Answer",
"text": "注册账号后即可免费使用基础功能,无需信用卡。"
}
}
]
}
技巧:每个 Answer 的 text 控制在 30-80 字,这是 AI 最容易直接引用的长度。
5. Article(文章)
适用于博客、新闻、指南等内容页面。
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "文章标题",
"description": "文章摘要",
"author": {
"@type": "Person",
"name": "作者名"
},
"publisher": {
"@type": "Organization",
"name": "品牌名",
"logo": {
"@type": "ImageObject",
"url": "https://你的域名.com/logo.png"
}
},
"datePublished": "2026-03-15",
"dateModified": "2026-03-15"
}
6. BreadcrumbList(面包屑导航)
帮助 AI 理解你网站的层级结构。
{
"@context": "https://schema.org",
"@type": "BreadcrumbList",
"itemListElement": [
{
"@type": "ListItem",
"position": 1,
"name": "首页",
"item": "https://你的域名.com"
},
{
"@type": "ListItem",
"position": 2,
"name": "博客",
"item": "https://你的域名.com/blog"
},
{
"@type": "ListItem",
"position": 3,
"name": "当前文章标题"
}
]
}
实操:3 步添加 Schema
第一步:检测现状
先用 RankWeave 的免费审计功能扫描你的网站,看看当前有哪些 Schema.org 结构化数据 类型、哪些缺失。工具会自动分析你的页面并列出建议。
你也可以用 Google 的富文本结果测试工具来验证现有的结构化数据是否有语法错误。
第二步:生成 Schema 代码
RankWeave 内置了 Schema 智能生成器。只需输入你的品牌信息和行业,工具会自动生成适合你的 JSON-LD 格式 代码。支持一键生成 Organization、Product、FAQPage 等多种类型。
如果你更喜欢手动编写,参考上面的代码模板,替换占位符为你的真实信息。
第三步:部署和验证
将生成的 JSON-LD 格式 代码添加到你网站的 <head> 标签内:
- WordPress:使用 Rank Math 或 Yoast 插件自动注入,或在主题的
header.php中手动添加 - Shopify:编辑
theme.liquid文件,在</head>之前插入代码 - Next.js:在
_app.tsx或各页面组件的 `<Hea
d>中添加<script type="application/ld+json">`
- 静态网站:直接在 HTML 的
<head>中粘贴
部署后,再次用 Google 富文本测试工具和 RankWeave 验证,确保没有语法错误。
5 个常见错误
错误一:通过 Google Tag Manager 注入 Schema
GTM 注入的 JSON-LD 依赖 JavaScript 执行。AI 爬虫不执行 JS,所以它们完全看不到你的结构化数据。必须在服务器端直接输出。
错误二:Schema 数据与页面内容不一致
如果你的 Schema 标记产品价格是 99 元,但页面上显示 199 元,搜索引擎会将其视为"欺骗性标记"。Schema 数据必须与页面可见内容完全一致。
错误三:只在首页添加 Schema
很多网站只在首页加了 Organization Schema 就觉得万事大吉。实际上,每个重要页面都应该有对应类型的 Schema——产品页用 Product、博客用 Article、FAQ 页用 FAQPage。
错误四:缺少 sameAs 属性
sameAs 是连接你品牌在不同平台身份的桥梁。没有它,AI 可能无法将你的官网、社交媒体和 Wikidata 条目关联起来。务必添加所有品牌官方渠道的 URL。
错误五:Schema 语法错误
少了一个逗号、多了一个括号,整个 JSON-LD 都会失效。部署前务必用验证工具检查。常见的语法陷阱包括:尾逗号(JSON 不允许最后一个元素后面有逗号)、URL 缺少引号、嵌套对象层级错误。
Schema 做好后,下一步?
结构化数据让 AI 能"看懂"你的网站。但要让 AI 真正"信任"你的品牌,你还需要:
-
确保 AI 爬虫能访问你的内容:检查 robots.txt 配置,别让好不容易写的 Schema 被爬虫门禁拦在外面。详见 robots.txt AI 爬虫配置指南。
-
建立知识图谱存在感:在 Wikidata 创建品牌条目,并在 Organization Schema 的
sameAs中链接你的 Wikidata 条目。Schema + Wikidata 双重验证是建立 AI 品牌信任的黄金组合。详见 Wikidata 品牌条目创建指南。 -
优化内容可引用性:结构化数据解决了"被理解"的问题,但内容本身也需要优化——简洁的段落、明确的数据点、可独立引用的结论。参考 AI 搜索优化完整指南。
GEO 技术基础三件套:robots.txt 让 AI 看到你,Schema 让 AI 看懂你,Wikidata 让 AI 信任你。Schema 是其中连接"看到"和"信任"的桥梁。
真实案例:一家 SaaS 团队的 Schema 改造数据
我们在 2026 年 2 月跟踪了一家中型项目管理 SaaS(域名权威度 DR=42,月自然流量 8 万)的 Schema 改造过程:
| 阶段 | 时间 | 操作 | 结果 |
|---|---|---|---|
| 改造前 | 第 0 天 | 仅首页有简单 Organization Schema,博客无标记 | AI Overviews 引用 0 次/月,ChatGPT 联网搜索引用 2 次/月 |
| 第一阶段 | 第 1-7 天 | 给 86 篇博客加 Article + BreadcrumbList,30 个产品页加 Product + AggregateRating | 富文本测试通过率从 12% 升到 96% |
| 第二阶段 | 第 8-14 天 | 在落地页和帮助中心加 FAQPage(每页 5-8 问),Organization Schema 补 sameAs(含 LinkedIn、X、GitHub) | GSC 中"丰富网页搜索结果"展示数 +180% |
| 第三阶段 | 第 15-30 天 | Wikidata 条目创建 + 反向引用回 Organization Schema 的 sameAs | AI Overviews 引用 14 次/月,ChatGPT 联网搜索引用 23 次/月 |
关键观察:单独加 Schema 的提升是阶梯式的,但 FAQPage + sameAs + Wikidata 三件套同时部署会有"叠加效应"——引用数在第 18-25 天集中跳涨。这也解释了为什么很多团队"加了 Schema 但没效果",往往是只做了其中一件事就停下了。
常见问题
加了 Schema 多久能看到效果?
通常 7-30 天。Googlebot 重新抓取你的页面后会更新结构化数据缓存,AI Overviews 引用率的提升一般在 2-4 周内显现。如果在 Google Search Console 用"网址检查"主动请求重新抓取,最快 3-5 天可见。AI 训练数据型引擎(如 ChatGPT 非联网模式)则要等下次模型更新,周期更长。
一个页面可以放多个 Schema 吗?
可以。常见的健康组合是 BreadcrumbList + Article + FAQPage 三件套。多个 Schema 用多个 <script type="application/ld+json"> 标签分别输出,或者在一个标签里用 @graph 数组包装。但不要把不相关类型硬塞到一起(比如 Product + JobPosting),AI 解析时会把信号互相稀释。
Schema 语法错了会被 Google 惩罚吗?
单纯的语法错误不会扣分,只是 Schema 不会生效。但"欺骗性标记"会被惩罚——比如标记的价格和页面显示不一致、标记了根本不存在的评分、或在没有 FAQ 模块的页面塞 FAQPage。被 Google 判定为"垃圾结构化数据"会触发整站的富文本结果资格被取消,恢复要 30-90 天。
Next.js App Router 怎么输出 Schema?
两种方式都行:在 Server Component 里直接渲染 <script type="application/ld+json" dangerouslySetInnerHTML={{ __html: JSON.stringify(schema) }} />,确保 JSON-LD 在初始 HTML 中;或者在 page/layout 的 generateMetadata 里通过 other 字段输出。不要用 useEffect 客户端注入——AI 爬虫看不到。
没有 Wikidata 条目的小品牌也能用 sameAs 吗?
能。sameAs 不限于 Wikidata,可以放任何能验证你品牌身份的官方账号:LinkedIn 公司主页、X(Twitter)、官方 GitHub、Crunchbase、行业协会注册页、ProductHunt 等。Wikidata 是加分项不是必需。建议至少放 3-5 个高权威的 sameAs,AI 用它们做"实体消歧"。
FAQPage Schema 必须放在专门的 FAQ 页面吗?
不一定,但 Google 的明确要求是:标记的问答必须在页面上对用户可见,否则会被判定为"隐藏内容"惩罚。文章末尾加一个 FAQ 章节再标记 FAQPage 是最稳妥的做法(也就是这一节用的方法)。每页 FAQPage 建议 3-10 个问题,超过 10 个时拆分到独立 FAQ 子页。
Schema 改完后怎么验证?
三层验证缺一不可:(1) Google 富文本结果测试工具 验证语法和资格;(2) Schema.org Validator 验证语义合规性;(3) Google Search Console 的"增强功能"报告看实际识别情况。前两个验证 5 分钟出结果,第三个要等 1-2 周数据积累。
想生成适合你网站的 Schema 标记?试试 RankWeave Schema 生成器,输入品牌信息即可一键生成符合规范的 JSON-LD 代码。