什么是结构化数据?为什么 AI 需要它?
当你在网页上写"苹果",人能根据上下文判断你说的是水果还是公司。但 AI 爬虫面对的是原始 HTML,它需要明确的"标签"来理解内容的含义。这就是结构化数据的作用。
结构化数据是一套标准化的标记语言,它用机器可读的方式告诉 AI 爬虫:这个页面讲的是什么实体、有哪些属性、和其他实体什么关系。有结构化数据的页面被 AI 引用的概率提高 2.5 倍。
根据 Stackmatix 的研究,添加了 Schema.org 标记的页面在 AI 搜索引擎中被引用的概率比没有结构化数据的页面高出 2.5 倍。同时,有结构化数据的页面在传统搜索中的点击率也提高了 20-30%。
这不是未来趋势。Google 和 Microsoft 在 2026 年已经将 Schema.org 数据作为 AI Overviews 和 Copilot 等功能的核心输入源。GPT-4 处理结构化数据的准确率从 16% 提升至 54%——AI 正在越来越擅长利用结构化数据,但前提是你得先提供它。
JSON-LD:AI 搜索引擎偏爱的格式
结构化数据有三种主流格式:Microdata、RDFa 和 JSON-LD。Google 官方推荐 JSON-LD,几乎所有 AI 搜索引擎也偏爱这种格式。原因很简单:
- 独立存在:JSON-LD 作为
<script>标签放在 HTML 的<head>中,不需要修改页面内容 - 易于维护:一个集中的代码块,改起来比散落在 HTML 标签中的 Microdata 方便得多
- AI 友好:AI 爬虫可以直接解析 JSON 数据,不需要遍历 DOM 树
AI 爬虫不执行 JavaScript
这是一个关键细节:大多数 AI 爬虫不会执行 JavaScript。如果你的结构化数据是通过 JavaScript 动态注入的(比如用 React 的 useEffect 或 Google Tag Manager 注入),AI 爬虫可能完全看不到。
最佳实践:确保 JSON-LD 出现在服务器端渲染的 HTML 中。如果你用 Next.js,使用 <script> 标签在 <Head> 组件中输出;如果你用 WordPress,用插件直接写入 HTML。
6 种必备 Schema 类型
1. Organization(组织)
每个品牌官网的必备项。告诉 AI 你是谁。
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "你的品牌名",
"url": "https://你的域名.com",
"logo": "https://你的域名.com/logo.png",
"description": "品牌描述",
"sameAs": [
"https://www.linkedin.com/company/你的品牌",
"https://twitter.com/你的品牌",
"https://www.wikidata.org/wiki/Q你的ID"
],
"contactPoint": {
"@type": "ContactPoint",
"contactType": "customer service",
"email": "support@你的域名.com"
}
}
关键字段:sameAs 用于关联你在各平台的账号,特别是 Wikidata 链接——这会强化 AI 对你品牌身份的确认。
2. WebSite(网站)
帮助 AI 理解你的网站结构和搜索功能。
{
"@context": "https://schema.org",
"@type": "WebSite",
"name": "你的网站名",
"url": "https://你的域名.com",
"potentialAction": {
"@type": "SearchAction",
"target": "https://你的域名.com/search?q={search_term}",
"query-input": "required name=search_term"
}
}
3. Product(产品)
如果你有产品或服务,这是让 AI 在推荐时提到你的关键。
{
"@context": "https://schema.org",
"@type": "Product",
"name": "产品名称",
"description": "产品描述",
"brand": {
"@type": "Brand",
"name": "品牌名"
},
"offers": {
"@type": "Offer",
"price": "99.00",
"priceCurrency": "CNY",
"availability": "https://schema.org/InStock"
},
"aggregateRating": {
"@type": "AggregateRating",
"ratingValue": "4.8",
"reviewCount": "156"
}
}
4. FAQPage(常见问题)
FAQ 页面是 AI 引用的金矿。AI 搜索引擎特别喜欢"问题-回答"格式的内容。
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "你的产品有什么优势?",
"acceptedAnswer": {
"@type": "Answer",
"text": "简洁、权威的回答,控制在 50-80 字,方便 AI 直接引用。"
}
},
{
"@type": "Question",
"name": "如何开始使用?",
"acceptedAnswer": {
"@type": "Answer",
"text": "注册账号后即可免费使用基础功能,无需信用卡。"
}
}
]
}
技巧:每个 Answer 的 text 控制在 30-80 字,这是 AI 最容易直接引用的长度。
5. Article(文章)
适用于博客、新闻、指南等内容页面。
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "文章标题",
"description": "文章摘要",
"author": {
"@type": "Person",
"name": "作者名"
},
"publisher": {
"@type": "Organization",
"name": "品牌名",
"logo": {
"@type": "ImageObject",
"url": "https://你的域名.com/logo.png"
}
},
"datePublished": "2026-03-15",
"dateModified": "2026-03-15"
}
6. BreadcrumbList(面包屑导航)
帮助 AI 理解你网站的层级结构。
{
"@context": "https://schema.org",
"@type": "BreadcrumbList",
"itemListElement": [
{
"@type": "ListItem",
"position": 1,
"name": "首页",
"item": "https://你的域名.com"
},
{
"@type": "ListItem",
"position": 2,
"name": "博客",
"item": "https://你的域名.com/blog"
},
{
"@type": "ListItem",
"position": 3,
"name": "当前文章标题"
}
]
}
实操:3 步添加 Schema
第一步:检测现状
先用 RankWeave 的免费审计功能扫描你的网站,看看当前有哪些 Schema 类型、哪些缺失。工具会自动分析你的页面并列出建议。
你也可以用 Google 的富文本结果测试工具来验证现有的结构化数据是否有语法错误。
第二步:生成 Schema 代码
RankWeave 内置了 Schema 智能生成器。只需输入你的品牌信息和行业,工具会自动生成适合你的 JSON-LD 代码。支持一键生成 Organization、Product、FAQPage 等多种类型。
如果你更喜欢手动编写,参考上面的代码模板,替换占位符为你的真实信息。
第三步:部署和验证
将生成的 JSON-LD 代码添加到你网站的 <head> 标签内:
- WordPress:使用 Rank Math 或 Yoast 插件自动注入,或在主题的
header.php中手动添加 - Shopify:编辑
theme.liquid文件,在</head>之前插入代码 - Next.js:在
_app.tsx或各页面组件的<Head>中添加<script type="application/ld+json"> - 静态网站:直接在 HTML 的
<head>中粘贴
部署后,再次用 Google 富文本测试工具和 RankWeave 验证,确保没有语法错误。
5 个常见错误
错误一:通过 Google Tag Manager 注入 Schema
GTM 注入的 JSON-LD 依赖 JavaScript 执行。AI 爬虫不执行 JS,所以它们完全看不到你的结构化数据。必须在服务器端直接输出。
错误二:Schema 数据与页面内容不一致
如果你的 Schema 标记产品价格是 99 元,但页面上显示 199 元,搜索引擎会将其视为"欺骗性标记"。Schema 数据必须与页面可见内容完全一致。
错误三:只在首页添加 Schema
很多网站只在首页加了 Organization Schema 就觉得万事大吉。实际上,每个重要页面都应该有对应类型的 Schema——产品页用 Product、博客用 Article、FAQ 页用 FAQPage。
错误四:缺少 sameAs 属性
sameAs 是连接你品牌在不同平台身份的桥梁。没有它,AI 可能无法将你的官网、社交媒体和 Wikidata 条目关联起来。务必添加所有品牌官方渠道的 URL。
错误五:Schema 语法错误
少了一个逗号、多了一个括号,整个 JSON-LD 都会失效。部署前务必用验证工具检查。常见的语法陷阱包括:尾逗号(JSON 不允许最后一个元素后面有逗号)、URL 缺少引号、嵌套对象层级错误。
Schema 做好后,下一步?
结构化数据让 AI 能"看懂"你的网站。但要让 AI 真正"信任"你的品牌,你还需要:
-
确保 AI 爬虫能访问你的内容:检查 robots.txt 配置,别让好不容易写的 Schema 被爬虫门禁拦在外面。详见 robots.txt AI 爬虫配置指南。
-
建立知识图谱存在感:在 Wikidata 创建品牌条目,并在 Organization Schema 的
sameAs中链接你的 Wikidata 条目。Schema + Wikidata 双重验证是建立 AI 品牌信任的黄金组合。详见 Wikidata 品牌条目创建指南。 -
优化内容可引用性:结构化数据解决了"被理解"的问题,但内容本身也需要优化——简洁的段落、明确的数据点、可独立引用的结论。参考 AI 搜索优化完整指南。
GEO 技术基础三件套:robots.txt 让 AI 看到你,Schema 让 AI 看懂你,Wikidata 让 AI 信任你。Schema 是其中连接"看到"和"信任"的桥梁。
立即用 RankWeave 免费检测你网站的结构化数据状态,看看 AI 还缺少哪些关于你品牌的关键信息。