Bing 干了一件 Google 一直没敢干的事。它把「我的内容被 AI 引用了多少次」直接做成了网站后台里的标准报表。
过去一年,做 SEO 的人都在问同一个问题:我写的东西到底被 ChatGPT、Copilot、Perplexity 引用过没有?市面上能用的工具基本都是第三方监测,靠模拟提问反推。这种数据有两个死结:样本太小,也不可证伪。 你跟客户说「这个月被引用了 100 次」,平台不承认也不否认,业务方根本没法拿这个数字去汇报。
这个僵局在 2026 年被 Bing 单方面打破了。2 月 10 日 AI Performance 公测上线,3 月 23 日 补上了 Grounding Query 到页面的多对多映射,4 月底纽约 SEO Week 上微软 AI 产品经理 Krishna Madhavan 在现场展示了一批正在打造的新指标方向。这是搜索行业第一次,由一家主流引擎用第一方数据告诉你:你的页面在它的 AI 答案里被用了几次、被哪些 retrieval 短语调起、跟你抢这个位置的是谁。
先把「已上线」和「路线图」分清楚
有人把 SEO Week 上的预告当成了已发布功能,我把官方博客和现场演示对照了一遍,给大家看更清晰。
已经上线(截至 5 月 7 日):
-
2 月 10 日 AI Performance 公测,五个基础指标:Total Citations(总引用次数)、Average Cited Pages(被引用页面平均数)、Grounding Queries(AI 检索引用内容时使用的关键短语)、Page-level Citation Activity(页面级引用)、Visibility Trends Over Time(趋势线)
-
3 月 23 日补上 Grounding Query 与页面之间的多对多映射,能反向看「哪类 retrieval 在驱动哪一页被引用」
-
5 月 6 日 Bing Search Blog 发了一篇 技术文章,解释索引怎么从「排名页面」演进到「支撑答案」
4 月 27 日 SEO Week 现场展示、还没正式发布的方向:
-
Citation Share(引用份额):你的引用占该 grounding query 下所有被引用页面的百分比
-
Grounding Query Intent(意图分类):把成千上万的 retrieval 短语按意图归类,演示里覆盖学习、对比、规划、导航、研究、信息检索、对话、内容过滤等
-
Semantic Topic Labels(语义主题标签):把措辞不同但语义相近的 grounding query 聚成一类
-
GEO 专属优化建议:站点结构与可抓取性、索引规范化信号、Schema 现代化、Schema 有效性这四个方向
这四项目前只是 Krishna Madhavan 在 SEO Week 上口头预览过、PPT 露过的方向,没有给出正式发布时间,也没出现在 Bing 官方博客的 changelog 里(Search Engine Journal 对 Citation Share 的现场转述 是目前最详细的二手记录)。所以下面我会把它当作「方向参考」讨论,不是「即将上线」。
5 月这一波要读就读 5 月 6 日那篇博客。它把 AI Performance 这套指标背后,索引的逻辑到底变成了什么样讲清楚了。这才是真正的底层。
Grounding 不是 Ranking,这话是 Bing 自己讲的
5 月 6 日那篇 Bing Search Blog 的核心论断我翻一下大概是这样:
传统搜索索引优化的是「哪个页面值得用户访问」;grounding 系统优化的是「哪些信息可以负责任地支撑一个答案」。
听起来像文字游戏,实际完全不是同一件事。
传统索引以页面为最小单位,做的是相关性排序。两个互相矛盾的页面可以同时排进前十,由用户自己判断真伪。陈旧内容只是排名下降,不会出灾难性后果。
Grounding 系统以事实为最小单位,做的是证据提取。两个互相矛盾的来源会触发系统的冲突检测,整段答案可能直接不出。陈旧内容在这套系统里是致命错误。AI 用三个月前的政策给用户生成了一个错误答案,这是平台没法接受的损失。
Bing 在那篇博客里公开了几条 grounding 质量的评估标准:事实保真度(factual fidelity)、来源归因质量(source attribution quality)、新鲜度(freshness)、高价值事实覆盖(coverage of high-value facts)、冲突检测(contradictions)。这些指标不会出现在 AI Performance 仪表盘上,但它们解释了为什么平台越来越偏爱结构清晰、证据充足、可拆块、可验证的内容。
这跟我之前在 信息增益实操 里讲的逻辑一致。AI 不需要再多一篇把前十名重写一遍的稿子,它需要能拆成事实块、能挑出来当证据用的内容。
引用份额:补上「声音份额」漏掉的那块
SEO Week 预览的几项里最值得提前准备的,是 Citation Share。
传统 SEO 有个概念叫「声音份额(Share of Voice)」,衡量品牌在某个关键词下占据 SERP 的比例。这个指标在 AI 时代不够用了。AI 答案的合成是排他性的,它不会给你列十几条结果,只会从有限的权威来源里挑几个去支撑答案。深度压倒广度。
Citation Share 想补的就是这一块。按 SEO Week 现场演示给的口径:在某个 grounding query 下,你的页面被引用次数 ÷ 该 query 下所有被引用页面的总次数。这个百分比衡量的不是流量,更接近模型份额(Share of Model)的概念,也就是你在 LLM 的「考虑集」里占多大权重。
第三方机构 Foundation Inc.(基于 Profound 的样本数据)做过一组对比:法律实践管理软件领域,行业头部品牌 Clio 在他们的样本里拿到了约 7.3% 的引用份额,超过紧随其后四个域名加起来的总和。这是第三方采样口径,不是 Bing 官方数字,但能说明一件事:在 AI 答案的世界里,谁被反复挑出来当证据,跟谁的传统 SEO 排名好不好,是两条不同的曲线。
实战观察:我最近做几个跨境客户的 AI 可见性诊断,已经开始用一个土办法预跑这个指标。拉一份目标品牌词和上下游问题词列表,定期向 ChatGPT、Claude、Perplexity 发起相同提问,统计自家引用次数和竞品引用次数。这种第三方采样的数据偏差大、成本也高,但跑两个月之后,份额结构就能看出来。Bing 的 Citation Share 一旦全员上线,相当于把这件事从「我手工模拟」变成了「平台原生输出」,这是质的跃迁。
所以即使 Citation Share 还没到你的后台,也不影响你今天就开始按这个思路看数据。如果你的 Total Citations 在涨但占比没涨,意味着竞争对手的内容增长比你快。这种结构性变化,光看绝对数永远看不出来。
第三方 AI 可见性工具的特性怎么看
这一年第三方 AI 可见性监测工具长得很快,做客户咨询绕不开。把目前主流的几类拉出来,对比一下各自的特性。
Profound 起步早、做企业级,Salesforce、Indeed、Whirlpool 都是它公开的案例客户。功能堆得最厚:Brand Insights(品牌在 LLM 回答里的提及频次)、Conversation Explorer(用户在 AI 里实际问什么)、Citations(哪些 URL 被引用)、Agent Analytics(AI 代理流量分布)。强项是数据品类齐、企业服务能力到位。
Otterly.AI 是这个品类另一位先行者,覆盖面够广,ChatGPT、Perplexity、Google AI Overviews、Bing Copilot 都跑。最强的一项是 prompt-level 跟踪,你自己定义关心的 prompt 列表,它定期模拟提问、跑出品牌提及和引用对比。强项是 prompt 自定义灵活、平台覆盖均衡。
Peec AI、AthenaHQ、Scrunch、Goodie 是 2025 下半年到 2026 起来的新选手,单点切得更细。Peec 把 prompt 跟踪做成 SaaS 套件,Scrunch 主打企业级 AI Search Optimization,AthenaHQ 和 Goodie 走 brand visibility tracking 路线。强项是垂直场景深耕,短板是数据积累时间还短,长期趋势没法跟前两家比。
Semrush 的 AI Toolkit 和 Ahrefs 的 Brand Radar 把 AI 可见性接进了存量 SEO 工作流,存量客户不用单独再买一份。强项是跟现有 SEO 数据无缝打通、报告体系连贯,弱项是 AI 那块的颗粒度通常没有垂直工具那么细。
利益披露:翼果科技跟 Semrush 是战略合作伙伴,所以我团队内部跑的 AI 指标体系,很大一部分是参考 Semrush 的定义对齐过来的。原因很现实:目前市场没有一个事实标准,每家工具对「品牌提及」「引用频次」「prominence」的算法各说各话,跨工具的数字基本没法直接比较。与其各家指标拼凑,我更愿意先跟一家数据基础够扎实、大家都认的厂商对齐。这样客户拿到的报告口径是稳定的,不同项目之间能横向比较,等行业真正出来一个事实标准的时候,想换工具迁移也最省事。
市面上还有一类把自己定位成专属 「GEO 平台」 的工具,做 prompt 资产库、引用监测、内容建议一体化,比如 Athena、Scrunch 这类的高端定位产品。这个品类还在快速演化,特性、定价模型、客户分层都没稳定下来。要不要现在就买,分两种情况。如果你只是想监测自己被引用的情况,前面那几类工具已经够覆盖。如果你是大型品牌、要系统性运营 prompt 资产、做跨内容团队协同的 GEO playbook,专属 GEO 平台才用得起来。但即便如此,也建议先观察 6 到 12 个月再做长期采购决策,省得现在签了几个月后发现产品已经变样。
回到 Bing AI Performance。它跟上面这些第三方工具看的根本不是同一件事,差别在两条线上:
-
第三方工具是外部采样。用机器人去 ChatGPT、Claude、Perplexity 模拟提问,抓回答里的品牌提及和 URL 引用。优势是跨平台覆盖、prompt 级可定义、开箱即用的竞品对比。局限是永远只能是采样、不同工具采样策略不一样、跨工具数字不可直接对照。
-
Bing AI Performance 是平台第一方数据。后台直接告诉你过去 N 天 AI 答案引用了你哪些页面、各几次,颗粒度精确到 URL,免费。优势是引用计数和页面级数据由平台直接出,不靠模拟提问反推;局限有两层:一是覆盖范围只到 Microsoft 生态(Copilot、Bing AI summaries、加上微软没公开名单的合作 AI 体验),ChatGPT、Claude、Perplexity 那边它一个字都不会告诉你;二是 Bing 自己也明确写过,Grounding Queries 列表只是整体引用活动的一个样本,不是完整日志,所以也不要把它当成「全网全量」。
一个是跨平台外部采样的格局观察,一个是单平台第一方的精确诊断。理解清楚口径差异,比纠结数字对得上对不上更重要。顺带提一句:外部采样的数和平台自己出的数本来就不可比,不要硬拉到同一张表里算。
站长今天就该做的五件事
不用等所有功能上线,已上线的部分已经够你启动了。
第一,把被引用页单独拉一个清单,不要只盯流量页。 行业的多个独立验证都指向同一件事:被 AI 引用最多的页面,跟你自然搜索流量最高的页面经常不重合。前者更接近「具体问题的清晰回答」,后者更接近「高竞争主题的全面综述」。这两类页面要分别维护,而且优先保护引用页的事实新鲜度。
第二,用 Grounding Query 到页面的映射做主题与证据诊断,不要把它当排名诊断。 3 月那个新映射的真实价值不在「看见被引用」,在「看见哪类 retrieval 意图驱动了哪一页」。一对多说明这个页面被多种意图调用,可能需要拆出 supporting pages 让结构更清晰。多对一说明你有几个薄页在抢同一类意图,应该合并成更强的 hub。这是话题权威诊断在 AI 时代的新入口,但它跟 GSC 的排名报告解决的不是同一类问题,别混着看。
第三,把 IndexNow 接进来,把「过期内容」按 P0 处理。 Bing 在 AI Performance 首发公告里就明确推荐 IndexNow,5 月那篇博客又把 freshness failure 定义为 grounding 场景里的「高代价错误」。价格、政策、产品参数、联系方式、营业时间,所有可能过期的页面,更新机制必须制度化。这件事在传统 SEO 里只是 nice-to-have,在 grounding 系统里是必须项。
第四,把答案前置,把证据补齐。 AI 不「读」页面,它做的是 chunking 加解析。每个关键 section 的前两句必须直接给结论,后面再展开例子和数据。FAQ、对比表、明确的来源引用、作者信息、更新时间,目的是给 grounding 系统留下可拆解的钩子。视觉好看是顺带的事。详细做法可以看答案引擎优化那篇里讲的几种结构。
第五,不要把 Grounding Queries 当成用户搜索词。 资深 SEO 顾问 Glenn Gabe 在 X 上反复提醒过这一点,我也认同:grounding queries 是 AI 在检索内容时使用的解释型短语,不是用户原始输入。一个用户口语化地问「夜里睡不着怎么办」,AI 在后台执行的 grounding query 可能是「失眠干预方法 临床证据」之类。所以正确用法是把它当作「AI 怎么解读用户意图」的镜像,不要直接拿去替代关键词词库。
Google 那边在做什么
有人会问:那 Google 自己呢?AI Overviews 已经覆盖了 55% 以上的信息类搜索结果(行业测算口径,不是官方),Google 难道没在观察?
Google 当然在做,只是路径跟 Bing 完全不一样。Google 长期把 AI Overviews 的表现并入 Search Console 的 Performance 报表里,AI Overview 中所有出现的链接共享同一个 position 计算。也就是说,Google 把 AI 答案当成了「Web 搜索结果的另一种展现形式」,没有给它单独开报告。后果是站长打开 GSC 根本分不清这次展示到底来自传统蓝色链接还是 AI 答案脚注,能看到聚合数字,但归因层完全是黑盒。
2025 年 12 月 Google 在 GSC 上线了 AI-powered configuration,用 AI 帮站长更智能地过滤查询、识别异常波动。这是 Google 在 GSC 工具链上加 AI 的方向,但跟「让站长看到 AI 引用」是两回事。同期 Google 也持续在内部跑 NYT 的 Accuracy Study 这类外部评估,证明 Gemini 3 驱动的 AI Overviews 在事实准确率上稳定在 85% 以上。但所有这些研究都是第三方做的、消费者视角的评估,不是站长能用的第一方报告。
真正的转折点是 4 月 13 日。资深行业观察者 Barry Schwartz 在 Google 官方支持文档里翻到了一个被悄悄写入的字眼:「AI contribution pilot」。Google 正在小范围测试一个跟 Bing AI Performance 形态非常接近的新报表,让站长把 AI 答案的可见性独立追踪。截至我写这篇文章时,这个 pilot 还没有公开发布日期。但放在整条时间线上看,方向是清楚的:从「埋在 Web 报表」到「AI-powered configuration」,再到「AI contribution pilot」,Google 在一步一步往独立 AI 报表那边走。
跟 Bing 的对比也很直接。Bing 已经走完「公测 → 独立 dashboard → 加 mapping → 预告 Citation Share」这一整条链路,Google 才刚摸到「AI contribution pilot」的门。两边的方向一致,节奏差了 6 到 9 个月,但这也和 Google 生态有关,毕竟管理的站点多,无法覆盖海量站点。
我自己怎么看
不要把「被 AI 引用」等同于「流量」。这两件事是两条独立的曲线。AI Performance 仪表盘是上游可见性观测层,下游 ROI 仪表盘的位置它今天还填不上。它告诉不了你「这次引用带来了多少订单」,未来一段时间也告诉不了。所以接到老板问「Bing 这个数能算业务效果吗」的时候,正确答案是:能算曝光层 KPI,但不能直接绑营收。
但它给了行业第一根可以对齐的尺子。以前我跟客户讲「你的内容在 AI 里有曝光」,全靠玄学和样本。现在 Bing 后台直接出数。这种从「传闻」到「第一方数据」的跃迁,会重新定义未来两年的 SEO KPI 框架。「被引用次数」和「引用份额」会跟「自然流量」并列,成为内容投资回报的标配指标。
不需要一夜推翻所有事,但今天就开始做基线、列被引用页清单、接 IndexNow、把高引用页改成答案前置结构。这一波准备工作的窗口期不长。等 Citation Share 真上线那天,先做完这些的人已经能拿出连续 90 天的对比数据,没准备的人还在解释「为什么我们没有基线」。
从 robots.txt 到 llms.txt,再到 AI Performance 仪表盘,搜索引擎正在长出一套全新的「AI 可见性反馈回路」。它跟传统 SEO 报表并行存在,但衡量的事情完全不一样。Bing 这一步走在前面,意味着 GEO 的 KPI 体系第一次有了第一方数据支撑。整个 SEO 报告框架也会在后续的更新中跟着重做,Linus 会继续跟随。
关于作者
Linus 这两年带客户跑过 AI Overviews 上线后的流量复盘、做过多轮 GEO 内容改造,也用过市面上几乎所有第三方 AI 监测工具,Otterly、Profound、Similarweb 都接过。这篇文章里的判断,来自他对照官方博客与 SEO Week 现场材料、跟行业里几位他长期信任的观察者解读交叉之后整理出的看法。