Linus
Linus

原文发布于

2026年03月02日

/

最新更新于

2026年03月01日

/

阅读

1
0

Google SpamBrain -- AI 驱动的反垃圾系统,Google 的隐形守卫

SpamBrain 是 Google 基于 AI 的垃圾内容检测系统,自 2018 年左右开始运行。它不像 PandaPenguin 那样有明确的发布日期和版本号,而是一个持续进化的机器学习平台,负责识别和打击垃圾网页、垃圾链接、被黑网站和各种搜索操纵行为。

启动时间:约 2018 年(2022 年 4 月首次公开命名)

类型:AI 驱动的持续运行系统

2024 年新增:三项反垃圾政策(过期域名滥用、规模化内容滥用、站点声誉滥用)

当前状态:持续进化中

SpamBrain 是什么 -- 从 "规则引擎" 到 "AI 大脑"

如果你了解 Google 算法的历史,你会知道早期的反垃圾手段都是 "规则式" 的。Panda 用内容质量信号打分,Penguin 用锚文本分布检测链接操纵——它们本质上是一组规则加阈值。

SpamBrain 完全不同。它是一个机器学习平台,不依赖单一规则或固定阈值,而是通过大量已知垃圾样本训练模型,让 AI 自己学习什么是 "垃圾"。这意味着它能识别人工规则永远覆盖不到的新型操纵手法。

另一个关键区别:SpamBrain 不是一次性更新,而是持续运行的系统。Panda 和 Penguin 都有明确的版本号(Panda 4.2、Penguin 3.0),你能查到每一次更新的日期。但 SpamBrain 没有版本号,它在后台 7x24 小时运行,模型不断迭代。Google 偶尔宣布的 "Spam Update",只是 SpamBrain 获得重大升级时的公告——底层系统从未停止工作。

Google 在 2022 年的网络垃圾报告中透露了一组数据:SpamBrain 在 2022 年检测到的垃圾内容是 2021 年的近 6 倍,是系统初始上线时的 200 倍。99% 以上的搜索结果页面不含垃圾内容。这不是靠人工审核做到的,是 AI 在规模化运作。

核心能力 -- SpamBrain 在打击什么

SpamBrain 的检测范围远比任何单一算法都广。它至少覆盖以下四个维度:

识别垃圾网页(Spam Pages)。 这是最基础的能力。关键词堆砌、隐藏文本、伪装页面(Cloaking)、自动生成的无意义内容——这些传统垃圾页面是 SpamBrain 的基本盘。值得注意的是,SpamBrain 在抓取阶段就拦截垃圾,很多垃圾页面甚至不会被索引,直接在入口处被过滤掉。

识别垃圾链接(Link Spam)。 这是 Penguin 算法的精神继承。2022 年 12 月的 Link Spam Update 明确使用了 SpamBrain 技术,Google 官方表示 SpamBrain 现在能够同时识别 "购买链接的网站" 和 "出售链接的网站"。这是一个巨大的能力升级——不只是惩罚买家,卖家也跑不掉了。

识别被黑网站(Hacked Sites)。 网站被黑客入侵后被植入垃圾内容和链接,是一种 "非自愿垃圾"。SpamBrain 能检测到这类异常,在这些垃圾内容影响搜索结果之前将其拦截。

识别自动生成内容(Auto-Generated Content)。 在 ChatGPT 时代之前,自动生成内容主要指 "旋转"(Spin)工具产出的伪原创。现在,这个类别已经扩展到 AI 批量生成的低价值内容——也就是 2024 年新增的 "规模化内容滥用" 政策所针对的行为。

2024 年的三大新政策 -- SpamBrain 的重大扩展

2024 年 3 月,Google 在发布核心更新的同时,宣布了三项全新的反垃圾政策。这是 SpamBrain 能力的重大扩展,也是 Google 对搜索生态中三种新型滥用行为的正式宣战。

过期域名滥用(Expired Domain Abuse)

定义:购买已过期的域名,利用其历史权威性和外链资源来托管低质量内容,企图在搜索中获得不劳而获的排名。

操作模式通常是这样的:找到一个曾经有真实内容和高质量外链的老域名(比如一个停运的行业媒体),以低价在域名拍卖市场买下来,然后在上面堆满与原站完全无关的 affiliate 内容或广告页面。域名的 "信用分" 还在,但内容已经面目全非。

Google 的态度:2024 年 3 月起,这类行为被明确归为垃圾操作,SpamBrain 会将其识别并采取行动。

规模化内容滥用(Scaled Content Abuse)

定义:大量生产以操纵排名为目的的内容,无论使用什么生产方式——AI 生成、人工代写、还是两者混合。

这是对 Google 此前 "自动生成内容" 政策的重大升级。旧政策聚焦于生产方式(是机器生成的吗?),新政策聚焦于生产目的和结果(是为了操纵排名而大规模生产低价值内容吗?)。这意味着即使用人工撰写,只要是大批量产出千篇一律的薄内容,一样触发政策。反过来,用 AI 辅助创作高质量、有真实价值的内容,并不违反政策。

关键信号:内容是否提供了真实的用户价值?还是只为覆盖关键词而存在?

站点声誉滥用(Site Reputation Abuse / "寄生 SEO")

定义:在高权威网站上发布第三方内容,利用宿主网站的排名信号获取不当排名,且宿主网站对这些内容缺乏实质性的编辑监督。

这就是 SEO 行业俗称的寄生 SEO(Parasite SEO)。典型案例包括:知名新闻网站的优惠券子目录(实际由第三方 affiliate 运营)、大学 .edu 网站上的赞助博客区(内容与校方无关)、权威媒体站点上的 "合作伙伴内容" 板块(实际是广告主自行发布)。

执行时间线:Google 给了两个月的缓冲期,站点声誉滥用政策于 2024 年 5 月 5 日正式生效。2024 年 11 月,Google 进一步更新了这项政策,明确表示 "无论宿主方参与程度如何,利用宿主网站排名信号的行为本质上都是滥用"。

垃圾更新时间线(2022-2025)

以下是 Google 近年所有标记为 "Spam Update" 的更新。每一次更新都代表 SpamBrain 系统获得了重大升级。

更新名称 开始日期 完成日期 持续天数 核心变化
October 2022 Spam Update 2022 年 10 月 19 日 2022 年 10 月 21 日 ~2 天 首次明确使用 SpamBrain 打击通用垃圾页面
December 2022 Link Spam Update 2022 年 12 月 14 日 2023 年 1 月 12 日 ~29 天 SpamBrain 接管链接垃圾检测,能识别链接买卖双方
October 2023 Spam Update 2023 年 10 月 4 日 2023 年 10 月 19 日 ~15 天 扩展多语言覆盖(土耳其语、越南语、印尼语、中文等)
March 2024 Spam Update 2024 年 3 月 5 日 2024 年 3 月 20 日 ~15 天 新增三项政策:过期域名 / 规模化内容 / 站点声誉滥用
June 2024 Spam Update 2024 年 6 月 20 日 2024 年 6 月 27 日 ~7 天 强化 SpamBrain 对新型操纵手法的检测
December 2024 Spam Update 2024 年 12 月 19 日 2024 年 12 月 26 日 ~7 天 全球全语言适用,年末清扫
August 2025 Spam Update 2025 年 8 月 26 日 2025 年 9 月 22 日 ~27 天 重点打击重复 / 低价值内容与操纵策略,DA 低的站点受冲击更大

一个明显的趋势:Spam Update 的频率在加快。2022 年 2 次,2023 年 1 次,2024 年 3 次,2025 年至少 1 次。Google 正在缩短垃圾操作的 "存活窗口"。

翼果观察 -- SpamBrain 对出海企业意味着什么

翼果独家观察(2026 年 3 月)

SpamBrain 是 Google 反垃圾的 "终极武器"。 与 Panda、Penguin 这些靠规则匹配的算法不同,SpamBrain 的 AI 能力意味着新型 spam 手法的 "窗口期" 越来越短。过去你发明一个新花招可能管用半年到一年,现在可能几周之内模型就更新了。这不是推测——2024 年三次 Spam Update 的频率就是证据。

2024 年三项新政策精准命中中国出海企业的常见操作。 我们在翼果服务客户的过程中反复看到以下模式:

第一,过期域名滥用。不少出海企业为了 "抄近路",在域名拍卖市场收购过期域名做站群或 301 跳转。SpamBrain 现在明确标记这种行为为垃圾操作。

第二,规模化内容滥用。用 AI 批量生成数百甚至数千篇 "城市 + 服务" 页面、"关键词 + 年份" 页面——这是典型的 Scaled Content Abuse。Google 不在乎你用什么工具生成内容,它在乎的是内容是否为用户提供了不可替代的价值

第三,站点声誉滥用。在高权威英文站点上购买 "sponsored post" 位置来传递权重——这正是寄生 SEO 的核心操作,现在已被明确判定为垃圾行为。

SpamBrain 的演进方向值得关注。 从 2022 年到 2025 年,SpamBrain 的能力扩展路径非常清晰:通用垃圾页面 → 链接垃圾 → 多语言覆盖 → 新型滥用政策 → 更强的内容质量判断。结合 Google 在 AI OverviewsHelpful Content 方向的持续投入,可以合理预期 SpamBrain 下一步会更深度地整合信息增益(Information Gain)信号——不只是判断 "这是不是垃圾",而是判断 "这有没有独特价值"

反垃圾自检清单

以下是翼果建议的 8 项反垃圾自检,覆盖 SpamBrain 当前关注的所有维度:

  • 域名来源审查:你的网站域名是否为全新注册?如果是收购的过期域名,当前内容是否与域名历史主题一致?不一致的老域名 + 新内容 = 红旗。
  • 内容规模化审计:你是否有大量结构高度相似的页面(如 "城市 A + 服务"、"城市 B + 服务")?每个页面是否提供了差异化的真实价值?如果只是换了地名,其他一样——这就是 Scaled Content Abuse。
  • 第三方内容隔离:你的站点上是否有第三方发布的内容(赞助文章、合作伙伴内容)?如果有,是否有严格的编辑审核流程?这些内容是否用了 noindexsponsored 标签?
  • 链接交易痕迹清理:是否存在付费购买的外链?是否有大量来自与你行业无关的网站的外链?所有赞助链接是否已正确标记 rel="sponsored"
  • AI 内容质量把关:如果使用 AI 辅助内容生产,是否有人工编辑审核流程?内容是否包含独特见解、原创数据或第一手经验?纯 AI 输出不等于垃圾,但未经人工审核的批量 AI 输出很可能是
  • 隐藏技术检查:确认网站没有 Cloaking(向 Googlebot 展示不同于用户看到的内容)、隐藏文本、隐藏链接或门户页面(Doorway Pages)。
  • 网站安全扫描:定期检查网站是否被黑客入侵并植入垃圾内容。使用 Search Console 的安全问题报告和第三方安全扫描工具。
  • Search Console 手动操作检查:每月至少检查一次 Google Search Console 的 "手动操作" 面板。如果收到垃圾相关的手动操作,立即处理并提交复审请求。

相关算法

在AI里面继续讨论: