Linus
Linus

原文发布于

2026年03月01日

/

最新更新于

2026年03月01日

/

阅读

6
0

Chunking — 内容分块:AI 不读你的全文,它只读碎片

将长文档拆分为离散的文本片段(chunk),分别向量化后存入数据库,供 AI 检索系统按需提取的内容处理机制。

关键数据点:NVIDIA 2024 年基准测试显示,页面级分块(page-level chunking)在五个数据集上取得了最高平均准确率 0.648,且标准差最低(0.107);而 2025 年一项临床决策支持研究中,自适应分块的准确率达到 87%,固定长度分块仅为 13%。(来源:NVIDIA Technical Blog / PMC

2026 趋势信号:RAG(检索增强生成)已成为 AI 搜索的底层架构标配。你的内容能不能被 AI 准确引用,取决于它被 "切碎" 后每一块是否还能独立讲清一件事。分块质量正在从技术细节变成内容可见性的生死线。

谁需要关注:SEO 负责人 / 内容策略总监 / 技术架构师 / CMO

这个概念从哪来

在传统搜索引擎的年代,Google 爬虫抓取一个网页,基本上是把整页内容当作一个单元来理解和索引。你写了一篇 5000 字的文章,搜索引擎看的是 "这整篇文章跟某个查询有多相关"。这个逻辑延续了二十年,直到 2020 年 Google 推出 Passage Ranking(段落级排名),事情开始变了——搜索引擎不再只看整页,而是会挑出页面中某个特定段落来回答用户的问题。

但真正让 "分块" 从搜索技术的小优化变成内容基础设施的,是 RAG 架构的爆发。2024-2025 年,Perplexity、Google AI Overviews、ChatGPT 搜索等 AI 搜索产品全面铺开,它们背后的检索系统都依赖同一套流程:把互联网上的文档切成几百个离散的文本块,每一块转化为向量(embedding),存进向量数据库,用户提问时通过语义相似度匹配找到最相关的那几个块,再交给大模型生成回答。

这意味着一个根本性的转变:AI 搜索引擎从来不会 "阅读" 你的整篇文章。它读到的是你文章的碎片。如果碎片质量差——断句在关键信息中间、缺乏上下文、实体指代不明——AI 要么引用不了你,要么引用错了。

它到底怎么运作

理解分块,先要理解 RAG 检索的完整链路。整个过程可以拆成三步:

第一步:文档被切碎。 系统把你的网页内容按某种策略拆分成多个 chunk。每个 chunk 通常在 256-1024 个 token 之间(大约 200-800 个中文字)。切法不同,效果天差地别。

第二步:每块变成向量。 每个 chunk 通过嵌入模型(embedding model)转化为一组高维数字——这就是 "向量"。语义相近的文本块在向量空间里距离更近。这些向量被存入 Pinecone、Weaviate、Milvus 等向量数据库。

第三步:用户提问,检索匹配。 用户的问题同样被转化为向量,系统在数据库里找到最相似的几个 chunk(通常 3-10 个),把它们作为上下文塞给大模型,由 LLM 综合这些碎片生成回答,并可能标注引用来源。

主流分块策略对比

策略 原理 适用场景 准确率参考
固定长度分块 按固定 token 数切割,不管语义边界 快速原型、简单文档 基线水平(13-50%)
递归字符分割 按段落→句子→字符层级递归切割 通用场景,性价比最高 ~69%(512 token)
语义分块 用嵌入模型检测语义断点再切割 多主题长文档 ~54%(计算成本高)
页面级分块 以 PDF 页面为自然边界 报告、财务文件 ~65%(NVIDIA 基准)
自适应分块 对齐章节和句子边界,动态窗口 结构化文档 ~87%(临床研究)

一个反直觉的发现:2025 年 NAACL 会议的一篇论文指出,在某些任务上,固定 200 词的分块效果并不比复杂的语义分块差。原因是语义分块的计算开销(需要为每句话生成嵌入并计算相似度)并不总能换来稳定的性能提升。这说明分块没有万能公式,关键是匹配你的文档类型和检索需求。

对内容创作者意味着什么

你无法控制 AI 系统用哪种分块策略处理你的内容。但你可以控制的是:让你的内容在任何切法下都不会丢失核心信息。具体来说:

  • 每个 H2/H3 段落自成一体:一个章节被单独提取出来时,读者(或 AI)不需要翻看上下文就能理解它在说什么。避免 "如上所述""正如前文提到的" 这类跨段落引用。
  • 实体名称完整重复:不要在第一次提到 "Google AI Overviews" 后就简称 "该功能"。每个潜在的 chunk 都应该包含完整的实体名称,因为 AI 检索到的可能只有这一个块。
  • 关键数据与结论紧密绑定:不要在第三段给数据、第七段给结论。数据和它支撑的观点应该在同一个段落或相邻段落内,确保被切到同一个 chunk 里。
  • 结构化标记是硬需求:清晰的 H2/H3 标题、加粗的实体名称、项目符号列表、数据表格——这些不只是排版美观,它们是分块系统识别主题边界的信号。

翼果观察(2026 年 3 月):一次 "分块模拟" 实验

我们选取了 10 篇中文 SEO 行业文章(平均 3000 字),用 LangChain 的 RecursiveCharacterTextSplitter 按 512 token 切割,然后人工检查每个 chunk 的信息完整度。结果:

  • 无明确 H2/H3 结构的文章:平均 38% 的 chunk 出现 "语义断裂"——关键概念被切成两半,或数据与结论分属不同块。
  • 有严格标题层级 + 段落自包含的文章:语义断裂率降到 12%。
  • 最大问题:中文文章普遍喜欢用 "因此""由此可见" 做段落衔接,这类连接词在分块后变成了悬空引用——AI 看到 "因此",却找不到 "因" 是什么。

结论:为 AI 可读性写作,本质上是在为 "断章取义" 做防御性设计。每个段落都要假设它会被单独提取、脱离上下文呈现给用户。

常见误区

误区一:把内容切得越碎越好,AI 更容易消化

恰恰相反。2026 年 1 月,Google Search Liaison Danny Sullivan 在播客中直接表示:"把内容切成小碎片,因为 LLM 喜欢小碎片?我们不希望你这么做。"(Technology.org)Google 的语言模型是为理解自然人类表达而设计的,不是为人工碎片化文本设计的。正确做法:不要刻意缩短段落,而是确保每个自然段落在被切割时仍能独立成意。

误区二:分块只是后端技术问题,跟内容创作无关

内容的结构直接决定了分块的质量。如果你的文章没有清晰的标题层级,一个 3000 字的长段落会被机械地从中间切断。分块系统依赖 Markdown 标题(H2/H3)、列表、表格等结构标记来识别语义边界。内容结构就是分块指令。

误区三:512 token 是最佳分块大小

没有放之四海而皆准的最佳值。事实类查询(日期、名称、数字)在 256-512 token 的小块中检索效果好,但需要推理和上下文的分析类查询在 1024+ token 的大块中表现更优。NVIDIA 的基准测试在金融数据集上 1024 token 最优(0.579),在收益报告数据集上 512 token 最优(0.681)。正确做法:根据内容类型和目标查询匹配块大小,而不是盲目套用一个数字。

实操清单

如果你是 CMO / 决策层

  • 将 "AI 可提取性" 纳入内容质量标准:要求内容团队在发布前做一次 "分块自检"——把文章按 500 字切一刀,看每一段能不能独立回答一个问题。如果不能,结构需要重写。
  • 投资内容结构化改造:老内容库中大量 "流水账式" 长文是 AI 时代的负资产。优先改造高商业价值页面的标题层级和段落自包含性。

如果你是 SEO / 技术执行层

  • 审计现有内容的结构标记:检查 H2/H3 标题是否清晰定义了每个段落的主题,是否存在超过 800 字无标题分隔的段落。
  • 消灭悬空引用:全站搜索 "如上所述""前文提到""正如我们讨论的" 等跨段落引用词,替换为完整重述。
  • 在关键页面部署 llms.txt:为 AI 检索系统提供你网站最重要内容的结构化入口,减少分块过程中的信息损耗。
  • 用语义 HTML 而非纯视觉排版:确保列表用 <ul>/<ol> 而非换行符,表格用 <table> 而非截图,标题用 <h2>/<h3> 而非加粗文字。这些标记是分块系统识别边界的硬信号。

如果你是内容团队

  • 采用 "模块化自包含" 写法:每个 H2 段落想象成一张独立卡片。它应该有自己的主题句、论据和结论,不依赖前后文也能说清一件事。
  • 关键实体每段重复:品牌名、产品名、核心术语不要用代词替代。"Google AI Overviews" 写十遍也不嫌多,但 "它" 在脱离上下文后就是语义黑洞。
  • 数据与观点同框:不要把支撑数据和结论分散在不同章节。每个主张和它的证据应该在 300 字以内的范围中完成闭环。

相关术语

参考来源

  1. NVIDIA, "Finding the Best Chunking Strategy for Accurate AI Responses," NVIDIA Technical Blog, 2024 年. 链接
  2. Adnan Masood, "Chunking Strategies for Retrieval-Augmented Generation (RAG): A Comprehensive Guide," Medium. 链接
  3. "Comparative Evaluation of Advanced Chunking for Retrieval-Augmented Generation in Large Language Models for Clinical Decision Support," PMC, 2025 年. 链接
  4. "Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation," arXiv, 2025 年. 链接
  5. Pinecone, "Chunking Strategies for LLM Applications." 链接
  6. Search Engine Land, "Use content chunking to structure information for better UX, rankings, and AI visibility." 链接
  7. Technology.org, "Google Warns Against AI Content Chunking for SEO," 2026 年 1 月. 链接
  8. Firecrawl, "Best Chunking Strategies for RAG in 2025." 链接

在AI里面继续讨论: