将长文档拆分为离散的文本片段(chunk),分别向量化后存入数据库,供 AI 检索系统按需提取的内容处理机制。
关键数据点:NVIDIA 2024 年基准测试显示,页面级分块(page-level chunking)在五个数据集上取得了最高平均准确率 0.648,且标准差最低(0.107);而 2025 年一项临床决策支持研究中,自适应分块的准确率达到 87%,固定长度分块仅为 13%。(来源:NVIDIA Technical Blog / PMC)
2026 趋势信号:RAG(检索增强生成)已成为 AI 搜索的底层架构标配。你的内容能不能被 AI 准确引用,取决于它被 "切碎" 后每一块是否还能独立讲清一件事。分块质量正在从技术细节变成内容可见性的生死线。
谁需要关注:SEO 负责人 / 内容策略总监 / 技术架构师 / CMO
这个概念从哪来
在传统搜索引擎的年代,Google 爬虫抓取一个网页,基本上是把整页内容当作一个单元来理解和索引。你写了一篇 5000 字的文章,搜索引擎看的是 "这整篇文章跟某个查询有多相关"。这个逻辑延续了二十年,直到 2020 年 Google 推出 Passage Ranking(段落级排名),事情开始变了——搜索引擎不再只看整页,而是会挑出页面中某个特定段落来回答用户的问题。
但真正让 "分块" 从搜索技术的小优化变成内容基础设施的,是 RAG 架构的爆发。2024-2025 年,Perplexity、Google AI Overviews、ChatGPT 搜索等 AI 搜索产品全面铺开,它们背后的检索系统都依赖同一套流程:把互联网上的文档切成几百个离散的文本块,每一块转化为向量(embedding),存进向量数据库,用户提问时通过语义相似度匹配找到最相关的那几个块,再交给大模型生成回答。
这意味着一个根本性的转变:AI 搜索引擎从来不会 "阅读" 你的整篇文章。它读到的是你文章的碎片。如果碎片质量差——断句在关键信息中间、缺乏上下文、实体指代不明——AI 要么引用不了你,要么引用错了。
它到底怎么运作
理解分块,先要理解 RAG 检索的完整链路。整个过程可以拆成三步:
第一步:文档被切碎。 系统把你的网页内容按某种策略拆分成多个 chunk。每个 chunk 通常在 256-1024 个 token 之间(大约 200-800 个中文字)。切法不同,效果天差地别。
第二步:每块变成向量。 每个 chunk 通过嵌入模型(embedding model)转化为一组高维数字——这就是 "向量"。语义相近的文本块在向量空间里距离更近。这些向量被存入 Pinecone、Weaviate、Milvus 等向量数据库。
第三步:用户提问,检索匹配。 用户的问题同样被转化为向量,系统在数据库里找到最相似的几个 chunk(通常 3-10 个),把它们作为上下文塞给大模型,由 LLM 综合这些碎片生成回答,并可能标注引用来源。
主流分块策略对比
| 策略 | 原理 | 适用场景 | 准确率参考 |
|---|---|---|---|
| 固定长度分块 | 按固定 token 数切割,不管语义边界 | 快速原型、简单文档 | 基线水平(13-50%) |
| 递归字符分割 | 按段落→句子→字符层级递归切割 | 通用场景,性价比最高 | ~69%(512 token) |
| 语义分块 | 用嵌入模型检测语义断点再切割 | 多主题长文档 | ~54%(计算成本高) |
| 页面级分块 | 以 PDF 页面为自然边界 | 报告、财务文件 | ~65%(NVIDIA 基准) |
| 自适应分块 | 对齐章节和句子边界,动态窗口 | 结构化文档 | ~87%(临床研究) |
一个反直觉的发现:2025 年 NAACL 会议的一篇论文指出,在某些任务上,固定 200 词的分块效果并不比复杂的语义分块差。原因是语义分块的计算开销(需要为每句话生成嵌入并计算相似度)并不总能换来稳定的性能提升。这说明分块没有万能公式,关键是匹配你的文档类型和检索需求。
对内容创作者意味着什么
你无法控制 AI 系统用哪种分块策略处理你的内容。但你可以控制的是:让你的内容在任何切法下都不会丢失核心信息。具体来说:
- 每个 H2/H3 段落自成一体:一个章节被单独提取出来时,读者(或 AI)不需要翻看上下文就能理解它在说什么。避免 "如上所述""正如前文提到的" 这类跨段落引用。
- 实体名称完整重复:不要在第一次提到 "Google AI Overviews" 后就简称 "该功能"。每个潜在的 chunk 都应该包含完整的实体名称,因为 AI 检索到的可能只有这一个块。
- 关键数据与结论紧密绑定:不要在第三段给数据、第七段给结论。数据和它支撑的观点应该在同一个段落或相邻段落内,确保被切到同一个 chunk 里。
- 结构化标记是硬需求:清晰的 H2/H3 标题、加粗的实体名称、项目符号列表、数据表格——这些不只是排版美观,它们是分块系统识别主题边界的信号。
翼果观察(2026 年 3 月):一次 "分块模拟" 实验
我们选取了 10 篇中文 SEO 行业文章(平均 3000 字),用 LangChain 的 RecursiveCharacterTextSplitter 按 512 token 切割,然后人工检查每个 chunk 的信息完整度。结果:
- 无明确 H2/H3 结构的文章:平均 38% 的 chunk 出现 "语义断裂"——关键概念被切成两半,或数据与结论分属不同块。
- 有严格标题层级 + 段落自包含的文章:语义断裂率降到 12%。
- 最大问题:中文文章普遍喜欢用 "因此""由此可见" 做段落衔接,这类连接词在分块后变成了悬空引用——AI 看到 "因此",却找不到 "因" 是什么。
结论:为 AI 可读性写作,本质上是在为 "断章取义" 做防御性设计。每个段落都要假设它会被单独提取、脱离上下文呈现给用户。
常见误区
误区一:把内容切得越碎越好,AI 更容易消化
恰恰相反。2026 年 1 月,Google Search Liaison Danny Sullivan 在播客中直接表示:"把内容切成小碎片,因为 LLM 喜欢小碎片?我们不希望你这么做。"(Technology.org)Google 的语言模型是为理解自然人类表达而设计的,不是为人工碎片化文本设计的。正确做法:不要刻意缩短段落,而是确保每个自然段落在被切割时仍能独立成意。
误区二:分块只是后端技术问题,跟内容创作无关
内容的结构直接决定了分块的质量。如果你的文章没有清晰的标题层级,一个 3000 字的长段落会被机械地从中间切断。分块系统依赖 Markdown 标题(H2/H3)、列表、表格等结构标记来识别语义边界。内容结构就是分块指令。
误区三:512 token 是最佳分块大小
没有放之四海而皆准的最佳值。事实类查询(日期、名称、数字)在 256-512 token 的小块中检索效果好,但需要推理和上下文的分析类查询在 1024+ token 的大块中表现更优。NVIDIA 的基准测试在金融数据集上 1024 token 最优(0.579),在收益报告数据集上 512 token 最优(0.681)。正确做法:根据内容类型和目标查询匹配块大小,而不是盲目套用一个数字。
实操清单
如果你是 CMO / 决策层
- 将 "AI 可提取性" 纳入内容质量标准:要求内容团队在发布前做一次 "分块自检"——把文章按 500 字切一刀,看每一段能不能独立回答一个问题。如果不能,结构需要重写。
- 投资内容结构化改造:老内容库中大量 "流水账式" 长文是 AI 时代的负资产。优先改造高商业价值页面的标题层级和段落自包含性。
如果你是 SEO / 技术执行层
- 审计现有内容的结构标记:检查 H2/H3 标题是否清晰定义了每个段落的主题,是否存在超过 800 字无标题分隔的段落。
- 消灭悬空引用:全站搜索 "如上所述""前文提到""正如我们讨论的" 等跨段落引用词,替换为完整重述。
- 在关键页面部署 llms.txt:为 AI 检索系统提供你网站最重要内容的结构化入口,减少分块过程中的信息损耗。
- 用语义 HTML 而非纯视觉排版:确保列表用
<ul>/<ol>而非换行符,表格用<table>而非截图,标题用<h2>/<h3>而非加粗文字。这些标记是分块系统识别边界的硬信号。
如果你是内容团队
- 采用 "模块化自包含" 写法:每个 H2 段落想象成一张独立卡片。它应该有自己的主题句、论据和结论,不依赖前后文也能说清一件事。
- 关键实体每段重复:品牌名、产品名、核心术语不要用代词替代。"Google AI Overviews" 写十遍也不嫌多,但 "它" 在脱离上下文后就是语义黑洞。
- 数据与观点同框:不要把支撑数据和结论分散在不同章节。每个主张和它的证据应该在 300 字以内的范围中完成闭环。
相关术语
- Information Gain(信息增益):分块质量影响信息增益的传递效率——如果你的独家数据被切断在两个 chunk 之间,增益信息就无法被 AI 完整提取。
- llms.txt(大模型导览文件):分块的 "上游防线"——通过 llms.txt 引导 AI 优先读取结构最好的页面,减少低质量分块的概率。
- Fan-out Queries(扇出查询):AI 搜索引擎将问题拆成子查询时,每个子查询独立检索 chunk——模块化内容更容易被多个子查询同时命中。
- GEO(生成式引擎优化):分块友好的内容结构是 GEO 技术栈的基础层——没有好的分块,就没有好的 AI 引用。
- LLM Perception Drift(大模型认知偏移):低质量分块导致 AI 提取到残缺信息,可能加剧模型对品牌的认知偏差。
参考来源
- NVIDIA, "Finding the Best Chunking Strategy for Accurate AI Responses," NVIDIA Technical Blog, 2024 年. 链接
- Adnan Masood, "Chunking Strategies for Retrieval-Augmented Generation (RAG): A Comprehensive Guide," Medium. 链接
- "Comparative Evaluation of Advanced Chunking for Retrieval-Augmented Generation in Large Language Models for Clinical Decision Support," PMC, 2025 年. 链接
- "Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation," arXiv, 2025 年. 链接
- Pinecone, "Chunking Strategies for LLM Applications." 链接
- Search Engine Land, "Use content chunking to structure information for better UX, rankings, and AI visibility." 链接
- Technology.org, "Google Warns Against AI Content Chunking for SEO," 2026 年 1 月. 链接
- Firecrawl, "Best Chunking Strategies for RAG in 2025." 链接