Linus
Linus

原文发布于

2026年02月26日

/

最新更新于

2026年02月26日

/

阅读

1
0

术语: llms.txt — 大模型文本导览文件

放在网站根目录的 Markdown 文件,用精选链接引导 AI 模型优先理解你最重要的内容。

关键数据点:截至 2025 年 10 月,全球已有超过 84 万个网站部署了 llms.txt 文件,但主流 AI 爬虫(GPTbot、ClaudeBot、Google-Extended)尚未公开承认会读取它。(来源:BuiltWith / llms-txt.io

2026 趋势信号:AI Agent(智能体)正在成为网页内容的主要消费者之一,llms.txt 从 "可选实验" 演变为 "AI 可见性基础设施"——不部署不会扣分,但部署了等于多一张入场券。

谁需要关注:技术文档负责人 / SEO 工程师 / 产品营销经理 / 内容策略师

这个概念从哪来

2024 年 9 月,fast.ai 创始人、Answer.AI CEO Jeremy Howard 发布了 llms.txt 规范提案。核心洞察很简单:现有的网页对 AI 来说太 "吵" 了——导航栏、侧边栏、广告、JavaScript 渲染内容……大模型需要一个干净的入口。

这个想法并非凭空出现。网站与爬虫之间的 "对话协议" 已经演化了三十年:

  • 1994 年:robots.txt 诞生——告诉爬虫 "别碰哪些页面"。
  • 2005 年:sitemap.xml 由 Google 牵头推出——告诉搜索引擎 "我有哪些页面"。
  • 2024 年:llms.txt 出现——告诉 AI 模型 "先看这些最重要的页面"。

三者的关系不是替代,而是互补。robots.txt 管禁止,sitemap.xml 管发现,llms.txt 管策展。一个说 "不准进",一个说 "这里有路",一个说 "这条路最值得走"。

规范发布后,社区反响两极分化。支持者认为它填补了 AI 时代的标准空白;质疑者指出,没有任何 LLM 公司正式承诺会读取这个文件。截至 2026 年初,OpenAI、Google、Anthropic 都没有在官方文档中将 llms.txt 列为爬虫参考标准。但有意思的是——Anthropic 自己的文档站已经部署了 llms.txt

它到底怎么运作

llms.txt 的核心设计哲学是:用 Markdown 而不是 XML,因为读者是 AI 而不是解析器

文件格式与放置规则

文件放在网站根目录 /llms.txt,格式为纯 Markdown,结构如下:

# 网站名称(H1 标题,必填)

> 一段简短描述,说明这个网站/产品是做什么的(可选)

更多背景介绍段落(可选)

## 文档分类一(H2 标题)

- [页面名称](https://example.com/page1): 简要说明
- [页面名称](https://example.com/page2): 简要说明

## Optional(特殊关键词,表示以下内容可跳过)

- [次要页面](https://example.com/page3): 非核心内容

几个关键细节:

  • H1 标题是唯一必填项,其余都是可选。
  • 链接列表用标准 Markdown 语法:[名称](URL): 说明
  • 名为 Optional 的 H2 区块有特殊含义——AI 在上下文窗口紧张时可以跳过这部分。
  • 链接指向的目标页面建议提供 .md 版本(纯 Markdown),方便 AI 直接消化。

扩展文件

除了基础的 /llms.txt,实践中还衍生出几种变体:

  • llms-full.txt:把所有核心文档内容直接打包在一个文件里,省去 AI 逐页抓取的步骤。Vercel 的 llms-full.txt 据报道超过 40 万字。
  • 分产品的 llms.txt:像 Cloudflare 这样产品线庞大的公司,为每个服务(AI Gateway、Workers、R2)分别维护独立的导览文件。
  • 子路径 llms.txt:规范允许在子目录放置 llms.txt,例如 /docs/llms.txt 只覆盖文档区。

AI 爬虫如何读取

目前的现实是:没有公开证据表明主流 AI 爬虫会主动检查 /llms.txt。llms-txt.io 的监测数据显示,2025 年 8-10 月期间,GPTbot、ClaudeBot、PerplexityBot、Google-Extended 均未访问过其 llms.txt 页面。

但这不代表它没有价值。llms.txt 的实际受益场景包括:

  • 开发者在 AI 编程助手(如 Cursor、Windsurf)中手动加载 llms.txt 作为项目上下文。
  • RAG(检索增强生成,Retrieval-Augmented Generation)系统用 llms.txt 做文档索引的起点。
  • AI Agent 在执行任务时,把 llms.txt 当作网站的 "目录页" 来导航。

翼果观察:谁部署了,谁没有?

我们扫描了 20 个头部科技网站的 llms.txt 部署情况(2026 年 2 月):

已部署:Anthropic(docs.anthropic.com)、Vercel、Stripe、Supabase、Cloudflare、Zapier、Coinbase、ElevenLabs、GitBook、Mintlify
未部署:Google、Apple、Amazon、Meta、Microsoft、OpenAI(openai.com)、百度、阿里云、腾讯云、华为云

规律很明显——开发者工具和 API 平台是 llms.txt 的主要采用者,因为它们的用户(开发者)本身就是 AI 编程工具的重度使用者。而传统科技巨头和中国云厂商几乎全部缺席。对中国企业来说,这可能是一个差异化窗口:当竞争对手都没做的时候,你先做了,就多了一个被 AI 引用的机会。

robots.txt vs sitemap.xml vs llms.txt 对比

维度 robots.txt sitemap.xml llms.txt
诞生年份 1994 2005 2024
核心功能 告诉爬虫哪些页面不要抓取 告诉搜索引擎网站所有可索引页面 告诉 AI 模型哪些页面最值得优先阅读
逻辑本质 排除(Exclusion) 发现(Discovery) 策展(Curation)
文件格式 纯文本(自定义语法) XML Markdown
放置位置 /robots.txt 任意位置(在 robots.txt 中声明) /llms.txt
目标读者 搜索引擎爬虫 搜索引擎爬虫 大语言模型 / AI Agent
是否为行业标准 是(RFC 9309,2022 正式标准化) 是(sitemaps.org 协议) 否(社区提案,无正式标准)
主流平台支持 所有搜索引擎遵守 所有搜索引擎支持 暂无 AI 公司官方承认
内容量 通常 10-50 行 可达数万条 URL 通常 20-200 行精选链接
不部署的后果 所有页面默认可抓取 搜索引擎靠链接自行发现 目前无直接负面影响

常见误区

误区一:有了 llms.txt,AI 就一定会优先抓取我的网站

实际情况:截至 2026 年初,没有任何 LLM 公司公开表示其爬虫会读取 llms.txt。这个文件目前更像是给 AI 开发工具和 RAG 系统用的 "索引",而不是搜索引擎意义上的排名信号。部署它是一种前瞻性布局,不是立竿见影的流量杠杆。

误区二:llms.txt 可以替代 robots.txt 来控制 AI 抓取

实际情况:llms.txt 只做 "推荐",不做 "禁止"。如果你想阻止 AI 爬虫抓取某些内容,仍然需要在 robots.txt 中设置 User-agent: GPTBot 等规则。llms.txt 没有任何访问控制能力。

误区三:把 sitemap.xml 里的 URL 全复制到 llms.txt 就行了

实际情况:这恰恰违背了 llms.txt 的设计初衷。sitemap.xml 追求完整性,llms.txt 追求精选。一个好的 llms.txt 应该只包含 10-30 个最能代表你网站核心价值的页面链接,附上清晰的分类和说明。把几千个 URL 塞进去,反而会稀释 AI 的注意力。

实操清单

如果你是 CMO / 决策层

  • 将 llms.txt 纳入 "AI 可见性" 基础设施规划:不需要大投入,但应该作为技术 SEO 路线图的一个标准项。成本极低(一个文件),潜在收益是抢占 AI 内容索引的先机。
  • 关注 AI 爬虫对 llms.txt 的态度变化:一旦 OpenAI 或 Google 宣布 GPTbot / Google-Extended 开始读取 llms.txt,它会迅速从 "可选" 变成 "必须"。提前准备好比临时抱佛脚强。

如果你是 SEO 执行层

  • 创建 /llms.txt 文件:按规范写好 H1 标题 + 简介 + 分类链接列表。优先收录产品核心页面、API 文档、常见问题解答、定价页面。
  • 为关键页面生成 .md 版本:llms.txt 链接指向的页面如果能提供纯 Markdown 版本(去掉导航、广告、脚本),AI 的消化效率会高得多。
  • 考虑生成 llms-full.txt:如果你的核心文档总量在 5 万字以内,可以把所有内容打包成一个 llms-full.txt。这对 AI 编程助手和 RAG 系统特别友好。
  • 在 robots.txt 中不要屏蔽 /llms.txt:确保你的 robots.txt 没有 Disallow 这个路径,否则即使将来 AI 爬虫支持了也读不到。

如果你是内容团队

  • 参与 llms.txt 的内容策展:决定哪些页面值得被 AI 优先阅读,本质上是一次内容优先级的审视。这个过程会帮你理清 "我们网站最重要的 20 个页面到底是哪些"。
  • 为每个链接写好描述语:llms.txt 中每条链接后面的说明文字很关键。用一句话讲清楚这个页面 "解决什么问题" 或 "包含什么信息",帮助 AI 判断何时该引用它。
  • 保持 llms.txt 与网站内容同步更新:页面重大改版、新产品上线、旧页面下线时,同步更新 llms.txt。一个链接指向 404 的 llms.txt 比没有还糟糕。

相关术语

参考来源

  1. Jeremy Howard, "The /llms.txt file," llmstxt.org, 2024 年 9 月. 链接
  2. AnswerDotAI, "llms-txt," GitHub. 链接
  3. "Is llms.txt Dead? The Current State of Adoption in 2025," llms-txt.io. 链接
  4. "7 Top Companies Using llms.txt: Real-World Implementation Examples," llms-txt.io. 链接
  5. "What Is LLMs.txt & Should You Use It?" Semrush. 链接
  6. "llms.txt vs robots.txt vs sitemap.xml — What's the Difference?" llmstxtgenerator.org. 链接
  7. "llms.txt isn't robots.txt: It's a treasure map for AI," Search Engine Land. 链接
  8. "What is llms.txt? Breaking down the skepticism," Mintlify. 链接

在AI里面继续讨论: