放在网站根目录的 Markdown 文件,用精选链接引导 AI 模型优先理解你最重要的内容。
关键数据点:截至 2025 年 10 月,全球已有超过 84 万个网站部署了 llms.txt 文件,但主流 AI 爬虫(GPTbot、ClaudeBot、Google-Extended)尚未公开承认会读取它。(来源:BuiltWith / llms-txt.io)
2026 趋势信号:AI Agent(智能体)正在成为网页内容的主要消费者之一,llms.txt 从 "可选实验" 演变为 "AI 可见性基础设施"——不部署不会扣分,但部署了等于多一张入场券。
谁需要关注:技术文档负责人 / SEO 工程师 / 产品营销经理 / 内容策略师
这个概念从哪来
2024 年 9 月,fast.ai 创始人、Answer.AI CEO Jeremy Howard 发布了 llms.txt 规范提案。核心洞察很简单:现有的网页对 AI 来说太 "吵" 了——导航栏、侧边栏、广告、JavaScript 渲染内容……大模型需要一个干净的入口。
这个想法并非凭空出现。网站与爬虫之间的 "对话协议" 已经演化了三十年:
- 1994 年:robots.txt 诞生——告诉爬虫 "别碰哪些页面"。
- 2005 年:sitemap.xml 由 Google 牵头推出——告诉搜索引擎 "我有哪些页面"。
- 2024 年:llms.txt 出现——告诉 AI 模型 "先看这些最重要的页面"。
三者的关系不是替代,而是互补。robots.txt 管禁止,sitemap.xml 管发现,llms.txt 管策展。一个说 "不准进",一个说 "这里有路",一个说 "这条路最值得走"。
规范发布后,社区反响两极分化。支持者认为它填补了 AI 时代的标准空白;质疑者指出,没有任何 LLM 公司正式承诺会读取这个文件。截至 2026 年初,OpenAI、Google、Anthropic 都没有在官方文档中将 llms.txt 列为爬虫参考标准。但有意思的是——Anthropic 自己的文档站已经部署了 llms.txt。
它到底怎么运作
llms.txt 的核心设计哲学是:用 Markdown 而不是 XML,因为读者是 AI 而不是解析器。
文件格式与放置规则
文件放在网站根目录 /llms.txt,格式为纯 Markdown,结构如下:
# 网站名称(H1 标题,必填)
> 一段简短描述,说明这个网站/产品是做什么的(可选)
更多背景介绍段落(可选)
## 文档分类一(H2 标题)
- [页面名称](https://example.com/page1): 简要说明
- [页面名称](https://example.com/page2): 简要说明
## Optional(特殊关键词,表示以下内容可跳过)
- [次要页面](https://example.com/page3): 非核心内容
几个关键细节:
- H1 标题是唯一必填项,其余都是可选。
- 链接列表用标准 Markdown 语法:
[名称](URL): 说明。 - 名为
Optional的 H2 区块有特殊含义——AI 在上下文窗口紧张时可以跳过这部分。 - 链接指向的目标页面建议提供
.md版本(纯 Markdown),方便 AI 直接消化。
扩展文件
除了基础的 /llms.txt,实践中还衍生出几种变体:
- llms-full.txt:把所有核心文档内容直接打包在一个文件里,省去 AI 逐页抓取的步骤。Vercel 的 llms-full.txt 据报道超过 40 万字。
- 分产品的 llms.txt:像 Cloudflare 这样产品线庞大的公司,为每个服务(AI Gateway、Workers、R2)分别维护独立的导览文件。
- 子路径 llms.txt:规范允许在子目录放置 llms.txt,例如
/docs/llms.txt只覆盖文档区。
AI 爬虫如何读取
目前的现实是:没有公开证据表明主流 AI 爬虫会主动检查 /llms.txt。llms-txt.io 的监测数据显示,2025 年 8-10 月期间,GPTbot、ClaudeBot、PerplexityBot、Google-Extended 均未访问过其 llms.txt 页面。
但这不代表它没有价值。llms.txt 的实际受益场景包括:
- 开发者在 AI 编程助手(如 Cursor、Windsurf)中手动加载 llms.txt 作为项目上下文。
- RAG(检索增强生成,Retrieval-Augmented Generation)系统用 llms.txt 做文档索引的起点。
- AI Agent 在执行任务时,把 llms.txt 当作网站的 "目录页" 来导航。
翼果观察:谁部署了,谁没有?
我们扫描了 20 个头部科技网站的 llms.txt 部署情况(2026 年 2 月):
已部署:Anthropic(docs.anthropic.com)、Vercel、Stripe、Supabase、Cloudflare、Zapier、Coinbase、ElevenLabs、GitBook、Mintlify
未部署:Google、Apple、Amazon、Meta、Microsoft、OpenAI(openai.com)、百度、阿里云、腾讯云、华为云规律很明显——开发者工具和 API 平台是 llms.txt 的主要采用者,因为它们的用户(开发者)本身就是 AI 编程工具的重度使用者。而传统科技巨头和中国云厂商几乎全部缺席。对中国企业来说,这可能是一个差异化窗口:当竞争对手都没做的时候,你先做了,就多了一个被 AI 引用的机会。
robots.txt vs sitemap.xml vs llms.txt 对比
| 维度 | robots.txt | sitemap.xml | llms.txt |
|---|---|---|---|
| 诞生年份 | 1994 | 2005 | 2024 |
| 核心功能 | 告诉爬虫哪些页面不要抓取 | 告诉搜索引擎网站所有可索引页面 | 告诉 AI 模型哪些页面最值得优先阅读 |
| 逻辑本质 | 排除(Exclusion) | 发现(Discovery) | 策展(Curation) |
| 文件格式 | 纯文本(自定义语法) | XML | Markdown |
| 放置位置 | /robots.txt | 任意位置(在 robots.txt 中声明) | /llms.txt |
| 目标读者 | 搜索引擎爬虫 | 搜索引擎爬虫 | 大语言模型 / AI Agent |
| 是否为行业标准 | 是(RFC 9309,2022 正式标准化) | 是(sitemaps.org 协议) | 否(社区提案,无正式标准) |
| 主流平台支持 | 所有搜索引擎遵守 | 所有搜索引擎支持 | 暂无 AI 公司官方承认 |
| 内容量 | 通常 10-50 行 | 可达数万条 URL | 通常 20-200 行精选链接 |
| 不部署的后果 | 所有页面默认可抓取 | 搜索引擎靠链接自行发现 | 目前无直接负面影响 |
常见误区
误区一:有了 llms.txt,AI 就一定会优先抓取我的网站
实际情况:截至 2026 年初,没有任何 LLM 公司公开表示其爬虫会读取 llms.txt。这个文件目前更像是给 AI 开发工具和 RAG 系统用的 "索引",而不是搜索引擎意义上的排名信号。部署它是一种前瞻性布局,不是立竿见影的流量杠杆。
误区二:llms.txt 可以替代 robots.txt 来控制 AI 抓取
实际情况:llms.txt 只做 "推荐",不做 "禁止"。如果你想阻止 AI 爬虫抓取某些内容,仍然需要在 robots.txt 中设置 User-agent: GPTBot 等规则。llms.txt 没有任何访问控制能力。
误区三:把 sitemap.xml 里的 URL 全复制到 llms.txt 就行了
实际情况:这恰恰违背了 llms.txt 的设计初衷。sitemap.xml 追求完整性,llms.txt 追求精选。一个好的 llms.txt 应该只包含 10-30 个最能代表你网站核心价值的页面链接,附上清晰的分类和说明。把几千个 URL 塞进去,反而会稀释 AI 的注意力。
实操清单
如果你是 CMO / 决策层
- 将 llms.txt 纳入 "AI 可见性" 基础设施规划:不需要大投入,但应该作为技术 SEO 路线图的一个标准项。成本极低(一个文件),潜在收益是抢占 AI 内容索引的先机。
- 关注 AI 爬虫对 llms.txt 的态度变化:一旦 OpenAI 或 Google 宣布 GPTbot / Google-Extended 开始读取 llms.txt,它会迅速从 "可选" 变成 "必须"。提前准备好比临时抱佛脚强。
如果你是 SEO 执行层
- 创建 /llms.txt 文件:按规范写好 H1 标题 + 简介 + 分类链接列表。优先收录产品核心页面、API 文档、常见问题解答、定价页面。
- 为关键页面生成 .md 版本:llms.txt 链接指向的页面如果能提供纯 Markdown 版本(去掉导航、广告、脚本),AI 的消化效率会高得多。
- 考虑生成 llms-full.txt:如果你的核心文档总量在 5 万字以内,可以把所有内容打包成一个 llms-full.txt。这对 AI 编程助手和 RAG 系统特别友好。
- 在 robots.txt 中不要屏蔽 /llms.txt:确保你的 robots.txt 没有 Disallow 这个路径,否则即使将来 AI 爬虫支持了也读不到。
如果你是内容团队
- 参与 llms.txt 的内容策展:决定哪些页面值得被 AI 优先阅读,本质上是一次内容优先级的审视。这个过程会帮你理清 "我们网站最重要的 20 个页面到底是哪些"。
- 为每个链接写好描述语:llms.txt 中每条链接后面的说明文字很关键。用一句话讲清楚这个页面 "解决什么问题" 或 "包含什么信息",帮助 AI 判断何时该引用它。
- 保持 llms.txt 与网站内容同步更新:页面重大改版、新产品上线、旧页面下线时,同步更新 llms.txt。一个链接指向 404 的 llms.txt 比没有还糟糕。
相关术语
- GEO(生成式引擎优化):llms.txt 是 GEO 技术栈中的一个组件——通过主动引导 AI 阅读路径来提升品牌在生成式搜索中的可见性。
- AI Visibility(AI 可见性):llms.txt 直接服务的目标——让你的内容更容易被 AI 系统发现、理解和引用。
- LLM Perception Drift(大模型认知偏移):llms.txt 的防御价值之一——通过策展高质量内容入口,降低 AI 对品牌产生误读的概率。
- RAG(检索增强生成):llms.txt 最直接的应用场景——RAG 系统可以用它作为文档索引的起点。
- Structured Data(结构化数据):与 llms.txt 互补的技术手段——Schema 标记帮助搜索引擎理解实体,llms.txt 帮助 AI 模型理解内容优先级。
参考来源
- Jeremy Howard, "The /llms.txt file," llmstxt.org, 2024 年 9 月. 链接
- AnswerDotAI, "llms-txt," GitHub. 链接
- "Is llms.txt Dead? The Current State of Adoption in 2025," llms-txt.io. 链接
- "7 Top Companies Using llms.txt: Real-World Implementation Examples," llms-txt.io. 链接
- "What Is LLMs.txt & Should You Use It?" Semrush. 链接
- "llms.txt vs robots.txt vs sitemap.xml — What's the Difference?" llmstxtgenerator.org. 链接
- "llms.txt isn't robots.txt: It's a treasure map for AI," Search Engine Land. 链接
- "What is llms.txt? Breaking down the skepticism," Mintlify. 链接