LLMs.txt:大模型时代的robots.txt或Sitemap?

Linus
Linus

原文发布于

2025年03月24日

/

最新更新于

2025年03月24日

/

阅读

44
0

随着大语言模型(简称 LLM)的普及,我们获取和使用网络信息的方式正在发生变化。这些人工智能模型能够完成许多复杂的任务,比如写代码、协助研究或回答问题,而它们的工作离不开网络上的海量信息。未来,LLM 可能会成为我们与网站内容互动的主要工具,这意味着网站需要调整自己,让这些模型更容易理解和使用信息。在这样的背景下,一种新的网站标准——LLMs.txt——应运而生。

这个标准的目标很简单:通过提供清晰、简洁的内容,帮助 LLM 更快、更准地获取网站的关键信息。它有点像过去为搜索引擎设计的 robots.txt 或站点地图,但这次是为 AI 量身定制的。

LLMs.txt 不是要取代现有标准,而是跟它们互补。比如,robots.txt 告诉爬虫哪些地方不能去,sitemap.xml 列出所有页面给搜索引擎用。而 LLMs.txt 是专为 LLM 设计的,它直接提供关键内容,解决 AI 的独特需求。

功能

LLMs.txt

robots.txt

sitemap.xml

目标

优化内容给 LLM 用

控制爬虫访问

列出页面给搜索引擎

对象

AI 模型

搜索引擎爬虫

搜索引擎

格式

Markdown

纯文本

XML

内容

关键信息和链接

访问规则

页面列表

简单来说,LLMs.txt 是为 AI 量身打造的助手,其他标准则服务于不同的目的。

LLMs.txt 的目标和用途

大模型虽然强大,但在处理网站信息时会遇到一些困难。最大的问题之一是它们的“上下文窗口”有限,通常只能处理几千个字符。这意味着,如果一个网页充满了 HTML 代码、导航菜单、广告等杂乱内容,LLM 很难快速抓住重点。HTML 本身是一种为人类设计的格式,对机器来说并不友好,里面夹杂着大量与核心内容无关的元素,比如脚本和样式。这些冗余信息会占用 LLM 的处理空间,导致它们效率降低,甚至误解内容。

LLMs.txt 最早由 Jeremy Howard(Answer.AI 的联合创始人 ) 在 https://llmstxt.org/ 提出,他的初衷是解决 LLM 在处理大型网站时的难题。核心目标是让网站内容对 AI 更友好,同时保持人类也能轻松理解。具体来说,LLMs.txt 通过提供一个简洁的内容概要,帮助 LLM 快速掌握网站的重点。它就像一座桥梁,连接了人类编写的内容和机器需要的数据。

Today @answerdotai is proposing `/llms.txt`. This is a file you can use to tell models where to find LLM-friendly content for your website.

It provides background information, along with links to markdown files providing more detailed information.https://t.co/ffMC1hiGXA

— Jeremy Howard (@jeremyphoward) September 3, 2024

 

LLMs.txt 就是为了解决这个问题而设计的,它最早由 Jeremy Howard 提出,他的初衷是解决 LLM 在处理大型网站时的难题。它用一种结构化的方式,把网站最重要的信息整理出来,让 LLM 能一眼看明白。比如,它可以告诉 LLM 哪些页面是核心内容,哪些可以忽略。这样,LLM 就不用费力去分析整个网页,而是直接获取关键信息,提高工作效率。可以把 LLMs.txt 想象成一个向导,专门为 AI 指引方向,让它少走弯路。

LLMs.txt 的格式和规则

为了让 LLM 能顺利读取,LLMs.txt 采用了一种简单但有固定结构的格式。它基于 Markdown 语言,通常放在网站的根目录下(比如 /LLMs.txt)。一个标准的 LLMs.txt 文件包含以下几个部分:

  • 标题(H1):文件开头必须用一级标题写上网站或项目的名字,这是唯一必填项。

  • 摘要:紧接着是一个用 > 符号标记的简短介绍,说明网站的主要内容。

  • 补充信息(可选):可以加一些额外的说明,但不能用标题,保持内容简洁。

  • 文件列表(H2):用二级标题分隔出不同部分,每个部分是一个列表,列出相关网页的链接。每个链接格式是 [名称](URL),后面可以用冒号: 加一段描述。

举个例子,一个简单的 LLMs.txt 可能长这样:

# 我的博客
> 这是一个分享编程知识的个人博客,主要内容包括Python教程和AI应用。

- [Python基础](https://myblog.com/python) : 介绍Python的基本语法。
- [AI入门](https://myblog.com/ai) : 讲解AI的基本概念。

这种格式既直观又规范,LLM 可以轻松解析其中的信息。如果有些内容不那么重要,还可以用一个叫“Optional”的二级标题,把次要链接放在下面,告诉 LLM 在必要时可以跳过。

虽然 LLMs.txt 还是个新标准,但已经有不少网站和平台开始尝试使用。比如,Mintlify(一个文档托管服务)支持了 LLMs.txt 格式,Anthropic(一家 AI 研究公司)也在官网上加了这个文件。Stripe(支付平台)把它的开发者文档整理成了 LLMs.txt,方便 AI 读取。另一个例子是 FastHTML 项目,它自动把所有文档转为 Markdown 格式,支持了 LLMs.txt。甚至还有社区建了一个目录(directory.llmstxt.cloud),专门收集用 LLMs.txt 的网站。

这些案例说明,LLMs.txt 正在技术领域逐渐流行起来,尤其是那些需要清晰文档的场景。它的简单性和实用性让更多人看到了它的潜力。

未来会怎样?

随着时间推移,LLMs.txt 可能会变得更完善。未来可能会有更多工具帮助网站创建和验证这个文件,就像今天有工具优化 SEO 一样。如果很多网站都用上它,AI 理解网络内容的方式会彻底改变。网站主可能会更注重内容的结构化,信息检索也会更快、更准。

长远来看,LLMs.txt 可能成为网站的一个标配,就像现在的 SEO 对搜索引擎的重要性一样。它会推动互联网变得更“AI 友好”,让内容的生产和使用都更智能。

对于想让内容更易被 AI 发现的网站主来说,现在开始用 LLMs.txt,是个不错的起点。