天才培训系统robots.txt的终极指南-顶级复刻表

什么是robots.txt文件?

爬的指令

txt文件是许多爬行指令中的一个。我们都有关于它们的指南，你可以在这里找到。

txt文件是由搜索引擎爬行器读取的文本文件，它遵循严格的语法。这些爬行器也被称为robots(因此得名)，文件的语法是严格的，因为它必须是计算机可读的。这意味着这里没有误差的空间，要么是1，要么是0。

txt文件也被称为“Robots .txt排除协议”，是早期搜索引擎爬行器开发人员一致同意的结果。它不是由任何标准组织制定的官方标准，但所有主要的搜索引擎都遵守它。

txt文件是做什么的?

humans.txt

曾几何时，一些开发人员坐下来决定，既然web应该是为人类设计的，既然机器人在网站上有一个文件，那么构建它的人也应该有一个。所以他们创造了humans.txt标准，让人们知道谁在网站上工作。

搜索引擎通过搜寻网页、跟踪从站点A到站点B到站点C的链接来建立web索引，以此类推。在搜索引擎搜索到它以前没有遇到过的域上的任何页面之前，它将打开该域的robots.txt文件，该文件告诉搜索引擎允许对该站点的哪些url进行索引。

搜索引擎通常缓存机器人的内容。txt，但通常一天刷新几次，因此更改将相当快地反映出来。

我应该把我的robots.txt文件放在哪里?

txt文件应该始终位于域的根目录。因此，如果你的域名是www.example.com，它应该在https://www.example.com/robots.txt找到。

同样重要的是，您的robots.txt文件实际上被称为robots.txt。名称是区分大小写的，所以要正确处理，否则就不能工作。

使用robots.txt的利弊

优点:管理爬行预算

一般认为，搜索爬行器到达一个网站时，对它将要爬行的页面数量有一个预先确定的“预留”(或者，根据站点的权威/规模/声誉，它将花费多少资源/时间)，SEOs称之为爬行预算。这意味着，如果您阻止您的站点部分从搜索引擎爬行器，您可以允许您的爬行预算用于其他部分。

有时候，阻止搜索引擎爬行你的网站有问题的部分是非常有益的，特别是在网站上，需要做大量的SEO清理。一旦你把东西整理好，你就可以把它们放回去了。

关于阻塞查询参数的说明

爬行预算特别重要的一种情况是，站点使用大量查询字符串参数进行筛选和排序。假设您有10个不同的查询参数，每个参数都具有可以任意组合使用的不同值。这将导致成百上千个可能的url。阻止所有的查询参数被抓取将有助于确保搜索引擎只抓取你的站点的主要url，而不会进入巨大的陷阱，否则你会创建。

这一行阻塞所有url在您的网站上包含一个查询字符串:

不允许:/ * ? *

缺点:不从搜索结果中删除一个页面

即使你可以使用robots.txt文件来告诉爬行器它不能去你的网站上的什么地方，你也不能用它来告诉搜索引擎哪些url不能显示在搜索结果中——换句话说，阻止它并不会阻止它被编入索引。如果搜索引擎找到足够多的链接到那个URL，它就会包含它，只是不知道那个页面上有什么。所以你的结果是这样的:

如果你想要可靠地阻止一个页面出现在搜索结果中，你需要使用meta robots noindex标签。这意味着，为了找到noindex标签，搜索引擎必须能够访问该页面，所以不要用robots.txt阻止它。

Noindex指令

以前可以在你的机器人中添加“noindex”指令。txt，以删除网址从谷歌的搜索结果，并避免这些“片段”显示。这已经不再被支持(在技术上，从来没有被支持过)。

弊:不传播链接价值

如果一个搜索引擎不能抓取一个页面，它就不能在该页面上的链接之间传播链接值。当页面被机器人阻塞时。txt，这是死胡同。任何可能流经该页面的链接值都将丢失。

robots . txt的语法

WordPress robots . txt

我们有一篇完整的文章介绍如何在WordPress上最好地设置robots.txt。不要忘记你可以在Yoast SEO Tools→文件编辑器一节编辑你网站的robots.txt文件。

txt文件由一个或多个指令块组成，每个指令块以user-agent行开始。“user-agent”是它所地址的特定爬行器的名称。您可以为所有搜索引擎使用一个块(使用通配符用于用户代理)，或者为特定搜索引擎使用特定块。