谷歌发布了机器人排除协议规范的草案www 土豆-顶级复刻表

谷歌今天早上宣布，他们已经向互联网工程任务小组发布了一份征求意见的公告，要求正式制定机器人排除协议规范。

公告。谷歌在其博客上写道:“我们与协议的原作者、网站管理员和其他搜索引擎一起，记录了REP在现代web上是如何使用的，并将其提交给IETF。提案草案反映了20多年来依赖robots.txt规则的现实世界经验，包括Googlebot和其他主要爬虫，以及大约5亿个依赖于众议员的网站。

没有什么改变。我问谷歌的加里·伊利耶斯(Gary Illyes)，是否有什么变化，他说:“没有，什么都没有。”伊利耶斯也参与了此次宣布。

那么，为什么要这样做呢?由于Robots排除协议从来没有成为正式的标准，因此没有官方或权威的指南来保持它的最新，或确保必须遵循特定的语法。每个主要的搜索引擎都采用robots.txt作为爬行指令，但它甚至还不是一个官方标准。这种情况将会改变。

谷歌开放其robots.txt解析器的源代码。与此同时，谷歌宣布他们将开源其robots.txt的部分来解析robots.txt文件。谷歌说:“我们开放了c++库，我们的生产系统使用这些库来解析和匹配robots.txt文件中的规则。”如果你喜欢，你现在可以在Github上看到这个图书馆。

为什么我们关心。今天没有什么特别的变化，但是随着这个变化使它成为一个正式的标准，它为事情的变化打开了机会。请记住，在没有正式标准的情况下，互联网已经使用这个标准25年了。因此，还不清楚未来会或可能发生什么变化。但是现在，如果您正在构建自己的爬虫程序，您可以使用谷歌的robots.txt解析器来帮助您。