谷歌今天早上宣布,他们已经向互联网工程任务小组发布了一份征求意见的公告,要求正式制定机器人排除协议规范。
公告。谷歌在其博客上写道:“我们与协议的原作者、网站管理员和其他搜索引擎一起,记录了REP在现代web上是如何使用的,并将其提交给IETF。提案草案反映了20多年来依赖robots.txt规则的现实世界经验,包括Googlebot和其他主要爬虫,以及大约5亿个依赖于众议员的网站。
没有什么改变。我问谷歌的加里·伊利耶斯(Gary Illyes),是否有什么变化,他说:“没有,什么都没有。”伊利耶斯也参与了此次宣布。
那么,为什么要这样做呢?由于Robots排除协议从来没有成为正式的标准,因此没有官方或权威的指南来保持它的最新,或确保必须遵循特定的语法。每个主要的搜索引擎都采用robots.txt作为爬行指令,但它甚至还不是一个官方标准。这种情况将会改变。
谷歌开放其robots.txt解析器的源代码。与此同时,谷歌宣布他们将开源其robots.txt的部分来解析robots.txt文件。谷歌说:“我们开放了c++库,我们的生产系统使用这些库来解析和匹配robots.txt文件中的规则。”如果你喜欢,你现在可以在Github上看到这个图书馆。
为什么我们关心。今天没有什么特别的变化,但是随着这个变化使它成为一个正式的标准,它为事情的变化打开了机会。请记住,在没有正式标准的情况下,互联网已经使用这个标准25年了。因此,还不清楚未来会或可能发生什么变化。但是现在,如果您正在构建自己的爬虫程序,您可以使用谷歌的robots.txt解析器来帮助您。