停止支持robots.txt中的noindex指令吴越在线网

从9月1日起,谷歌将停止支持机器人独家协议中未支持和未发布的规则,该公司在谷歌网站管理员博客上宣布。这意味着谷歌将不再支持robots.txt文件,文件中列出了noindex指令。

“为了维护一个健康的生态系统,并为未来可能的开源版本做准备,我们将在2019年9月1日退休所有处理不支持和未发布规则(比如noindex)的代码。”对于那些依赖robots.txt文件中控制爬行的noindex索引指令的人来说,还有很多其他选择,”该公司表示。

有什么替代方案?谷歌列出了以下选项,你可能已经使用了无论如何:

(1) robots元标签中的Noindex: HTTP响应头和HTML中都支持Noindex指令,当允许爬行时,Noindex指令是从索引中删除url的最有效方式。

(2) 404和410 HTTP状态码:这两个状态码都表示该页面不存在,当这些url被抓取和处理后,它们将从谷歌的索引中删除。

(3)密码保护:除非使用标记表示订阅或付费内容,否则将页面隐藏在登录后通常会将其从谷歌的索引中删除。

(4)机器人禁止入内。txt:搜索引擎只能索引他们知道的页面,所以阻止页面被抓取通常意味着它的内容不会被索引。虽然搜索引擎可能也会基于其他页面的链接索引URL,而看不到内容本身,但我们的目标是让这些页面在未来不那么显眼。

(5)搜索控制台删除URL工具:该工具是一种从谷歌搜索结果中临时删除URL的快捷简便方法。

成为一个标准。昨天,谷歌宣布,该公司正在努力使机器人排除协议成为一个标准,这可能是即将到来的第一个变化。事实上,昨天谷歌发布了它的robots.txt解析器作为一个开源项目。

为什么谷歌会改变。谷歌多年来一直在寻求改变这一现状,随着协议的标准化,它现在可以向前迈进了。谷歌表示,它“分析了robots.txt规则的使用情况。谷歌主要关注internet草案中不受支持的实现,比如爬行延迟、nofollow和noindex。谷歌表示:“由于这些规则从未被谷歌记录在案,自然,它们在Googlebot上的使用率非常低。”“这些错误损害了网站在谷歌搜索结果中的存在,我们认为这不是网站管理员的本意。”

为什么我们关心。最重要的是确保没有在robots.txt文件中使用noindex指令。如果你是,你需要在9月1日前做出上述建议。另外,看看您是否使用了nofollow或爬行延迟命令,如果是这样,请为这些指令使用真正受支持的方法。

滚动至顶部