理解爬行预算是一个经常被忽视的SEO部分。但是我的团队写了一篇两年前的文章,关于这个话题,在搜索引擎优化行业已经是历史悠久了。因此,在本文中,我将解释在过去几年中我们对爬行预算的理解如何发生了变化,哪些方面保持了不变,以及这些变化对爬行预算优化工作意味着什么。
什么是爬行预算?为什么它很重要?
用来收集网页信息的计算机程序被称为网络蜘蛛、爬虫或机器人。它们可以是恶意的(如黑客蜘蛛),也可以是有益的(如搜索引擎和web服务蜘蛛)。例如,我公司的反向链接索引是用一种叫做BLEXBot的蜘蛛建立的,它每天抓取多达75亿个页面来收集反向链接数据。
当我们讨论抓取预算时,我们实际上是在讨论搜索引擎爬行器抓取web页面的频率。根据谷歌的说法,抓取预算是你的抓取速度限制(例如,保证像Googlebot这样的机器人不会频繁地抓取你的页面而损害你的服务器的限制)和你的抓取需求(例如,谷歌想要抓取多少你的页面)的组合。
优化爬行预算意味着增加爬行器“访问”每个页面、收集信息并将数据发送给负责索引和评估内容质量的其他算法的频率。简单地说,你的抓取预算越好,当你对你的站点进行更改时,你的信息在搜索引擎索引中更新的就越快。
但是别担心。除非你运行的是大型网站(数百万或数十亿的url),否则你可能永远不用担心爬行预算:
IMO爬行预算被高估了。大多数网站都不需要担心这个问题。这是一个有趣的话题,如果你在网络上爬行或者运行一个数十亿url的网站,这很重要,但对一般的网站所有者来说就不那么重要了。
– – – – – – ?约翰?(@JohnMu) 2018年5月30日
那么,为什么要费心进行爬行预算优化呢?因为即使您不需要改进您的爬行预算,这些技巧也包含了许多改善站点整体运行状况的良好实践。
我认为这一切都值得弄清楚。对于一个精简的站点来说,删除25个无用的页面非常好,可以帮助用户避免迷失在其中,但这不是爬行预算的问题。人们这样做只是为了获得SEO奖金吗?我们怎样才能帮助你帮助他们?
– – – – – – ?约翰?(@JohnMu) 2018年5月30日
而且,正如John Mueller在同一篇文章中所解释的那样,拥有一个更精简的站点的潜在好处包括更高的转化率,即使它们不能保证影响页面在serp中的排名。
当然,但是诚实地说出潜在影响的大小是值得的。如果我们每天能从你的站点抓取50k个页面,从1000个页面到900个页面会对爬行有什么影响吗?不完全是,但可能会增加转化率,对吧?
– – – – – – ?约翰?(@JohnMu) 2018年5月30日
什么保持不变?
2018年12月14日,在谷歌网站管理员的聚会上,约翰被问及如何确定他们的爬行预算。他解释说,这很难确定,因为爬行预算不是一个面对外部的衡量标准。
他还说:
“(爬行预算)随着时间的推移会有相当大的变化。我们的算法是非常动态的,它们试图对你在网站上做出的改变做出相当迅速的反应……这不是一次性分配给网站的东西。”
他用几个例子来说明这一点:
如果您做了一些事情,比如不正确地设置CMS,那么可以减少爬行预算。Googlebot可能会注意到你的页面有多慢,并在一两天内放慢爬行速度。
你可以增加你的爬行预算,如果你改进你的网站(通过移动到一个CDN或服务内容更快)。谷歌机器人会注意到,你的爬行需求会上升。
这与我们几年前对爬行预算的了解是一致的。许多优化爬行预算的最佳实践也同样适用于今天:
1. 不要阻塞重要的页面
您需要确保所有重要的页面都可以抓取。如果你的。htaccess和robots.txt阻碍了搜索机器人抓取重要页面的能力,那么内容就不会给你带来任何价值。
相反,您可以使用脚本引导搜索机器人远离不重要的页面。要注意的是,如果你不允许大量的内容,或者一个受限制的页面收到了大量的链接,Googlebot可能会认为你犯了一个错误,它仍然会抓取这些页面。
下面的meta标签在部分你的页面将防止大多数搜索引擎机器人索引你的网站页面:
你也可以阻止特定的谷歌从爬行您的页面与以下meta标签:
或者,您可以返回一个“noindex”X-Robots-Tag头文件,它指示爬行器不要索引您的页面:X-Robots-Tag: noindex
2. 尽可能使用HTML
Googlebot在抓取富媒体文件方面做得更好了