什么是爬行预算?
谷歌的目标是为在网络上搜索的人们提供有用的信息。为了实现这一点,谷歌希望从高质量来源抓取和索引内容。
抓取网页是昂贵的:谷歌每年花费的能源相当于整个旧金山市,仅仅是抓取网站。为了抓取尽可能多的有用页面,机器人必须遵循规划算法,对抓取哪些页面以及何时抓取进行优先排序。谷歌的页面重要性是指有一些可衡量的方法来确定哪些页面需要优先级。
没有为每个站点设置抓取值的索引。相反,可用的爬虫是基于谷歌认为服务器将处理的内容以及它认为用户对页面的兴趣来分布的。
你网站的抓取预算是一种量化谷歌花费多少来抓取的方法,用每天平均页面数来表示。
为什么优化爬行预算?
由于on抓取了数以亿计的页面数据,我们还了解到谷歌抓取页面的频率和它收到的印象数量之间存在着很强的相关性:抓取次数越多的页面在搜索结果中出现的频率越高。
印象次数与抓取频率的关系
这种相关性意味着您可以使用抓取预算优化作为在搜索结果中推广一组页面的策略。如果你的网站有季节性的页面,这些页面可以是基于优化的抓取频率的促销活动的优秀候选人。
为了让这些页面在搜索结果中处于领先地位,你需要在适当的季节将它们推广到谷歌中,超过你网站中其他类型的页面。
通过使用爬行预算优化策略,您可以将谷歌的注意力从其他页面转移到某些页面上,从而增加对网站上季节性页面的印象。
你会想:
优化你的一般爬行预算。
减少重要季节页面的深度使用“集合”链接从类别主页在你的网站结构。
通过从相关页面创建反向链接来增加重要页面的内部人气。
内部“跟踪”链接的数量与爬网频率之间的关系
第一条:监控你的爬行预算
谷歌搜索控制台将为来自所有谷歌机器人的访问提供复合爬网统计值。除了官方的12个机器人之外,在on爬行的时候我们注意到一个新的机器人出现了:谷歌AMP机器人。这些数据包括所有机器人点击的所有url——包括JavaScript、CSS、字体和图像url。由于机器人行为的不同,给出的值是平均值。例如,由于AdSense和移动机器人必须完全呈现每个页面,不像桌面的Googlebot,提供的页面加载时间是全部和部分加载时间之间的平均时间。
这对于SEO分析来说不够精确。
因此,衡量站点爬行预算最可靠的方法是定期检查站点的服务器日志。如果您不熟悉服务器日志,那么其原理很简单:web服务器记录每个活动。这些日志通常用于诊断站点性能问题。
记录的一个活动是对URL的请求。在日志中,此类活动的行将包括有关发出请求的IP地址、URL、日期和时间以及状态代码形式的结果的信息。
这里有一个例子:
www.mywebsite.com:443 66.249.73.156 [15/Aug/2018:00:02:59 +0000] ” GET /news/my-article-URL HTTP/1.1 ” 200 44506 ” Mozilla/5.0(兼容;Googlebot / 2.1;+ http://www.google.com/bot.html)”
通过识别来自搜索谷歌机器人的所有请求,您可以精确地测量给定时间内谷歌机器人命中的数量。这是你的最低预算。
这个数字并不能告诉你谷歌是否给予了你的网站足够的关注。具有日志监视功能的SEO爬网程序(如on爬行)提供了额外的指标来诊断爬网预算的运行状况。
由于爬行预算允许对新的和更新的页面进行索引,因此快速解决问题和突然更改非常重要。
#2修复服务器问题
如果你的网站太慢或你的服务器返回太多超时或服务器错误,谷歌将得出结论,你的网站不能支持其页面的更高要求。
您可以通过修复400级和500级的状态代码以及修改服务器相关的页面速度因素来纠正可能出现的服务器问题。
由于日志表明返回的状态码和下载的字节数,所以日志监视是诊断和纠正服务器问题的关键。
如果您的站点托管在共享服务器上,您仍然可以通过缓存、CDNs、适当大小的图像、更新PHP版本以及对资源使用延迟或异步加载技术来提高服务器性能。