什么是抓取预算?
抓取预算是Google每天在您的网站上抓取的页面数。这个数字每天都有所细微的变化,但总体来说还是比较稳定的。 Google每天可能会在您的网站上抓取6个页面,可能每天抓取5,000个页面,甚至每天可能抓取4,000,000个页面。 Google抓取的页面数(即您的“预算”)通常由网站的大小,网站的“运行状况”(Google遇到多少错误)以及网站链接的数量决定。其中一些因素是您可以影响的因素,我们将在稍后进行说明。
搜寻器如何工作?
像Googlebot这样的抓取工具会获取要在网站上抓取的网址列表。它会系统地通过该列表。它会每隔一段时间抓取您的robots.txt文件,以确保仍然允许抓取每个URL,然后逐个抓取这些URL。蜘蛛抓取了URL并解析了内容后,便添加了在该页面上找到的新URL,因此必须将其爬回“待办事项”列表。
几次事件会使Google感到必须抓取网址。它可能找到指向内容的新链接,或者有人发布了它,或者它已经在XML站点地图中进行了更新等,等等……无法列出Google抓取URL的所有原因,但是当确定必须这样做时,会将其添加到待办事项列表中。
搜寻预算何时会成为问题?
如果Google必须对您网站上的许多网址进行爬网并且分配了很多爬网,那么爬网预算就不会成为问题。但是,假设您的网站有25万个页面,并且Google每天在该特定网站上抓取2500个页面。它将比其他内容抓取更多内容(如首页)。如果您不采取行动,则最多可能需要200天的时间,Google才会注意到您页面的特定更改。抓取预算现在是一个问题。另一方面,如果它每天爬行50,000次,则完全没有问题。
要快速确定您的网站是否存在抓取预算问题,请按照以下步骤操作。这确实是假设您的网站具有Google抓取的相对较少的URL,但没有建立索引(例如,因为您添加了meta noindex)。
确定您的站点上有多少页,XML站点地图中的URL数量可能是一个好的开始。
进入Google Search Console。
转到“旧版工具”->“抓取统计信息”,并记下每天平均抓取的页面数。
将页面数除以“每天抓取的平均”数。
如果最终获得的数字大于〜10(因此您的网页比Google每天抓取的页面多10倍),则应优化抓取预算。如果最后得到的数字小于3,则可以阅读其他内容。
Google正在抓取哪些URL?
您确实应该知道Google在您的网站上爬网的URL。唯一“真实”的了解方式就是查看您站点的服务器日志。对于较大的站点,我个人更喜欢使用Logstash + Kibana。对于较小的网站,Screaming Frog的家伙发布了相当不错的小工具,称为SEO日志文件分析器(请注意,S是Brits)。
封锁网站的一部分
如果您的网站部分确实不需要在Google中,请使用robots.txt阻止它们。 当然,只有在知道自己在做什么的情况下,才这样做。 我们在大型电子商务网站上看到的常见问题之一是,他们有无数种方法来过滤产品。 每个过滤器可能会为Google添加新的URL。 在这种情况下,您确实要确保只让Google Spider启用其中一个或两个过滤器,而不是全部。
减少重定向链
当您301重定向URL时,会发生一些奇怪的事情。 Google将看到该新URL并将该URL添加到“待办事项”列表中。 它并不总是立即跟随它,而是将其添加到待办事项列表中并继续进行。 例如,当您链接重定向时,当您将非www重定向到www,然后将http重定向到https时,到处都有两个重定向,因此抓取所需的时间更长。