如何优化您的抓取频次预算-顶级复刻表

什么是抓取预算？
抓取预算是Google每天在您的网站上抓取的页面数。这个数字每天都有所细微的变化，但总体来说还是比较稳定的。 Google每天可能会在您的网站上抓取6个页面，可能每天抓取5,000个页面，甚至每天可能抓取4,000,000个页面。 Google抓取的页面数（即您的“预算”）通常由网站的大小，网站的“运行状况”（Google遇到多少错误）以及网站链接的数量决定。其中一些因素是您可以影响的因素，我们将在稍后进行说明。

搜寻器如何工作？
像Googlebot这样的抓取工具会获取要在网站上抓取的网址列表。它会系统地通过该列表。它会每隔一段时间抓取您的robots.txt文件，以确保仍然允许抓取每个URL，然后逐个抓取这些URL。蜘蛛抓取了URL并解析了内容后，便添加了在该页面上找到的新URL，因此必须将其爬回“待办事项”列表。

几次事件会使Google感到必须抓取网址。它可能找到指向内容的新链接，或者有人发布了它，或者它已经在XML站点地图中进行了更新等，等等……无法列出Google抓取URL的所有原因，但是当确定必须这样做时，会将其添加到待办事项列表中。

搜寻预算何时会成为问题？
如果Google必须对您网站上的许多网址进行爬网并且分配了很多爬网，那么爬网预算就不会成为问题。但是，假设您的网站有25万个页面，并且Google每天在该特定网站上抓取2500个页面。它将比其他内容抓取更多内容（如首页）。如果您不采取行动，则最多可能需要200天的时间，Google才会注意到您页面的特定更改。抓取预算现在是一个问题。另一方面，如果它每天爬行50,000次，则完全没有问题。

要快速确定您的网站是否存在抓取预算问题，请按照以下步骤操作。这确实是假设您的网站具有Google抓取的相对较少的URL，但没有建立索引（例如，因为您添加了meta noindex）。

确定您的站点上有多少页，XML站点地图中的URL数量可能是一个好的开始。
进入Google Search Console。
转到“旧版工具”->“抓取统计信息”，并记下每天平均抓取的页面数。
将页面数除以“每天抓取的平均”数。
如果最终获得的数字大于〜10（因此您的网页比Google每天抓取的页面多10倍），则应优化抓取预算。如果最后得到的数字小于3，则可以阅读其他内容。
Google正在抓取哪些URL？
您确实应该知道Google在您的网站上爬网的URL。唯一“真实”的了解方式就是查看您站点的服务器日志。对于较大的站点，我个人更喜欢使用Logstash + Kibana。对于较小的网站，Screaming Frog的家伙发布了相当不错的小工具，称为SEO日志文件分析器（请注意，S是Brits）。

封锁网站的一部分
如果您的网站部分确实不需要在Google中，请使用robots.txt阻止它们。当然，只有在知道自己在做什么的情况下，才这样做。我们在大型电子商务网站上看到的常见问题之一是，他们有无数种方法来过滤产品。每个过滤器可能会为Google添加新的URL。在这种情况下，您确实要确保只让Google Spider启用其中一个或两个过滤器，而不是全部。

减少重定向链
当您301重定向URL时，会发生一些奇怪的事情。 Google将看到该新URL并将该URL添加到“待办事项”列表中。它并不总是立即跟随它，而是将其添加到待办事项列表中并继续进行。例如，当您链接重定向时，当您将非www重定向到www，然后将http重定向到https时，到处都有两个重定向，因此抓取所需的时间更长。