百度刷权重爬行效率:使谷歌的爬行更容易

网站的爬行是如何工作的?

谷歌在网站的某个地方找到你的网站的链接。此时,该URL是虚拟堆的开始。之后的过程非常简单:

谷歌机器人从这堆文件中抽出一页;

抓取页面并对谷歌中使用的所有内容进行索引;

然后,它将该页面上的所有链接添加到这一堆中。

在爬行过程中,Googlebot可能会遇到重定向。它被重定向到的URL会被放到堆里。

你的主要目标是确保Googlebot能够访问网站上的所有页面。第二个目标是确保新的和更新的内容能够快速抓取。好的网站架构会帮助你达到这个目标。维护好你的站点是必要的。

爬行深度

在谈到爬行时,一个重要的概念是爬行深度的概念。假设你有一个链接,从一个网站到你网站上的一个页面。这个页面链接到另一个,到另一个,到另一个,等等。谷歌机器人还会爬行一段时间。但在某个时候,它会决定不再需要继续爬行。这取决于指向第一页的链接有多重要。

这似乎是理论上的,所以让我们看一个实际的例子。如果你有1万篇文章,都在同一个类别,你每页显示10篇文章。这些页面只链接到“下一页”和“前一页”。谷歌需要爬1000页才能到达这10,000个帖子中的第一个。在大多数网站上,它不会这样做。

这就是为什么:

使用类别/标记和其他分类法进行更细粒度的分割。也不要太过分。根据经验,标签只有在连接超过3条内容时才有用。同时,确保优化这些类别档案。

链接到更深层次的带数字的页面,这样Googlebot可以更快到达那里。假设你把第1页链接到第10页,然后一直这样做。在上面的例子中,深度页面离主页只有100次点击。

保持你的网站快速。站点越慢,爬行时间就越长。

XML站点地图和爬行效率

您的站点应该有一个或多个XML站点地图。这些XML站点地图告诉谷歌站点上存在哪些url。一个好的XML站点地图还可以指示您最后更新某个特定URL的时间。大多数搜索引擎会比其他搜索引擎更频繁地抓取XML站点地图中的url。

在谷歌搜索控制台中,XML站点地图为您提供了一个额外的好处。对于每个站点地图,谷歌都会显示错误和警告。您可以通过为不同类型的url创建不同的XML站点地图来使用它。这意味着您可以看到您的站点上哪种类型的url问题最多。

导致爬行效率低下的问题

许多404和其他错误

当它抓取您的站点时,谷歌将会遇到错误。当它这样做的时候,它通常会从一堆文件中挑出下一页。如果你的站点在爬行过程中出现了很多错误,Googlebot就会变慢。它这样做是因为它担心爬行太快会导致错误。为了防止Googlebot的运行速度变慢,你需要尽可能多地修复错误。

谷歌在其网站管理员工具中向你报告所有这些错误,Bing和Yandex也是如此。我们之前已经讨论过谷歌搜索控制台(GSC)和Bing网站管理员工具中的错误。Yoast SEO Premium中的重定向管理器通过将这些错误重定向到正确的url来帮助您修复这些错误。

您不会是我们看到的第一个在GSC中有3000个实际url和20000个错误的客户机。不要让你的网站变成那样的网站。定期修正这些错误,至少每月修正一次。

过度的301重定向

我最近在一个刚刚完成域迁移的网站上做咨询。这个站点很大,所以我使用我们的工具对站点进行了全面的爬行,看看我们应该修复什么。很明显,我们有一个大问题。这个站点上的大量url总是链接到不带斜杠的链接。如果你进入这样一个没有斜杠结尾的URL,你将被301重定向。您将被重定向到尾部带有斜杠的版本。

如果这是一个问题的一个或两个url在您的站点上,这真的不重要。这实际上是一个主页的问题。如果你的网站上有25万个url,这是个大问题。谷歌机器人无需抓取25万个url,只需抓取50万个。这并不完全有效。

这就是为什么当您更改url时,您应该总是尝试更新站点内的链接。如果你不这样做,随着时间的推移,你会得到越来越多的301重定向。这将降低爬行速度和用户速度。大多数系统需要长达一秒的服务器重定向。这又增加了一秒钟的页面加载时间。

蜘蛛陷阱

如果你的网站在谷歌看来更权威,有趣的事情就会发生。即使很明显链接没有意义,谷歌也会抓取它。给谷歌一个无限大的螺旋楼梯的虚拟等价物,它会继续下去。我想分享一个我在《卫报》遇到的有趣的例子。

滚动至顶部