关闭蜘蛛陷阱:修复爬行效率低下的问题梦幻诛仙多玩

什么是蜘蛛陷阱?

爬行器陷阱是当您创建一个创建无限url的系统时。所以谷歌可以爬行一个页面并找到20个新的url。如果它爬行了这20个url,它会找到20 * 20个新url。如果它爬行了这400个url,它会找到400 * 20 = 8,000个新url。如您所见,这种情况会迅速升级。如果每个url都是独一无二的,这就不是问题了,但通常情况下,它们不是。因此,这会导致大量重复内容的问题。

蜘蛛陷阱对SEO不好,因为每次谷歌在你的陷阱中爬行(或“爬行”)一个页面时,它并不是在抓取你站点上的实际内容。您新的、高质量的、超有价值的内容可能稍后会被编入索引,或者根本不会,因为谷歌在您的陷阱中花费了宝贵的时间。而且它正在爬行的内容被认为是重复的,并减少了谷歌如何看待你的网站整体。这就是为什么解决蜘蛛陷阱对SEO很重要,特别是当你考虑爬行预算优化的时候。

蜘蛛陷阱是什么样子的?

我们的蜘蛛是一种非常特殊的蜘蛛。我们在yoast.com上有一个工具叫Yoast建议。它帮助你我的谷歌建议关键字的想法。当您在其中输入一个单词时,它将返回谷歌在您将该单词输入到谷歌时给出的建议。问题是:谷歌,当给它一个搜索框,它会开始扔随机单词到它。然后这些结果会有更多结果的链接。谷歌就这样陷进去了。

你可能认为这是一个很好的故事,蜘蛛陷阱从来没有发生在现实生活中。不幸的是,他们做的。web商店上的分面导航通常会创建数十万个URL参数组合。每一个新的方面组合(以及URL参数)都是一个新的URL。因此,分面导航做得不好通常会导致捕获蜘蛛。

蜘蛛陷阱的另一个常见原因是网站有日期页面。如果你可以返回某一天,获得一个新的日期,然后返回,返回,返回,返回,你会得到很多页面。在我为《卫报》做顾问的时候,我们发现谷歌在1670年摸索出了一个日期。我们翻遍了我们的在线档案,那时候已经快20年了,但300多年来什么也没找到……

如何识别蜘蛛陷阱

识别蜘蛛陷阱的最简单方法是查看访问日志。这些日志包含一行用于每次访问您的站点。你可以想象,在大型网站上,你的访问日志会很快变大。在Yoast,我们使用所谓的“ELK-stack”来监控我们网站的日志,但我个人也使用了尖叫青蛙的SEO日志文件分析器来做这个。

来自ELK堆栈的日志,显示索引、url、时间戳、用户代理等的图形

麋鹿堆栈中的日志示例

你要做的是只看谷歌机器人的访问量,然后开始寻找模式。在大多数情况下,他们会直接跳到你面前。蜘蛛陷阱占据了爬行动物20-30%甚至更大的部分,这并不罕见。如果不能立即找到它们,可以开始分组爬行,在url中寻找模式。如果您有干净的URL,您可以从URL的开头开始。如果您的url有点麻烦,您将不得不手动创建组。

一个麋鹿堆栈使这非常容易,因为你可以搜索和细分迅速:

在我们的麋鹿堆栈中过滤单词“SEO”的Googlebot例子

一个例子,过滤词“SEO”在我们的Googlebot点击

如何解决蜘蛛陷阱?

解决一个蜘蛛陷阱可能是一件棘手的事情。在我们的例子中,我们根本不想/建议/被索引,所以我们只是用robots.txt完全阻止它。在其他情况下,就不那么容易了。对于分面导航,您必须仔细考虑希望谷歌抓取和索引哪些方面。

一般来说,有三种解决方案:

用robots.txt阻塞(一部分)url。

添加rel=nofollow和noindex,跟踪链接和页面的特定子集,明智地使用rel=canonical。

通过不再生成无限数量的url来修复这个陷阱。

就《卫报》而言,我们可以简单地阻止链接到我们没有文章的日期。在Yoast.com的建议工具中,我们只是在robots.txt中屏蔽了URL。如果您使用的是面搜索,解决方案通常(不幸的是)并不是那么简单。最好的第一步是使用一种不总是创建可抓取url的面搜索形式。在这方面,复选框比直接链接要好。

总之,找到并关闭一个蜘蛛陷阱是一个SEO可以对网站做的更有意义的事情之一。这很有趣,但也很困难。如果你有有趣的蜘蛛陷阱的例子,请在评论中分享它们!

滚动至顶部