关闭蜘蛛陷阱:修复爬行效率低下的问题梦幻诛仙多玩-顶级复刻表

什么是蜘蛛陷阱?

爬行器陷阱是当您创建一个创建无限url的系统时。所以谷歌可以爬行一个页面并找到20个新的url。如果它爬行了这20个url，它会找到20 * 20个新url。如果它爬行了这400个url，它会找到400 * 20 = 8,000个新url。如您所见，这种情况会迅速升级。如果每个url都是独一无二的，这就不是问题了，但通常情况下，它们不是。因此，这会导致大量重复内容的问题。

蜘蛛陷阱对SEO不好，因为每次谷歌在你的陷阱中爬行(或“爬行”)一个页面时，它并不是在抓取你站点上的实际内容。您新的、高质量的、超有价值的内容可能稍后会被编入索引，或者根本不会，因为谷歌在您的陷阱中花费了宝贵的时间。而且它正在爬行的内容被认为是重复的，并减少了谷歌如何看待你的网站整体。这就是为什么解决蜘蛛陷阱对SEO很重要，特别是当你考虑爬行预算优化的时候。

蜘蛛陷阱是什么样子的?

我们的蜘蛛是一种非常特殊的蜘蛛。我们在yoast.com上有一个工具叫Yoast建议。它帮助你我的谷歌建议关键字的想法。当您在其中输入一个单词时，它将返回谷歌在您将该单词输入到谷歌时给出的建议。问题是:谷歌，当给它一个搜索框，它会开始扔随机单词到它。然后这些结果会有更多结果的链接。谷歌就这样陷进去了。

你可能认为这是一个很好的故事，蜘蛛陷阱从来没有发生在现实生活中。不幸的是,他们做的。web商店上的分面导航通常会创建数十万个URL参数组合。每一个新的方面组合(以及URL参数)都是一个新的URL。因此，分面导航做得不好通常会导致捕获蜘蛛。

蜘蛛陷阱的另一个常见原因是网站有日期页面。如果你可以返回某一天，获得一个新的日期，然后返回，返回，返回，返回，你会得到很多页面。在我为《卫报》做顾问的时候，我们发现谷歌在1670年摸索出了一个日期。我们翻遍了我们的在线档案，那时候已经快20年了，但300多年来什么也没找到……

如何识别蜘蛛陷阱

识别蜘蛛陷阱的最简单方法是查看访问日志。这些日志包含一行用于每次访问您的站点。你可以想象，在大型网站上，你的访问日志会很快变大。在Yoast，我们使用所谓的“ELK-stack”来监控我们网站的日志，但我个人也使用了尖叫青蛙的SEO日志文件分析器来做这个。

来自ELK堆栈的日志，显示索引、url、时间戳、用户代理等的图形

麋鹿堆栈中的日志示例

你要做的是只看谷歌机器人的访问量，然后开始寻找模式。在大多数情况下，他们会直接跳到你面前。蜘蛛陷阱占据了爬行动物20-30%甚至更大的部分，这并不罕见。如果不能立即找到它们，可以开始分组爬行，在url中寻找模式。如果您有干净的URL，您可以从URL的开头开始。如果您的url有点麻烦，您将不得不手动创建组。

一个麋鹿堆栈使这非常容易，因为你可以搜索和细分迅速:

在我们的麋鹿堆栈中过滤单词“SEO”的Googlebot例子

一个例子，过滤词“SEO”在我们的Googlebot点击

如何解决蜘蛛陷阱?

解决一个蜘蛛陷阱可能是一件棘手的事情。在我们的例子中，我们根本不想/建议/被索引，所以我们只是用robots.txt完全阻止它。在其他情况下，就不那么容易了。对于分面导航，您必须仔细考虑希望谷歌抓取和索引哪些方面。

一般来说，有三种解决方案:

用robots.txt阻塞(一部分)url。

添加rel=nofollow和noindex，跟踪链接和页面的特定子集，明智地使用rel=canonical。

通过不再生成无限数量的url来修复这个陷阱。

就《卫报》而言，我们可以简单地阻止链接到我们没有文章的日期。在Yoast.com的建议工具中，我们只是在robots.txt中屏蔽了URL。如果您使用的是面搜索，解决方案通常(不幸的是)并不是那么简单。最好的第一步是使用一种不总是创建可抓取url的面搜索形式。在这方面，复选框比直接链接要好。

总之，找到并关闭一个蜘蛛陷阱是一个SEO可以对网站做的更有意义的事情之一。这很有趣，但也很困难。如果你有有趣的蜘蛛陷阱的例子，请在评论中分享它们!