我爱蛋糕网机器人放牧和蜘蛛争吵的终极指南

在本系列的第一部分和第二部分中,我们了解了什么是机器人以及为什么爬行预算很重要。在第三部分,也是最后一部分,我们将回顾机器人在他们的旅程中可能遇到的常见编码、移动和本地化问题,让搜索引擎知道你的站点上什么是重要的。

常见的编码问题

如果你想要有机的排名,好的,干净的代码是很重要的。不幸的是,小错误可以迷惑爬虫,并导致严重的障碍在搜索结果。

下面是一些需要注意的基本问题:

1. 无限空间(也称为蜘蛛陷阱)。糟糕的编码有时会无意中导致“无限空间”或“蜘蛛陷阱”。

有些问题可能会导致爬行器陷入循环,从而迅速耗尽爬行预算。这包括无尽的统一资源定位器(url)指向相同的内容;以多种方式呈现相同信息的页面(例如,产品列表的数十种排序方式);或者日历包含无限个不同的日期。

在你的超文本传输协议(HTTP) 404错误页的头错误地提供200状态码是另一种方式,以显示机器人的网站没有有限的边界。依靠Googlebot来正确地确定所有的“软404s”是一个危险的游戏来玩你的爬行预算。

当机器人点击大量稀薄或重复的内容时,它最终会放弃,这可能意味着它永远不会得到最好的内容,最终在索引中得到一堆无用的页面。

寻找爬行器陷阱有时会很困难,但是使用上述日志分析程序或第三方爬行器(如Deep crawler)是一个很好的开始。

你要找的是不应该发生的机器人访问,不应该存在的url或没有任何意义的子字符串。另一个线索可能是url中无限重复的元素,比如:

example.com/shop/shop/shop/shop/shop/shop/shop/shop/shop/..。

2. 嵌入的内容。如果你想要你的网站有效地爬行,最好保持事情简单。机器人经常在Javascript、框架、Flash以及异步Javascript和XML (AJAX)方面遇到麻烦。

尽管谷歌在抓取诸如Javascript和AJAX等格式方面做得越来越好,但在可能的情况下,坚持使用老式的超文本标记语言(HTML)是最安全的。

一个常见的例子是使用无限滚动的网站。虽然它可以提高您的可用性,但它可能使搜索引擎难以正确地抓取和索引您的内容。确保你的每一个文章或产品页面都有一个唯一的URL,并且通过传统的链接结构连接,即使它是以滚动的格式呈现。

手机网站

谷歌在2016年11月宣布的移动优先索引在搜索引擎优化(SEO)社区引起了轩然大波。这并不奇怪,因为大多数搜索是通过移动设备进行的,而移动设备是计算的未来。在分析和排名方面,谷歌专注于移动版本的页面,而不是桌面版本。这意味着机器人会先看你的手机页面,然后再看你的桌面页面。

1. 优先为移动用户优化。移动站点可以是桌面站点的简化版本的日子已经一去不复返了。相反,首先考虑移动用户(和搜索引擎机器人),然后再向后考虑。

2. 移动/桌面一致性。虽然大多数移动站点现在都能响应,但如果你的站点有一个独立的移动版本,请确保它有相同的内部链接结构,并使用rel=alternate和rel=canonical链接元素在两个站点之间双向链接。

使用rel=canonical从移动站点指向桌面版本,使用rel=alternate从桌面站点指向移动站点。请注意,这是在您转向响应式设计之前的一个临时解决方案,根据谷歌,响应式设计是首选方法。

移动优先爬行现在将是首要任务

3.加速移动页面。加速移动页面(AMP)是谷歌最具争议的发明之一,许多网站管理员仍然对使用它们犹豫不决,因为这意味着让谷歌在他们自己的域名上托管你的页面的缓存版本。

谷歌的基本原理是,加速的移动页面允许他们更快地向用户提供内容,这对于移动设备来说至关重要。虽然谷歌是否会在搜索结果中优先考虑加速的手机页面而不是其他类型的手机页面还不清楚,但更快的加载时间可能有助于获得更高的排名。

使用rel=amphtml指向页面的AMP版本,并使用rel=canonical从AMP页面指向规范URL。请注意,即使加速移动页面托管在谷歌URL上,它们仍然会消耗您的抓取预算。

你应该阻止坏机器人吗?

不幸的是,使用机器人的不仅仅是搜索引擎。他们有各种各样的形状和大小……和意图,包括t

滚动至顶部