你的目标是确保你网站上的每个链接都指向一个实际的页面。这可能是通过一个301重定向,但是在链接的最后的页面应该总是返回一个200 OK服务器响应。
谷歌将抓取错误分为两组:
网站错误。你不需要这些,因为它们意味着你的整个网站不能被爬。
地址错误。您也不需要这些,但是由于它们每个错误只与一个特定的URL相关,因此它们更容易维护和修复。
让我们详细说明一下。
网站错误
站点错误是所有阻止搜索引擎机器人访问您的网站的抓取错误。这可能有很多原因,以下是最常见的:
DNS错误。这意味着搜索引擎不能与您的服务器通信。例如,它可能是关闭的,这意味着你的网站无法访问。这通常是一个暂时的问题。谷歌稍后会回到你的网站,并以任何方式抓取你的网站。如果您在谷歌搜索控制台的抓取错误中看到这一点,这可能意味着谷歌已经尝试了几次,但仍然无法实现。
服务器错误。如果您的搜索控制台显示服务器错误,这意味着机器人无法访问您的网站。请求可能已经超时。搜索引擎(fi .)试图访问您的网站,但它花了如此长的时间加载服务器提供了一个错误消息。当代码中存在阻止页面加载的缺陷时,也会发生服务器错误。这也可能意味着您的站点有太多的访问者,服务器无法处理所有的请求。其中很多错误以5xx状态码的形式返回,比如这里描述的500和503状态码。
机器人的失败。爬行之前,(f.i)。Googlebot也会抓取你的robots.txt文件,只是为了看看你的网站上是否有你不希望索引的地方。如果机器人无法到达robots.txt文件,谷歌将推迟爬行,直到它能够到达robots.txt文件。所以要确保它是可用的。
这就解释了一点关于与整个站点相关的抓取错误。现在让我们看看对于特定的页面可能会出现什么样的抓取错误。
地址错误
如前所述,URL错误指的是当搜索引擎机器人试图抓取你网站的特定页面时出现的抓取错误。当我们讨论URL错误时,我们倾向于首先讨论抓取错误,比如(软)404 Not Found错误。你应该经常检查这些类型的错误(使用谷歌搜索控制台或Bing网站管理员工具)并修复它们。如果该页面/主题确实已经不再返回到您的网站,提供410页面。如果您在另一个页面有类似的内容,请使用301重定向代替。当然,也要确保你的网站地图和内部链接是最新的。
顺便说一下,我们发现很多URL错误都是由内部链接引起的。所以很多错误都是你的错。如果你在某个时候从你的网站上删除了一个页面,也要调整或删除到该页面的任何入站链接。这些链接已经没有用了。如果链接保持不变,机器人就会找到它并跟踪它,结果发现一条死胡同(404 Not found错误)。在你的网站上。您需要不时地对您的内部链接进行维护!
另一个常见的URL错误是标题中出现“提交的URL”。一旦谷歌检测到不一致的行为,这些错误就会出现。一方面,你提交了索引的URL,所以你告诉谷歌:“是的,我想让你索引这个页面。另一方面,还有一些东西告诉谷歌:“不,不要索引这个页面。”一个可能的原因是你的页面被你的robots.txt文件阻止了。或者页面被一个元标签或HTTP头标记为“noindex”。如果你不修复不一致的消息,谷歌将不会索引你的URL。
在这些常见的错误中,可能是某个特定URL的偶尔的DNS错误或服务器错误。稍后再检查那个URL,看看错误是否已经消失。请确保使用fetch作为谷歌,并在谷歌搜索控制台中将错误标记为已修复(如果这是您的主要监控工具的话)。
非常具体的URL错误
有些URL错误只适用于某些网站。这就是为什么我想分别列出这些:
推出URL错误。这指的是在现代智能手机上发生的特定于页面的抓取错误。如果你有一个反应灵敏的网站,这些不太可能出现。也许只是为了您想要替换的那部分Flash内容。如果您维护一个独立的移动子域,如m.example.com,您可能会遇到更多错误。从桌面站点到移动站点的错误重定向。你甚至可以在robots.txt中添加一行代码,屏蔽部分移动站点。
恶意软件错误。如果你在你的网站管理员工具中遇到恶意软件错误,这意味着Bing或谷歌在那个网址上发现了恶意软件。这可能意味着那些被发现的软件被用来,例如,“收集保密信息,或者扰乱他们的正常运作。