每个人都讨厌抓取错误。它们在没有任何警告的情况下出现,并可能导致索引问题。
在去年谷歌网站管理员趋势分析师Gary Illyes的Reddit AMA中,他解释说你必须让你的网站能够抓取:
“我真的希望SEOs能回归到最基本的东西(比如,让那个该死的站点能够被抓取),而不是专注于愚蠢的更新和通过排名跟踪器编造的词汇,并且他们能和开发者多谈谈……”
下面的技巧将告诉你如何做。
如何找到和修复索引膨胀
索引膨胀意味着索引的url比物理页面多。
如果规模足够大,就会对性能产生负面影响。如果足够严重,这是在浪费你的爬行预算。
使用站点:操作符在谷歌搜索找到它。如果结果的数量大于您拥有的url的数量,这就是一个问题。不要包含空格。
操作符应该这样输入到谷歌中:
错误配置4xx错误和软件404s
对于普通的404s, 301将它们重定向到工作url是一个很好的解决方案。但是,如果404不是普通的404呢?
这是一个普遍的问题。一个没有内容的页面是一个软404,即使它显示200 OK状态。
在尖叫青蛙中,默认的字数反映了页面上的每一个单词,而不仅仅是主要的内容区域。在导出爬网数据后,必须使用Excel确定“无内容”。
在Excel中尖叫青蛙的标准字数旁边创建一列,然后从显示的字数总数中减去页眉和页脚(任何边栏、其他文本等)的字数总数。
下面的方法更可靠,但手动检查页面以查找物理文本内容比较耗时。
配置错误的斜杠
并不是所有的url都是一样的。.htm、.html和使用正斜杠(/)是不同的。前两个是文件名。最后一个是文件夹。
当全部同时加载时,您将提供三个具有相同内容的url。
提供多个可索引版本会导致抓取错误和重复内容问题。
如果您的站点上已经存在此问题,请将所有URL版本重定向到一个主版本,这样只加载一个版本。
精简是更好的
不要只追求更多的内容,而不关心这些细节。它们对你的网站很重要。创建一个更好、更精简的站点,具有充分优化的爬行能力。你的用户会感谢你的。