专业提示:如何修复3个不太明显的抓取错误北方台球

每个人都讨厌抓取错误。它们在没有任何警告的情况下出现,并可能导致索引问题。

在去年谷歌网站管理员趋势分析师Gary Illyes的Reddit AMA中,他解释说你必须让你的网站能够抓取:

“我真的希望SEOs能回归到最基本的东西(比如,让那个该死的站点能够被抓取),而不是专注于愚蠢的更新和通过排名跟踪器编造的词汇,并且他们能和开发者多谈谈……”

下面的技巧将告诉你如何做。

如何找到和修复索引膨胀

索引膨胀意味着索引的url比物理页面多。

如果规模足够大,就会对性能产生负面影响。如果足够严重,这是在浪费你的爬行预算。

使用站点:操作符在谷歌搜索找到它。如果结果的数量大于您拥有的url的数量,这就是一个问题。不要包含空格。

操作符应该这样输入到谷歌中:

错误配置4xx错误和软件404s

对于普通的404s, 301将它们重定向到工作url是一个很好的解决方案。但是,如果404不是普通的404呢?

这是一个普遍的问题。一个没有内容的页面是一个软404,即使它显示200 OK状态。

在尖叫青蛙中,默认的字数反映了页面上的每一个单词,而不仅仅是主要的内容区域。在导出爬网数据后,必须使用Excel确定“无内容”。

在Excel中尖叫青蛙的标准字数旁边创建一列,然后从显示的字数总数中减去页眉和页脚(任何边栏、其他文本等)的字数总数。

下面的方法更可靠,但手动检查页面以查找物理文本内容比较耗时。

配置错误的斜杠

并不是所有的url都是一样的。.htm、.html和使用正斜杠(/)是不同的。前两个是文件名。最后一个是文件夹。

当全部同时加载时,您将提供三个具有相同内容的url。

提供多个可索引版本会导致抓取错误和重复内容问题。

如果您的站点上已经存在此问题,请将所有URL版本重定向到一个主版本,这样只加载一个版本。

精简是更好的

不要只追求更多的内容,而不关心这些细节。它们对你的网站很重要。创建一个更好、更精简的站点,具有充分优化的爬行能力。你的用户会感谢你的。

滚动至顶部