尽管机器学习和基于算法的智能令人印象深刻,但它们往往缺乏人类天生具备的一些东西:常识。
众所周知,将相同的内容放在多个页面上会产生重复的内容。但是,如果您创建的页面是关于类似的事情,但有重要的差异呢?算法将它们标记为重复的,尽管人类可以毫不费力地将这些页面区分开来:
电子商务:具有多种变体或重大差异的类似产品
旅游:类似内容的酒店、目的地套餐
分类:相同项目的详尽列表
业务:为在不同地区提供相同服务的本地分支机构提供的页面
这是怎么发生的呢?你如何发现问题?你能做些什么呢?
重复内容的危险
重复的内容干扰你的能力,使你的网站可见的搜索用户通过:
失去排名的唯一页面,无意中竞争相同的关键字
无法对集群中的页面进行排序,因为谷歌选择一个页面作为规范
由于大量稀薄的内容而丧失网站权威
机器如何识别重复的内容
谷歌使用算法来确定两个页面或页面的一部分是否是重复内容,谷歌将其定义为“相当相似”的内容。
谷歌的相似度检测是基于他们的专利Simhash算法,该算法分析网页上的内容块。然后,它为每个块计算一个唯一标识符,并为每个页面组合一个哈希(或“指纹”)。
因为网页的数量非常庞大,所以可伸缩性是关键。目前,Simhash是查找大规模重复内容的唯一可行方法。
Simhash指纹是:
便宜的来计算。它们是在页面的一次爬行中建立的。
很容易比较,因为它们的长度是固定的。
能够找到近似重复的。它们将页面上的小变化等同于散列中的小变化,这与许多其他算法不同。
最后这意味着任何两个指纹之间的差异都可以通过算法来测量,并以百分比表示。为了降低评估每一对页面的成本,谷歌采用了如下技术:
集群:通过将一组非常相似的页面分组在一起,只需要比较集群中的指纹,因为其他所有内容都已经分类为不同的。
估计:对于特别大的聚类,计算一定数量的指纹对后,应用平均相似度。
比较页面指纹。来源:用于web爬行的近重复文档检测(谷歌专利)
最后,谷歌使用加权相似率来排除某些相同内容的块(样板:页眉、导航、边栏、页脚;免责声明……)。它使用n-gram分析来考虑页面的主题,以确定页面上哪些词出现得最频繁,以及——在网站的上下文中——哪些词是最重要的。
使用Simhash分析重复内容
我们将研究使用Simhash标记为相似的内容集群的映射。来自on爬行的这个图表覆盖了对重复内容集群的重复内容策略的分析。
on爬行的内容分析还包括相似性比率、内容集群和n-gram分析。on爬行也在进行一项实验性的热图研究,该热图显示可以覆盖在网页上的每个内容块的相似性。
根据内容相似度绘制网站。每个块代表一组相似的内容。颜色表示每个集群的规范化策略的一致性。来源:OnCrawl。
使用规范验证集群
使用规范的url在一组相似页面中指示主页面是有意对页面进行集群的一种方法。理想情况下,由规范创建的集群和由Simhash建立的集群应该是相同的。
标准聚类匹配相似度聚类(绿色部分)。高亮显示:6页内容100%相似。您的规范策略和谷歌的Simhash分析以同样的方式对待它们。
如果不是这样,通常是因为你的网站上没有合适的规范政策:
没有规范声明:每个集群有数百个页面,平均相似度为99-100%。谷歌可以强制使用规范的url。您无法控制哪些页面会排名,哪些不会。
或者因为您的规范策略和谷歌用于分组类似内容的方法之间存在冲突:
规范的问题:相似度超过80%的大型集群,每个集群有多个规范url。谷歌将强制使用它自己的规范url,或者索引希望远离索引的重复页面。
您的站点的集群看起来与上面的不一样。您已经遵循了针对重复内容的最佳实践。包含相同内容的url——比如可打印/移动版本,或者CMS生成的替代url——声明了正确的规范