谷歌最近获得了一项具有广泛实际应用的专利。这项专利涵盖了如何利用机器学习来预测未知的排名信号值。
考虑到互联网上有大量的内容,而且每天都有更多的内容出现,谷歌需要找到一种方法来为页面赋值,即使它们没有被抓取和索引。如果没有谷歌爬过一个页面,该如何排名呢?谷歌如何使用没有任何入站链接的新内容?
本专利中的方法说明了谷歌算法如何处理和计算未知因素,并使用它们来确定页面的排名位置。
我们将讨论谷歌可能使用的实现,以及它为搜索引擎优化专家(SEOs)解决的几个问题。但在我们开始之前,我觉得有必要提出我的标准免责声明。
仅仅因为某样东西获得了专利,并不意味着它被纳入了一种算法。我们需要权衡专利,或者它的一部分,被用于我们周围的事物和有意义的事物的可能性。如果没有别的,它让我们了解谷歌正在做什么。
鉴于该专利中概述的主题和方法,我想说的是,很可能至少有一些迭代正在使用中,并且很可能会随着机器学习系统的发展而扩展。
专利20180157758
让我们从具体细节开始。如果你对来源感兴趣,你可以在这里找到完整的专利,但是我会涵盖专利的申请,它们的意思以及它们如何被使用。
让我们从专利中的一张图片开始,这张图片现在还没有什么意义,但将有助于以后的解释:
看看上图中的150和160项。这两个因素很重要,这也是我们将要讨论的,因为机器学习被用来解决seo多年来一直抱怨的重要搜索问题。
这个问题
虽然我们将要讨论的系统有多种应用,但该专利在0008节中概述了一个核心问题:
搜索系统可以更新搜索引擎索引,该索引使用搜索引擎排序信号为资源生成的值进行索引,然后搜索引擎可以使用生成的值对资源进行排序。这样可以提高搜索引擎索引的完整性,进而提高搜索引擎的准确性和效率。
基本上,他们已经确定了一个重要的问题:在缺少已知的排序信号值的情况下,就没有办法对内容进行排序,即使内容最适合某个特定的查询。
当没有链接时
让我们来考虑以下对链接到新内容块的简单计算:
链接数量(信号a) =未知或不可用
内容与“蓝色小部件”的相关性(信号b) = 9.8/10
传递的域值/内部PageRank(信号c) = 9.2/10
通过计算,我们知道了页面的相关性,以及域传递给页面的强度;但是如果不知道链接的数量和权重,谷歌怎么能正确地对页面进行排名呢?如果谷歌不知道一个页面有多少或什么类型的入站链接,他们怎么能给一个页面排名?任何使用链接计数作为乘数的公式或算法都将归零。
对于未知的信号值,任何计算都不可能是正确的,谷歌将不能产生最好的结果。作为seo,我们有一个类似的问题:没有链接就不能进行排名,而且很难获得没有排名的内容的链接,即使有最适合查询的内容。
本专利中的方法赋予该算法预测某个值的能力,直到该值得到确认。这个预测因素可能是最令人兴奋的方面,因为它促进了快速测试并加速了机器学习校正的部署。
虽然专利中讨论了各种排列方式,但其核心是训练一个机器学习系统,让它在没有排序信号的情况下产生一个可能的值。
两个指数的故事
专利中概述的方法需要两个索引。这些不应该与我们每天使用的搜索索引相混淆。虽然目的可能是将此应用于通用索引,但在此之前,谷歌将使用两个独立于通用搜索索引的封闭索引。
为了便于说明,我们将它们称为索引A和索引B。
对于指标A,排序信号的值是已知的,用于训练算法理解其起点。算法还给出了页面和反向链接。一旦算法被训练成了解网页的结构,并适应了相关元素,如反向链接,就会分配一个值,然后将信号值应用到第二个索引。
在索引B中,信号值是已知的算法,但没有纳入机器学习系统。索引B通过学习在哪里给出正确的“魏”来训练自己