谷歌如何理解文本?

我们确定谷歌能理解文本吗?

我们知道谷歌在某种程度上可以理解文本。考虑一下:谷歌需要做的最重要的事情之一是将用户输入到搜索栏中的内容与搜索结果匹配。用户信号本身并不能帮助谷歌做到这一点。此外,我们还知道,可以对文本中没有使用的短语进行排名(尽管识别和使用一个或多个特定的关键短语仍然是一个很好的练习)。很明显,谷歌在阅读和评估你的文章方面做了一些事情。

目前的状态是什么?

我实话实说。我们并不知道谷歌是如何理解文本的。这些信息不是免费获得的。从搜索结果来看,我们也知道还有很多工作要做。但这里或那里有一些线索,我们可以得出结论。我们知道谷歌在理解语境方面取得了很大的进步。我们还知道,它试图确定单词和概念之间是如何相互联系的。我们是怎么知道的?一方面,通过分析谷歌多年来申请的一些专利。另一方面,通过考虑实际的搜索结果页面是如何改变的。

字嵌入

谷歌申请并致力于的一项有趣的技术叫做“嵌入词”。我将把细节保存到另一篇文章中,但主要的目标是找出哪些词与其他词密切相关。事情是这样的:给计算机程序输入一定数量的文本。然后分析文本中的单词,确定哪些单词会一起出现。然后,它将每个单词翻译成一系列数字。这允许单词在图(例如散点图)中表示为空间中的点。这个图表显示了单词以什么方式联系在一起。更准确地说,它显示了单词之间的距离,有点像由单词组成的星系。例如,在这个空间里,像“关键词”这样的词会更接近“文案”,而不是“厨房用具”。

有趣的是,你不仅可以对单词这样做,还可以对短语、句子和段落这样做。你提供给程序的数据集越大,它就越能更好地分类和理解单词,并弄清它们是如何使用的以及它们的意思。你知道吗,谷歌有整个互联网的数据库。对于数据集来说怎么样?有了这样的数据集,就有可能创建可靠的模型来预测和评估文本和上下文的价值。

相关的实体

从word embeddings到related entities的概念只是一个小的步骤(看看我做了什么?)让我们看一下搜索结果来说明什么是相关实体。如果你输入“意大利面种类”,你会看到在页面的最上方有一个标题叫“意大利面种类”,上面有很多丰富的卡片,上面有很多不同种类的意大利面。这些品种的意大利面甚至被细分为“带状意大利面”、“管状意大利面”和其他几个种类的意大利面。有很多很多类似的serp反映了单词和概念之间的联系。

谷歌实体意大利面类型

输入[意大利面类型]后,谷歌现在显示基于实体的丰富结果

谷歌提交的相关实体专利实际上提到了相关实体索引数据库。这是一个存储概念或实体(如面食)的数据库。这些实体也有自己的特点。例如,千层面就是意大利面。它也是用面团做的。它的食物。现在,通过分析实体的特征,可以用各种不同的方式对它们进行分组和分类。这使得谷歌能够更好地理解单词之间的关系,从而更好地理解上下文。

实际的结论

现在,所有这些都将我们引向两个非常重要的问题:

如果谷歌以某种方式理解语境,那么它也可能评估和判断语境。副本与谷歌的上下文概念匹配得越好,它的机会就越大。因此,有限范围的薄拷贝将处于劣势。你需要详尽地涵盖你的主题。在更大的范围内,覆盖相关的概念并在你的网站上呈现完整的作品将会加强你在你擅长的主题上的权威。

滚动至顶部