谁知道我知道,我读谷歌专利的忠实粉丝 – 或者,当我懒洋洋的感觉,在他的博客上阅读他们的比尔·斯劳斯基的分析,?小号EO By Th? 小号?a的。
我也有在那些涉及实体特别感兴趣,因为它们是(至少对我来说)被定义谷歌正试图解决问题的人。 机器学习的发展,实体表示搜索引擎是如何越来越多地观察世界。
在我们深入到这个最新的谷歌的专利,这是2016年12月22日,授予,让我们首先定义一个实体,以确保我们都在同一页上。 根据该专利,定义如下:
[一种] n的实体是一个东西或概念是奇异的,独特的,明确定义的和可区分的。 例如,一个实体可以是一个人,地点,项,想法,抽象的概念,混凝土元件,其它合适的东西,或者它们的任意组合。
为了简单起见,你可以随便想一个实体作为一个名词。
这将是重要的,了解另一定义是非结构化数据,这是非常精确地在维基百科定义为这样:
非结构化数据 。。。指信息,要么不具有预定义的数据模型或没有在预先定义的方式组织。
随着我们的皮带下,我们要深入到专利。本文将结构化的方式,我会包括斜体专利的重要路段的确切空话,之后每节什么的解释?手段。
方法,系统和计算机可读介质提供了集体和解。在一些实现方式中,接收查询,其中所述查询是至少相关部分地与一个类型的实体。一个或多个搜索结果产生基于至少在查询部分。先前产生的数据与一个的至少一个搜索结果或检索相关联的多个搜索结果的,所述数据包括对应于实体的类型在所述至少一个搜索结果的一个或多个实体的引用。所述一个或多个实体的引用进行排名,以及实体结果从基于至少所述一个或多个实体的引用选中部分地基于所述排名。基于至少提供给查询的答案部分的实体结果。
这是做一点说明了什么专利中包含的是完整的范围摘要的一个。至于抽象而言,所有我们要读的是实体获得排名,而排名确定的答案,查询。
这足以吸引我进了专利,它确实是正确的 – 但你很快就会看到,有很多比简单的“我们的排名中的名词描述。“
以下摘录?包含该专利的摘要部分内。
第2节
[A]?系统依靠基于与搜索结果相关的非结构化数据识别实体引用提供了对自然语言的搜索查询。。。。[T]相关联的至少一些所述搜索结果中的每个相应的网页他系统检索附加的,预处理信息 。。。附加信息包括,例如,出现在网页的人的名字。在示例中,为了回答“谁”的问题,在出现的前十个搜索结果,并在附加信息识别系统编译名。系统识别最常出现的名称作为答案 。。。
在上面的摘录,我们开始看到系统背后的方法。什么谷歌是在谈论这里的理念是确定的答案,“谁”的问题,他们会使用出现在顶部10搜索结果中最常见的名字。
第4节
[T]他查询是自然语言查询 。。。居的一个或多个实体的引用包括排名基于至少一个排名信号。在一些实施方式中,一个或多个排名信号包括每一个相应的实体引用的出现频率。在一些实施方式中,一个或多个排名信号包括每一个相应的实体引用的时事性得分。在一些实施方式中,先前生成的数据对应于非结构化数据。
为了进一步的做法是如何在专利描述的信息,我们可以看到使用的频率? 长期在一个文档中,并可能在多个文档。此外,我们看到,现实性是一个相关因素,这是适用于非结构化数据的方法。
第5节
[Q]可以被提供用于在自动和连续地更新方式的查询u?stions。在一些实现,问答可以采取搜索结果的排名优势技术。在一些实施中问题的答案,可以自动识别基于网络的非结构化内容,如互联网。
在本节中,我们看到它强化了可以基于搜索结果或排名技术来确定答案的问题,但现在看来,我们还看到了专利扩大到问题的自动测定解答了基于其他技术和自己的能力确定非结构化数据这个问题的答案。
通过96节14?给包含该专利的图片,流程图和真正的肉的详细说明。一些图像将被列入下面还有一些将被简单地指出,这取决于将整个信息得到更好的。
第19节
[T]他系统可以检索与十大搜索结果相关的实体引用。。。。排名和/或选择基于质量分数,新鲜度分数,相关性分值,对任何其它合适信息,或者它们的任意组合。
在这里,我们看到谷歌澄清不同类型的实体和答案可以基于不同的信息。例如,新鲜度可以被选择为一个较强的信号,如果你正在寻找了天气,而质量可能会更强,如果你正在寻找一个定义,健康信息等。
第20
我承认,我不得不阅读本节几次完全掌握他们在谈论。这部分涉及的专利图1,其是如下:
他们写:
[T]从实体引用与特定网页相关联的110检索到的信息,他是出现在该网页人员名单。例如,一个特定的网页可以包括一些人的名字,和实体引用110可以包括被包括在网页中的名称列表。实体引用110还可以包括其他信息。在一些实现中,实体引用110包括不同类型的实体引用,例如,人物,地点和日期。在一些实现中,对于多个实体类型的实体引用被保持为实体引用的单个注释列表,如分离的列表,在信息的任何其它合适的格式,或它们的任何组合。应当理解,在一些实现中,实体引用110和索引108可被存储在单个索引,在多个索引,在任何其它合适的结构,或者它们的任意组合。
背后究竟他们指的是这里的专利重复其他地方的想法。其中之一,而阅读本专利是发生在我的大问题是它会采取巨大的处理能力。如果任何实体搜索上运行自己的索引查询所需的引擎,处理前10个结果,然后确定哪些方面是最常用,以建立最有可能的答案的一个问题,就像一个搜索结果的处理这将需要许多倍的资源。
在部分20中,它们讨论解决此的方法,该方法是将预先填充参考列表(110在图中)从索引本身分离。
因此,输入如“谁是戴维·戴维斯”查询时,该数据从指标得出(以确定有答案可能页),但第二个基准点(110),还存在将包含实体数据(如多少次“戴维·戴维斯”每个文档中提及的),因此需要从谷歌节省图出来对飞。
第21
[O] NE或多个排名度量用于秩的实体引用,包括发生的频率和时事性得分。出现频率涉及的次数的特定文档中出现的实体引用,文档集,或其他内容。时事性分数包括实体参照和它出现的内容之间的关系的。
撇开使用的一个术语作为度量的次数的重复,我们也看到在本节时事性的增强。虽然这可能涉及到网站的主题的相关性和权重的参考应该给,我倾向于相信它有更多的在帮助理解做这些实体被引用。
例如,如果实体“戴维·戴维斯”被认为是关系到SEO页面上,那么它很可能我。在另一方面,如果“戴夫·戴维斯”似乎与音乐相关的网页上,很可能“是纠缠的家伙”(我喜欢这样称呼他)。
眼看在局部与音乐相关的网页更“戴维·戴维斯”将帮助他们在选择显示器:
第25
[T]他系统订单搜索结果基于一个或多个质量分数。在一些实现中,质量分数包括相关搜索查询与搜索结果相关联的质量分数,用时与特定搜索结果的前一选择相关的内容最后生成或更新的数据,分数的时间相关的新鲜度得分从搜索结果的集合,任何其它合适的质量得分,或它们的任何组合。在一个示例中,与搜索结果相关联的质量分值可以包括链接的数量,并从相应的网页。
在第25,我们看到更多的是澄清的质量分数为度量。本节,当然,必须列入?不只是其参考输入链路作为质量指标,但还包含出站链接,为可能的信号。
第28
[T]他系统产生通过比较结构化或非结构化的文本与已知的实体引用列表在网页中出现的实体引用的集合,例如名称列表。在一些实施方式中,以前不知道的实体引用是基于发生或其它聚类技术的频率识别。在一些实现中,实体引用是人实体引用,例如,出现在网页的文本人名。在一个示例中,系统维护所有的人出现在一个特定网页的名称的列表,以及列表中检索网页时,出现在搜索结果的顶部结果框中206。
在第28条中,我们看到的理解出来,并非所有的实体是已知的,需要制定方法来了解新的。这会发生,如果一个人首先在互联网上提到的,一个新的建设,开发等。那么谷歌会用自己的其他实体如何引用理解(E。G。,网页上的位置),并开始添加新实体的实体引用列表(见“110”上面的图1)。
第36
?在一些实现中,系统处理的网页和其他内容,以确定实体引用。在一些实现中,系统执行该处理的离线,使得其在检索时检索。在一些实施中,系统在处理搜索时的实时信息。
在第36条中,我们看到正在讨论系统,其容纳通过离线处理更快的结果,正如我们前面看到的第20。我们也看到参考,在实时操作的系统。很显然,有需要这个(如天气)查询类型,并且可以假设谷歌将有可靠来源列表这种类型的信息,使他们能够快速地仍然和以最少的资源处理信息。
第37条
[L] IST条目包括一个实体引用,与该实体参照相关联的唯一标识符,所述实体引用的出现频率,其中,所述实体引用发生与内容这样关联,元数据作为新鲜度和订货在页面上的位置,任何其它适当的数据,或者它们的任意组合。在一些实现方式中,先前生成的数据可以包括的实体引用的类型,例如,一个人,一个位置,日期,任何其它合适的类型,或它们的任何组合。在一些实现方式中,先前生成的数据包括标识实体为特定的类型,例如一个人实体引用,一个地方实体引用,或一个时间实体引用。在一些实现中,可以为一个网站或其他内容,其中每个集合与一个或多个类型相关联来产生多组数据。在一个示例中,网站可以与在其中发生的人实体的引用的列表和所述位置实体引用的在其中出现的列表相关联。
对于那些好奇实体如何不同会被隔离,我们在这里得到我们的答复,在那里讨论“唯一标识符”为一个实体。也就是说,而非纠缠和戴维·戴维斯,笔者本文章的戴维·戴维斯的想法,作为两个版本“戴维·戴维斯,”谷歌反而会认为我们是用相同的属性标识符。
如果您本人或我会用他们的名字想起一个人,谷歌不会; 他们将通过一个独特的,有可能的字母数字,序列认为他们。我将在下文进一步说明这一点,但最简单的形式,它可能看起来像:
唯一ID(00000001A) – >的名称(戴维·戴维斯) – >的工作(音乐家)
和
唯一ID(00000001B) – >的名称(戴维·戴维斯) – >的工作(SEO)
过去认为,这部分主要强化知道SEO和相关性增强等因素的实体的使用,内容,链接等页面上的位置的频率。
第38
[O]中的内容发生疗法的名称或实体引用可以用于消除歧义的参考。在一个例子中,名称[乔治·华盛顿]在同一文本发生为[马大华盛顿]可以被识别为在U的列表与一个唯一的实体引用。S。总统,而[乔治·华盛顿在相同的内容,[大学]和[华盛顿d发生。C。]被确定为与[乔治华盛顿大学]。
在本节中,我们进一步看到实体是如何通过上下文理解。当存在两个或更多个实体具有类似名称的属性,该专利列出了在确定哪个特定的实体被引用使用从页面到援助附加数据的。
要使用我的例子,以“戴维·戴维斯”与“纠缠”页面上出现的引用将关联戴夫唯一ID为00000001A从上面,而不是00000001B戴维斯。
第41
在另一实例中,该系统通过由文件的长度或任何其它合适的度量归一化出现次数的确定频率。
说实话,唯一的原因,我,包括第41条的在这写一个部分是,它很可能是我最后一次将以往任何时候都能够引用的关键字密度没有上下文的指标“在21世纪初。“
有趣的是,这正是他们指的是什么在这里,在这方面,它有一定道理。如果一个人使用的前10名结果作为问题的答案的指示实体引用的频率,应考虑到一万字的页面应该预计将有超过一个页面上的号码产生不同的影响用700个字。
然而,你可能永远都不会读或再次听到的唯一ID 00000001B以关键字密度的参考。
第42
[T]他系统使用时事性得分作为排名信号。在一些实现中,时效性分数包括新鲜度,文档的年龄,链接和/或从该文件的编号,在以前的搜索结果文档,文档和查询之间的关系的强度的选择的数量,任何其它合适的分数,或它们的任意组合。在一些实施方式中,话题的成绩取决于实体引用和内出现的实体引用的内容之间的关系的。例如,实体引用[乔治华盛顿]可能对历史的网页比当前新闻网页更高的时事得分。在另一示例中,实体引用[美国总统?奥巴马]可能对政治网站更高的时事得分比上法学院网站。
在本节中,我们看到谷歌澄清其影响将是对结果有什么现实性的手段,什么。这将会减少与特定实体的选择作为一个答案做(例如,?其中被引用戴维·戴维斯的选择),并更多地与什么数据被用于工艺的答案。
例如,他是天生的最后八个孩子是不是局部相关足以被包含在回答“谁是戴维·戴维斯”如上图所示,取而代之的信息,比如他的出生日期和乐队都。所有这些信息是准确的,但由于时效性的信号,如跨文档频率,选择了更“重要”信息。
第47
第47条依靠无疑是最重要的人物,如果我们要真正理解的逻辑谷歌如何回答问题,并组织数据。所以,在我们进入写的是什么,让我们来看看插图。值得注意的是,红色文字不是初始专利的一部分是很重要的,并已被我添加到提供的上下文。
每个节点包含一个件或数据的片和边表示包含在该边缘连接的节点中的数据之间的关系。在一些实现方式中,图包括节点中的一个或多个对由边缘连接的。边缘,因此,曲线图中,可以被引导,我。e。单向,指导,我。e。双向的,或两者兼而有之,我。e。一个或多个边缘可被无向和一个或多个边缘可以是在同一图表中定向。
引用的节点是圆形元件和包含数据; 线边缘和包含关系。例如,戴夫戴维斯(402)具有的哥雷·戴维斯(404)和两者都具有带纠缠(408)。
此图是非常简化以便于理解。在现实中,每个节点的将是唯一的ID,并且这些ID必须元素“有名称” – 但我们的目的,上图中效果很好。
第52
域是指相关的实体类型的集合。例如,域[膜]可以包括它们,例如,实体类型[演员],[导演],[拍摄地点],[电影],任何其它合适的实体类型,或其任何组合。在一些实现中,实体与类型的多个域关联。例如,实体节点[富兰克林]可与域中[政府]以及实体类型节点[发明者]实体类型节点[政治家]在域连接的[商业]。
在本节中,我们看到进一步的信息分组到域。合理的,我们可以假设,大多数或所有的域也将在其他应用节点。“奇洛李维斯”,例如,将链接到另一个节点“膜”由边缘节点“作用于。“?这两个节点将被包含在域“电影。“
第56条
[T]他知识图可以包括用于分化和术语和/或实体的信息消歧。如本文所用,分化是指其中多个名称与单个实体相关联的多对一种情况。如本文所用,消歧指其中相同名称与多个实体相关联的一个对多的情况。在一些实现中,节点可以被分配一个唯一的标识参考。在一些实现方式中,该唯一识别参考可以是字母数字字符串,一个姓名,一个数字,一个二进制代码,任何其它合适的标识符,或者它们的任意组合。该唯一识别参考可以允许系统分配给节点唯一的参考号与所述相同或类似的文本标识符。在一些实施方式中,唯一标识符和其他技术中使用了分化,消歧,或两者。
在第56条中,我们得到澄清分化(解决那里有一个实体的名称很多场景 – ?例如:电影,电影,轻弹)和消歧(解决那里是由多个实体共享的一个名字的情况下 – 例如:戴夫戴维斯)。
我们的唯一标识和其使用的部分再次发言。总之,你是不是你的,任何单位本身就是我们沟通的方式。每个实体是一个唯一的ID,并且该唯一ID被分配给包括更常见的参考文献,如名称和特性节点。
第58节
[T]这里可能是涉及到城市[费城],涉及到电影[费城]实体节点,以及与奶油奶酪品牌的实体节点的实体节点[费城]。每个节点可以具有一个唯一的识别基准,例如存储为数字,用于消除歧义的知识图内。在一些实施方式中,消除歧义的知识图由连接和多个节点之间的关系设置。例如,在城市[纽约]从状态消除歧义[纽约],因为这个城市是连接到实体类型[市]和状态连接到实体类型[状态]。应该理解的是更复杂的关系也可以定义和歧义节点。例如,一个节点可以由相关联的类型来定义,通过用特定性质连接到它的其他实体,通过其名称,通过任何其它合适信息,或者它们的任意组合。这些连接可以是在消歧有用的,例如,被连接到所述节点的节点[佐治亚] [美国]可以理解的表示在U。S。状态,而节点[格鲁吉亚]连接到结点[亚洲]和[东欧]可以被理解为代表国家在东欧。
虽然第58条的重点是讨论如何具体的实体可以通过他们的节点和连接标识,什么是真正重要的是在这里,这是由他们决定的方法,答案更可能是正确的。这将基于节点的组合,如在本节中,和域所讨论的,如前面所讨论。如果我问谷歌的问题:
“谁是在费城?“
谷歌了解到,根据问题的类型(即我在寻找的人)最有可能引用电影“费城。“这可能与所有参观过的城市已知的人的名单来回答,但它的?不太可能这就是我想要的信息。因此,谷歌提供了一个基于电影的答案。如果我改变我的问题:
“有多少人在费城?“
答案谷歌给出的1.5。53亿。它可以用在电影的演员总数已经回答了,但它选择的是什么感觉,是最有可能的答案感正在寻求基于现有的实体和数据的成帧追捧。
第61条
[N]和赋边缘限定的实体类型的节点和它的属性之间的关系,从而限定一个模式。
在这里,我们看到谷歌基本上是由它以前未定义打造自己的边沿和节点的模式转向非结构化数据放入结构。这将允许谷歌来生成自己的人(例如)架构不断调整,添加和删除与之相关的架构。
第68条
[S] eparate知识图被保持各自不同的结构域,不同的相应实体类型,或者根据任何其它适当的特性界定。
在本节中,我们看到谷歌创建单独的知识类型的图表针对不同类型的数据。也就是说,被请求不同的基于信息的类型取景答案。我们将进入为什么这是重要的下方。
现在,我们已经做了它对信息的关键位结束时,你可能会问左,?“所以呢?“好问题。
虽然谷歌的理解如何组织数据,你们自己,是一件好事,也有我们可以从这个拿走具体可操作的项目,可以显着提高我们的排名和相关性。最好的部分是,他们不是很辛苦,但实际上没有花太多精力 – ?只是你要查找的内容的理解。
包括让你的相关数据。好,?现在我要脱掉我的“船长明显的”帽子,并指出是谷歌发现相关到,如果我们简单地看该网站的回答是从画什么数据它对实体,我们将获得更深入的了解特定主题。虽然谷歌希望给一个答案,他们也希望自己的用户能够获得更完整的数据,如果需要的。因此,他们将更有可能排名有不只是回答一个网站,他们想要的,但可能的支持信息搜索者也可以找。
建立结构化的非结构化数据。虽然这显然理想的使用标记?结构化数据的引擎,它也是重要的框架内容,使得信息可以没有它连接。谷歌是希望通过内容来确定自己的连接,因此使用的语句,如“戴夫戴维斯的纠缠一个吉他手”将在具体理解其中戴维·戴维斯,你指的是帮助谷歌,他有什么角色是和谁这个角色是对于。如“奇想的戴维·戴维斯”的声明可能会有所回升为正确的实体; 然而,数据也不会被视为全面完成。? 这对谷歌罚款,因为他们可以得到很多其他地方该信息。不过,如果我们想要得到好的排名,我们要努力?要彻底。
而更多的结构。它已经讲过,这加强了专利,我们需要寻找到知识传递的方式,并相应地调整我们自己的数据。如果你看给定的问题的答案,“谁是戴维·戴维斯”上面,你会看到答案在段落格式给出。如果我们考虑到的专利,我们认为这是谷歌是如何实体之间的连接点,这些类型的查询。因此,如果我们有戴维·戴维斯的网页,我们希望结构段落格式,而不是在列表中的信息。这将是不同于“我该怎么办 。。。在他们的答案格式“键入往往诉诸名单查询。这是在第68条的讨论,也不会只是我们的能力影响排名的答案的问题,又是如何解释谷歌我们的网站和我们的内容结构的有效性。
实体是,在我不断所谓的愚见,谷歌的算法理解的最重要的方面之一,而这个专利增加了这一谅解。了解实体是理解谷歌如何看待它遇到的一切之间的连接。这有助于决定你如何组织你的内容(这是什么内容应该包括),以被视为不只是相关,但最相关。
而且你还能想比?
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。