在第六届学习表征国际会议上,谷歌AI的研究人员Jannis Bulian和Neil Houlsby发表了一篇论文,阐述了他们正在测试的改进搜索结果的新方法。
虽然发表一篇论文肯定不意味着这些方法被使用了,甚至将被使用,但它很可能增加结果非常成功的可能性。当这些方法还与谷歌正在采取的其他动作结合时,几乎可以肯定。
我相信这正在发生,而且这些变化对于搜索引擎优化专家和内容创造者来说意义重大。
那么,到底发生了什么?
让我们从最基本的开始,看看正在讨论的主题。
一幅图片胜过千言万语,所以让我们从这篇论文的主要图片开始。
这张图片绝对不值千言万语。事实上,如果没有文字,你可能会迷失方向。你可能正在可视化一个搜索系统看起来更像:
搜索系统的最基本形式是:
用户问一个问题。
搜索算法解释问题。
算法(s)应用到索引数据,并提供一个答案。
我们在第一张图中看到的,说明了本文讨论的方法,是非常不同的。
在中间阶段,我们看到两个部分:重新制定和汇总。基本上,在这个新过程中发生的事情是:
用户向活动问题回答(AQA)代理的“重新制定”部分提出问题。
“重新制定”阶段采用这个问题,并使用下面讨论的各种方法,创建一系列新问题。
这些问题中的每一个都被发送到“环境”(我们可以粗略地认为这是核心算法,就像你现在认为的那样)以获得答案。
在“聚合”阶段,为每个生成的查询提供一个答案给AQA。
获胜的答案将被选择并提供给用户。
看起来很简单,对吧?这里唯一真正的区别是生成多个问题,并由系统确定哪个是最好的,然后将其提供给用户。
真见鬼,有人可能会说,算法已经在评估许多网站,并协同工作,以找出查询的最佳匹配。有点扭曲,但不是革命性的,对吧?
错了。除了这幅图像,这张纸和这个方法还有很多。让我们向前推进。是时候添加一些…
机器学习
这种方法的真正力量在于机器学习的应用。以下是我们需要问的关于我们最初的崩溃的问题:
系统如何从不同的问题中选择?
哪个问题给出了最好的答案?
这就是它变得非常有趣的地方,而结果,令人着迷。
在他们的测试中,布连和霍斯比以一组“Jeopardy!”类似的问题(如果你看了这个节目,你知道这是真正的答案)。
他们这样做是为了模拟需要人类大脑推断正确或错误反应的场景。
如果你不熟悉游戏节目“Jeopardy!”这里有一个快速剪辑来帮助你理解“问题/答案”的概念:
摘要:
面对复杂的信息需求,人类通过重新构建问题、进行多次搜索和聚合响应来克服不确定性。受到人类提出正确问题的能力的启发,我们展示了一个学会为用户执行这一过程的代理。
这是“Jeopardy!”向算法提出的问题/答案。我们可以看到如何将问题转换为查询字符串:
对于这位魔法师和曾经的外科医生来说,旅行似乎不是什么问题;星体投射和瞬间传态不成问题。
这不是一个容易回答的问题,因为它需要收集各种数据,还需要解释通常具有隐蔽性的问题本身的格式和上下文。事实上,没有人发布“危险边缘!”-就像问题一样,我不认为谷歌目前的算法能够返回正确的结果,这正是他们想要解决的问题。
布连和霍斯比用“Jeopardy!”的问题,并计算出一个成功的答案,就像一个给出正确或错误的答案。算法从不知道为什么一个答案是正确的或错误的,所以它没有任何其他信息来处理。
由于缺乏反馈,算法只能通过获得正确答案来学习成功的度量标准。这就像在一个类似于现实世界的黑盒子里学习。
他们的问题是从哪里来的?
考试中使用的问题是从哪里来的?它们在重新构思阶段被喂给“使用者”。一旦添加了问题,流程如下:
从查询中删除停止词。
将查询改为小写。
增加了wh-短语(who, what, where, when, why)。
加释义的可能性。
转述一下,该系统使用联合国的平行Corpu