微软已将其空间分割树和图形(SPTAG)算法作为一个开放源码的GitHub项目向所有人开放,该算法用于微软自己的Bing搜索引擎。该算法使用向量搜索和深度学习模型提供基于搜索意图的结果。
理解SPTAG。该算法允许用户在毫秒内搜索数十亿条被称为向量的信息。理论上,这就等于更快地交付更相关的结果。
尽管这不是一个新概念,但通过向量化数据(将数字表示分配给单词、图像像素或其他数据点的过程)可以实现这一点。通过捕获数据的意义以这种方式和应用深度学习模型来将它与其他条款,微软表示它可以开始理解和代表搜索意图,这应该意味着结果匹配用户真正想要的东西(而不仅仅是他们使用的关键字)。
在其博客中,微软使用了这个问题,“巴黎的塔有多高?”举个例子。即使埃菲尔铁塔不是查询的明确部分,Bing仍然可以返回一个直接的答案。
Bing_vector_search_result
这个词的含义。通过向公众开放其算法,微软继续从一个封闭的生态系统向一个更容易接近和吸引人的生态系统的广泛转变,这可能是过去几年该品牌复兴的因素之一。上传至微软子公司Github的事实,也象征着微软为取悦开发者社区所做的努力。
开发者将能够使用微软的向量搜索技术来构建自己的搜索引擎,或者通过提交更新来帮助改进它。除了传统的搜索,Bing团队预测它将被用于企业或面向消费者的应用,如通过音频片段识别语音或更快地确定图像内容。
我们为什么要关心。更接近搜索者的实际意图意味着我们可以了解他们在寻找什么并提供它;或者如果我们不能,我们将浪费更少的资源去追逐没有投入的用户。微软对SPTAG进行开源是一种真诚的姿态,但它也为开发人员打开了一扇门,可以在算法的基础上进行构建,并可能以我们尚未想象到的方式扩展传统的、音频和视觉搜索。