太平洋门户语音搜索和虚拟助手- SMX高级会议概述

语音搜索现在是热门话题,有人说到2020年,50%的查询可能是通过图像或语音进行的。我个人认为这一估计过于激进,但事实是,这是一个快速增长的市场。

同样重要的是要意识到“语音搜索”可能不是正确的标签。我这样说是因为许多“查询”实际上是命令,比如“打电话给妈妈”。你绝不会在谷歌搜索框中输入这样的内容。

尽管如此,对于那些及早发声的人来说,还是有很大的机会。学习会话接口是一项艰苦的工作,需要实践和经验。

出于这个原因,我很期待在SMX高级会议上看到优化语音搜索和虚拟助手的小组讨论,今天我将简要介绍三位演讲者的分享内容。

Upasana Gautam, Ziff Davis

首先是Upasana Gautam(又名pa)。她的重点是谷歌如何衡量语音识别的质量,正如这篇谷歌白皮书所记录的那样。

Pas回顾了论文中讨论的五个主要质量指标:

单词错误率(WER)。

语义质量(Webscore)。

困惑(PPL)。

词汇表之外的率(OOV)。

延迟。

接下来,她详细介绍了质量指标。

字错误率(WER)

这个度量在单词层面上度量误识别的度量,计算方法如下:

对于什么会影响最终的搜索结果,WER并不是一个很好的衡量标准,所以当它被衡量时,它是次要的。

Webscore

Webscore跟踪识别器的语义质量。较高的认知水平导致较高的网络分数。时间关系和语义关系是WebScore的全部内容,而谷歌将大量精力放在优化这个度量上。计算公式如下:

困惑

根据查询中已识别的单词,可以识别的单词集的大小。它可以作为语言模型质量的粗略度量。Perplexity得分越低越好。计算公式如下:

词汇量不足率

这个度量跟踪的是不在语言模型中的单词数量,并且将这个数字保持在尽可能低的水平非常重要,因为它最终将导致识别错误。这种类型的错误还可能由于对语言模型的后续错误预测和声音失调而导致周围单词的错误。

延迟

这是通过语音完成搜索所需的总时间。其成因有:

判断演讲结束所花费的时间。

识别语音问题的时间。

执行web查询的时间到了。

是时候回到客户身上了。

是时候在浏览器中呈现结果了。

如果您对开发语音助手解决方案感兴趣,那么理解这个模型是有用的,因为它允许我们在对话接口中更好地调优我们自己的语言模型。我从我们开发的语音助手中学到的一件事是选择简单的激活短语可以提高我们行动或技能的整体效果。

滚动至顶部