乐天集团中国产业园区品牌连锁运营商

苹果发布最新论文揭示虚拟助手Siri秘密

发布时间:2020-02-04 发布者:亚时财经

近日,苹果发布了一系列预印本研究论文,就如何改进语音触发检测和说话人验证,以及多人说话的语言识别技术进行了披露。

 

苹果发布的系列论文主要是围绕虚拟助手Siri展开,其中语音识别是论文研究的重点。论文称,苹果研究人员提出了一个训练过的人工智能模型,这个模型既能执行自动语音识别任务,也能执行说话人识别任务。研究人员在论文中解释,语音助手识别的命令通常以触发短语(例如,“嘿,Siri”)为前缀,检测这个触发短语主要涉及两个步骤,它们分别是语音触发检测和语音验证。


(图源:网络)

 

研究人员称,通常这两个步骤的任务是独立的,但是有合著者假设,如果语音助手对语音发起者有足够的了解,这或将对语音助手判断出语音发起者声音信号中的语音内容有极大的帮助,而这对于研究人员评估语音触发检测和语音验证两者属性有参考价值。

 

对此,研究人员设计了三套能够学习语音和说话人信息的模型,并对一组数据进行训练。进行训练的数据包含超过16000小时的带注释的样本,其中5000小时的音频有语音标签(其余的为说话人标签)。此外,训练的语音场景还包括安静的房间,厨房设备的外部噪音等。

 

通过对所有的语音数据进行测试,研究人员发现在提出的三种模型中,有一种在“多重”设置下的表现优于说话者验证基线,在文本无关的任务中相对于基线提高了7.6%。随后,研究人员根据对结果的观察,设计出了新训练模型,这种模型运行设备可有效节省设备内存、计算时间或延迟,以及消耗的电量/电池。


(图源:网络)

 

语音助手在识别语音发起者语音内容时,有错误触发的发生,对此,研究人员将通过基于图形神经网络(GNN)设计模型,减少语音助手识别错误语音内容情况的发生。

 

除了对语音触发检测披露论文研究外,在另一篇论文中,研究人员还针对多语种说话人识别进行了介绍。研究人员称,语音识别系统对大多数语言都有很高的准确性。但是,当有多重语言出现时,语音识别系统或将出现混乱。据《华盛顿邮报》近期委托进行的一项研究显示,谷歌和亚马逊生产的受欢迎的智能音箱听懂本土用户的语音比听懂非美式口音的概率高出了30%。

 

基于此种情况,研究人员设计了一种新系统,此系统主要通过声学模型建立,并能对多语种说话人内容进行预测识别。为了更好评估该系统,研究人员还开发了一种自定义指标--“平均用户准确度”(AUA,Average User Accuracy),以更好地反映模型中的“人口水平”使用模式。通过对系统测试,研究人员称此系统能有效甄别多语种人说话内容识别,用户使用的准确度达99.5%。

 

 

亚洲时报 综合

责任编辑:杨颖


特别声明:本站转载或引用之图文若侵犯了您的合法权益,请与本站联系,本站将及时更正、删除。版权问题及网站合作,请通过亚时财经邮箱联系:asiatimescn@sina.com

热门话题更多>>

推荐文章

更多>>

扫一扫手机阅读

ATimesCN手机网站