苹果发布最新论文揭示虚拟助手Siri秘密

发布时间：2020-02-04 发布者：亚时财经

近日，苹果发布了一系列预印本研究论文，就如何改进语音触发检测和说话人验证，以及多人说话的语言识别技术进行了披露。

苹果发布的系列论文主要是围绕虚拟助手Siri展开，其中语音识别是论文研究的重点。论文称，苹果研究人员提出了一个训练过的人工智能模型，这个模型既能执行自动语音识别任务，也能执行说话人识别任务。研究人员在论文中解释，语音助手识别的命令通常以触发短语（例如，“嘿，Siri”）为前缀，检测这个触发短语主要涉及两个步骤，它们分别是语音触发检测和语音验证。

（图源：网络）

研究人员称，通常这两个步骤的任务是独立的，但是有合著者假设，如果语音助手对语音发起者有足够的了解，这或将对语音助手判断出语音发起者声音信号中的语音内容有极大的帮助，而这对于研究人员评估语音触发检测和语音验证两者属性有参考价值。

对此，研究人员设计了三套能够学习语音和说话人信息的模型，并对一组数据进行训练。进行训练的数据包含超过16000小时的带注释的样本，其中5000小时的音频有语音标签（其余的为说话人标签）。此外，训练的语音场景还包括安静的房间，厨房设备的外部噪音等。

通过对所有的语音数据进行测试，研究人员发现在提出的三种模型中，有一种在“多重”设置下的表现优于说话者验证基线，在文本无关的任务中相对于基线提高了7.6%。随后，研究人员根据对结果的观察，设计出了新训练模型，这种模型运行设备可有效节省设备内存、计算时间或延迟，以及消耗的电量/电池。

（图源：网络）

语音助手在识别语音发起者语音内容时，有错误触发的发生，对此，研究人员将通过基于图形神经网络（GNN）设计模型，减少语音助手识别错误语音内容情况的发生。

除了对语音触发检测披露论文研究外，在另一篇论文中，研究人员还针对多语种说话人识别进行了介绍。研究人员称，语音识别系统对大多数语言都有很高的准确性。但是，当有多重语言出现时，语音识别系统或将出现混乱。据《华盛顿邮报》近期委托进行的一项研究显示，谷歌和亚马逊生产的受欢迎的智能音箱听懂本土用户的语音比听懂非美式口音的概率高出了30%。

基于此种情况，研究人员设计了一种新系统，此系统主要通过声学模型建立，并能对多语种说话人内容进行预测识别。为了更好评估该系统，研究人员还开发了一种自定义指标--“平均用户准确度”（AUA，Average User Accuracy），以更好地反映模型中的“人口水平”使用模式。通过对系统测试，研究人员称此系统能有效甄别多语种人说话内容识别，用户使用的准确度达99.5%。

亚洲时报综合

责任编辑：杨颖

特别声明：本站转载或引用之图文若侵犯了您的合法权益，请与本站联系，本站将及时更正、删除。版权问题及网站合作，请通过亚时财经邮箱联系：asiatimescn@sina.com

上一篇：富士康母公司下调增长预期苹果为产能极端情况做准备

下一篇：主动请缨李兰娟院士再赴武汉

返回列表

热门话题更多>>

万亿级"巨无霸"将至..

国务院国资委网站3月31日发布消息，经报国务院批..[查看详细]

2021-04-01 10:43
国家统计局:3月份制..

3月份中国制造业采购经理指数、非制造业商务活动指..[查看详细]

2021-03-31 10:20
国际粮价暴涨，会影响..

联合国粮农组织公布的数据显示，2021年2月份，..[查看详细]

2021-03-25 15:22
去年中国家电市场人均..

3月22日，中国电子信息产业发展研究院发布的《2..[查看详细]

2021-03-22 16:53
风电板块拉升走强，可..

风电板块走强，节能风电拉升涨停，大金重工涨超6%..[查看详细]

2021-03-19 10:47
涉语音软件和“深度伪..

3月18日，国家互联网信息办公室、公安部加强对语..[查看详细]

2021-03-18 19:36
国家统计局:1-2月..

1-2月份，在以习近平同志为核心的党中央坚强领导..[查看详细]

2021-03-15 14:41
国务院总理李克强:老..

3月11日，国务院总理李克强在人民大会堂三楼金色..[查看详细]

2021-03-12 10:00
政府报告首提“积极”..

今日，核电板块走强，整个指数大涨4%。截至发稿，..[查看详细]

2021-03-08 15:11
政府工作报告最新解读..

今天上午，十三届全国人大四次会议在人民大会堂开幕..[查看详细]

2021-03-05 15:06

推荐文章