您现在的位置是:主页 > 品牌 > 阿里巴巴 >
AliOS语音识别功能实现多项任务同步处理
发布时间:2018年10月19日 14:59:35 阿里巴巴 人已围观
简介这句话表明了一个人想要享受一种悠闲的生活方式。具体来说,他计划前往曲院风荷,享受开天窗的清新空气,同时沉浸在周杰伦的经典老歌中。这不仅展示了他的出行目的,更传达了...
“我想在去曲院风荷的路上,打开天窗,听听周杰伦的经典歌曲。”
如果你对人说这句话,他们能很清晰地捕捉到你的三个意图:第一,前往曲院风荷;第二,开启天窗;第三,播放周杰伦的老音乐。
但假如把听话的人换成机器,比如汽车,它是否能够解读并响应这些操作呢?
众所周知,由于语音交互的便利性和安全性,它成为了车内互动的理想方式,几乎每个车载系统都在采用这一技术。然而,不同厂商的语音系统在性能上差异显著。像开篇提到的多任务语义理解,目前仍在行业中属于较为前沿的技术,且尚未有太多厂商能实现,而大多数都在努力提高语音识别和自然语言理解的准确性。
AliOS数据智能部门负责人陈华良表示,他们正在对语音技术进行升级,力求提升场景智能语义理解(SSLU:Scene-based Spoken Language Understanding)的效果,这是在自然语言理解的基础上,通过场景来提升语言理解的智能性,同时增强多领域任务的处理能力。
一般来说,常见的对话系统由多个模块组成,包括自动语音识别(ASR)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)以及语音合成(TTS)。
他进一步介绍,AliOS已经实现了一种创新的自我对话训练数据生成及众包方案,通过综合理解人、车、场景,结合语言学与语义学的知识图谱,训练一个端到端的深度学习对话系统,以提升场景的覆盖率与对话的流畅性,使系统在场景基础上更好地理解语音命令。
以开头提到的情境为例,AliOS能够首先精准识别“我想在去曲院风荷的路上,打开天窗,听听周杰伦的经典歌曲”中的每个词,然后结合用户的上下文,理解其意思,并相应调用服务,完成导航到曲院风荷、打开天窗以及播放周杰伦老歌的复杂指令。
陈华良强调:“口语的表达往往模糊且不完整,单凭大量语料数据来实现口语理解是远远不够的。我们认为,利用更多信息如人、车、场景等,才能带来更智能的自然语言理解,从而提供给用户更出色的语音体验。”他还提到,AliOS重点针对导航、音乐、有声书和电台等常见车载场景进行了技术优化升级,实现了多条件搜索、导航多任务操作、导航中偏好修改以及多槽查询等功能。
举几个具体例子,比如“我到中山公园的距离还有多远?”AliOS能够准确理解为询问当前位置到中山公园的距离;“把上次经过的点删掉”,AliOS能够准确执行删除上一次途径点的操作;“给我放几首应景的歌”,AliOS则能够根据当前的天气和时间播放合适的歌曲。