语音识别新进步 能和汽车直接对话了
多模语音应用实车演示 (DEMO实车,由量产车型改装)
通过DEMO CAR演示了语音全时免唤醒、可见即可说等功能。实现了隔空手势的交互,在后排是没有麦克风、物理按钮的情况下,可以在后排通过手势选择歌曲,做音量调节。
地平线车载智能交互产品总监孙浚凯
计算机视觉的技术本质是什么?
在孙浚凯看来,视觉也像语音一样,看清这个人是谁,目前的状态是什么,围绕状态的认知,下一步要理解它当前这个动作组合在一起,通过眼睛就能知道他的意图是什么。
通过电影的桥段也可以看出来,对人的真实意图的理解是多模态。视觉确实可以围绕看清、看准、看懂的方向进化,把它和语音组合在一起,去想深度理解人的意图。做到真正的多模融合的感知,才算能做到基础的察言观色。
AI的技术可以围绕对人的建模完成整体的察言观色
孙浚凯认为,2023年之后的趋势是整车智能一定会走向把车外的物理世界的建模,对人的建模按照同一个时间完成这个感知的融合。因此,基本上可以形成初步的共识就是在移动过程中是需要做这样的融合的建模,基于这样的框架,地平线面向整车智能的技术提供了一揽子的产品解决方案,包括智能驾驶、智能人机交互、流畅的人机共驾。
“征程3”强调的是多模交互融合的感知升级
孙浚凯介绍,在halo3时代,随着传感器的升级,人的眼耳口鼻通过基础传感器的升级它能力在扩展,它有更高清的眼睛,更多的耳朵,更高清的麦克风收声,它就可以实现整车交互的体验闭环。同时因为车又是很特殊的终端,它跟移动工具有很大的不同,有很独特的属性就是空间。随着车内外感知能力打通,把所有感知能力融合在一起,可以让用户有深度的心理安全和更好的交互体验。
孙浚凯表示,语音很痛的地方在于误唤醒、误识别,利用地平线多模融合技术,可以精准、细微地观察人说话的状态和唇部的特征,在方寸之间,不知不觉地,将识别的精准性大幅度提升。因为,只有识别听准了,后面才有可能真正在意图上做到听懂。有了这样的融合能力后,整体的驾驶也会更安全、更贴心、更懂你。
未来,当完成对人的建模之后,整个车是一个特殊的使用场景,是一个完整的机器,不单单需要对人进行理解,同时要对整个驾驶环境有认知。这样也就有了下一代的交互技术的开发愿景。
标签:融合 语音 人的 可以