从近讲到远场,小米自研语音技术让用户“自由场景自由说”

    来源: 赢家财富网 作者:佚名

    摘要: 智能语音行业已经进入蓬勃发展的时代,随着智能设备的逐渐增多,用户对语音交互的需求越来越大。在AIoT时代,智能设备的自然语言交互能力成为与用户沟通的重要一环。当用户对智能设备产生需求并进行对话时,语音的唤醒和识别能力直接决定了用户对设备的好感度。

      智能语音行业已经进入蓬勃发展的时代,随着智能设备的逐渐增多,用户对语音交互的需求越来越大。在AIoT时代,智能设备的自然语言交互能力成为与用户沟通的重要一环。当用户对智能设备产生需求并进行对话时,语音的唤醒和识别能力直接决定了用户对设备的好感度。

      依托于小爱同学、小米多款智能设备,小米持续深耕语音技术,希望在智能家庭、智能车载等丰富的使用场景之下,更进一步解放对用户语音识别环境的条件限制,让用户体验更自然、更自由、无压力的语音交互方式,更好地理解用户意图,为用户提供极致的智能语音交互体验。

      多通道端到端语音技术,让用户在“自由场景自由说”

      目前,业内各家的近讲语音唤醒和识别能力已经达到了较高的水平,在近距离、安静的环境下,用户与智能设备的语音交互已经基本无障碍。然而,在强噪声干扰、强房间混响、说话距离远、设备自身播放音源等条件下,智能设备与用户进行连续地自然语音交互仍然具有挑战性。

      如何让远场语音性能达到和近讲相近的水平,一直是困扰业界语音工程师的一大难题。鉴于此,小米语音团队的“多通道端到端语音技术”自研能力,取得比“传统多通道阵列增强模块加单通道语音技术”更好的性能。

      为了在远场声音中更准确的识别出目标语音,传统多通道阵列增强技术会使用空间滤波或语音分离算法,但这些算法引入了较多先验假设,在一些不符合假设的场景下,性能会明显下降。另外,传统多通道阵列处理技术是由多个技术模块串联组成,多个麦克风的数据会被送入回声消除、降噪、去混响、寻向和波束形成等模块,几个模块单独进行优化,优化目标并不一致。

      小米从2018年开始验证端到端语音唤醒和识别的思路,目标即从充满噪声、混响和回声的多个麦克风中直接学习语音特征,提升真实环境中的识别率和稳定性。经过一系列的校验,小米多通道端到端语音技术有三大明显优势。第一,端上的计算量变小,较之前减少了50%,缩短了所有的计算路径和时长;其次,端上的存储量变小,在原有的基础上大幅减少,减轻了存储压力;最后,“多通道端到端语音技术”直接用一个网络中的不同级去替代之前的多个模块,最后有一个一致的优化目标,避免误差的逐级传播。整个模型用一套神经网络表述,大幅减小系统设计复杂度,可以明显降低运算负荷。从大规模训练数据中习得的深度神经网络,比基于传统信号处理的方式,使用的先验假设少,可以涵盖更多的实际场景。

    从近讲到远场,小米自研技术拓宽了语音的想象力

      据小米语音工程师介绍,尽管传统信号处理具有一些方面的不足,但是其能够较好地处理麦克风阵列信号的相位,利用物理学中朴素的法则“同向相加,异向相消”对不想要的信号分量进行抑制。因此,小米的多通道语音识别模型不仅采用了更先进的深度神经网络,也同时继承了传统信号处理理论对相位处理的精髓,将传统前端算法和深度神经网络的优势进行互补,也即将传统信号处理的概念进一步拓展,充分利用深度神经网络的非线性处理能力,提出一种全神经网络语音识别模型。

      在语音识别大牛Daniel Povey加入小米后,小米的语音交互在原有的基础上更进一步。终于让多通道端到端语音方案性能超过了传统方案。经过数据测试,多通道端到端语音技术让远场语音识别性能相对提升了10%,使用户与智能设备的交互更加顺畅。

      从3G时代,到4G时代,再到5G时代,智能语音交互也发生着巨大的变革。多通道端到端的语音技术不仅让用户交互方式更加自由,同时也降低了硬件的产品功耗。从近讲的唤醒识别到远场的唤醒识别,从单通道到多通道,小米自研语音技术旨在帮助用户在自由的场景下实现自由说的目标。未来,小米将智能语音技术落地至更多应用场景,不断突破自研技术,为用户提供更加极致的语音交互体验。


    关键词:

    小米,自研,语音技术

    审核:yj136 编辑:yj136

    免责声明:

    1:凡本网注明“来源:***”的作品,均是转载自其他平台,本网赢家财富网 www.yjcf360.com 转载文章为个人学习、研究或者欣赏传播信息之目的,并不意味着赞同其观点或其内容的真实性已得到证实。全部作品仅代表作者本人的观点,不代表本网站赢家财富网的观点、看法及立场,文责作者自负。如因作品内容、版权和其他问题请与本站管理员联系,请在30日内进行,我们收到通知后会在3个工作日内及时进行处理。

    2:本网站刊载的各类文章、广告、访问者在本网站发表的观点,以链接形式推荐的其他网站内容,仅为提供更多信息供用户参考使用或为学习交流的方便(本网有权删除)。所提供的数据仅供参考,使用者务请核实,风险自负。

    版权属于赢家财富网,转载请注明出处
    查看更多
    • 内参
    • 股票
    • 赢家观点
    • 娱乐
    • 原创

    中基协:截至2月底证券期货经营机构私募资管业务规模合计13.82万亿元

    3月31日,中基协发布2023年2月证券期货经营机构私募资管产品备案月报。数据显示,2023年2月,证券期货经营机构当月共备案私募资管产品800只,设立规模375亿元。

    2月底证券期货经营机构私募资管业务规模13.82万亿元

    3月31日,中国证券投资基金业协会发布的2023年2月证券期货经营机构私募资管产品备案月报显示,2023年2月证券期货经营机构共备案私募资管产品800只,设立规模375.00亿元。

    吸收外资扩量更要提质

    近日,多家知名外企高管密集来华考察,纷纷表达深入布局中国市场的积极意愿,传递出“中国市场不是可选项,而是必选项”的鲜明信号。在当前我国经济回升背景下,应把握时...

    众兴菌业:公司2023年一季度报告预约披露时间为2023年4月11日

    众兴菌业(002772)04月01日在投资者关系平台上答复了投资者关心的问题。投资者:请问公司何时公布23年一季报的预报?谢谢!众兴菌业董秘:您好,感谢您对公司的关注!公司...

    早知道:2023年3月31号热点概念与题前瞻

      沪指高开探底回升以阴线收盘,时空工具显示指数当前处于下跌趋势中,以看空为主。沪指今日下探赢家十二宫下跌结构底部3216点获得支撑后再次上攻,挑战极反通道生命线...

    早知道:2023年3月30号热点概念与题前瞻

      沪指高开探底回升以阴线收盘,时空工具显示指数当前处于下跌趋势中,以看空为主。沪指近日上攻赢家十二宫下跌结构警戒线3280点受阻后持续下跌,继续维持原观点,短期...

    投资热点股票,相比投资价值股票和热点股票哪个更好?

    热点股票是指交易活跃的股票。这些股票通常是吸引投资者关注的热门股票和主题股票,其换手率比其他股票高。不同交易所活跃股票的换手率也不同。

    柬埔寨的首都是哪个城市,柬埔寨的经济发展状况如何

    许多人喜欢去柬埔寨旅游,大多数人去柬埔寨旅游的时候,会选择柬埔寨的首都作为他们第一个旅游城市。那么,柬埔寨的首都是哪个城市?

    股票软件《赢家江恩证券分析系统》