赢家财富网>概念题材>正文

让AI成为更懂你的知音——云从科技语音技术刷新多项权威纪录

时间： 2021-04-19 17:22:47 来源：互联网作者：佚名

扫描到手机

摘要：让AI听得出、听得清，听得懂，成为每个人的真正“知音”，是云从人机协同战略让机器从知音到知心迈出的重要一步。

　　参加文末留言互动有福利哦

　　让AI听得出、听得清，听得懂，成为每个人的真正“知音”，是云从人机协同战略让机器从知音到知心迈出的重要一步。

　　近日，云从科技语音技术取得多项重大突破，在语音识别、语义纠错、深度学习降噪等领域刷新多项国际、国内语音识别权威纪录，超越亚马逊、搜狗等企业创下的此前最好成绩，夯实业界领先的技术地位。

　　此次云从创新提出的新模型，对应语音技术不同角度的突破，包含巨大的应用价值，推动技术朝更智能地“听”迈进了一大步：

　　语义纠错技术

　　在权威中文语音识别数据集Aishell和清华大学语音Thchs30测试集上，将字错率（Character Error Rate，CER）第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。

　　这意味着让AI“听得懂”：字错率降低代表使语音更准确地转换文字，纠正语义的错误。

　　语音识别技术

　　刷新Aishell纪录，将字错率降低到4.34%，较过去最好成绩降低了8%；云从团队提出的新模型，巧妙融合了语音识别和说话人识别，提高识别率的同时，极大提升了在不同说话人场景下的鲁棒性。

　　这意味着让AI“听得出”：将每个人同“指纹”一样独有的“声纹”识别出来，指标提升意味着更精准识别出说话者。

　　深度学习降噪模型

　　在国际顶会Interspeech2020 DNS Challenge比赛数据集上取得了目前最好的结果。

　　这意味着让AI“听得清”：针对在嘈杂环境去除噪声，使语音更清晰。

　　这是云从持续耕耘原创技术的成果，也是云从对人机协同战略付诸实践的有力行动：让AI能够更清晰理解人们的需求，听懂“声音”，更听懂“心声”，让AI真正成为人们的“知音”伙伴。

　　在语音技术高度发展的基础上，每提升1个百分点的准确率，都如同征服一座高山。此次云从一举在三项语音技术上取得新突破、新模型，不仅展现出深厚的科研基础与强大创新能力，同时也彰显出云从技术实力的全面性与综合性。

　　近年来语音技术已经广泛应用于人们的生活，但大多是依托智能语音设备在室内安静环境下的单人交互，云从团队提出的多个创新模型，对于突破业界瓶颈，攻克嘈杂环境、多人对话等复杂应用难题，具有重大意义。

　　在人工智能第二浪背景下，全链技术形成行业价值闭环、AI工程学的重要性日益突显。云从科技在视觉、语音等技术频频突破，再次夯实核心技术闭环实力，为行业打造更全面、更有价值的智能化方案，为每个人构筑更流程灵活的交互体验。

　　创新研究模型直击技术难点

　　此前云从的语音技术已取得刷新全球最大开源语音识别数据集Librispeech纪录、发表多篇顶会论文、发表多篇新型发明专利等成绩。

　　尽管近年来整个人工智能语音领域有了快速发展，但目前常见语音交互场景多是在安静环境下的单人交互，在日常应用仍有诸多问题亟待突破：

　　例如在多人场景的语音、噪声混合中，如何追踪并识别至少一个声音、正常在嘈杂环境下正常交流，也就是“鸡尾酒会问题”，仍是研究者们致力解决的难题。

　　针对这些技术难点，云从在语音识别、语义纠错、深度学习降噪等多个方向上，创新性提出新模型，并在多个数据集上刷新最优成绩。

　　语义纠错：

　　针对常见的语法纠错、拼写纠错与语音识别系统转写的错误分布差异较大、传统模型不适合直接使用等问题，云从科技提出一种基于BART预训练模型的语义纠错技术方案，不仅可以对数据中常见的拼写错误进行纠正，还可以对一些常识错误、语法错误，甚至一些需要推理的错误进行纠正。

　　在云从科研团队一万小时语音数据的实验中，纠错模型可以将基于3gram WFST解码结果的错字率相对降低21.7%，取得与RNN重打分相近的效果。在RNN重打分的基础上使用纠错，可以进一步取得10.3%的CER相对降低。

　　Table.3CER of LM rescored output with SC model

　　部分纠错示例如下：

　　语音识别：

　　云从科研团队结合声纹识别x-vector embedding以及自研multi-stream TDNNF结构的XmasNet，刷新Aishell的纪录，在测试集Aishell-test上CER指标提高到4.34%，相比于SOTA，提升了8%。这种方法结合了最新的说话人识别技术，进一步提高了语音识别在口音环境下的识别率。

　　值得一提的是，本次云从团队提出新模型结构，在训练数据固定（原始178小时音频）的情况下，仅通过优化模型结构，取得识别率的提升。

　　该结构巧妙融合了语音识别和说话人识别，提高识别率的同时，极大提升了在不同说话人场景下的鲁棒性。

图：x-vector embedding

图：XmasNet网络结构

　　深度学习降噪：

　　云从科研团队提出一种基于U-Net和注意力机制attention的深度学习神经网络模型CARN模型，在DNS Challenge比赛数据集上取得了目前最好的结果。

　　该数据集中，亚马逊PoCoNet模型、西北工业大学和搜狗合作的DCCRN模型等在具有混响的仿真场景和真实场景下，只能得到中等品质的音频；相比之下，云从CARN模型在各类场景下均有优秀表现，无论是没有混响的仿真场景（no_reverb）、还是具有混响的仿真场景和真实场景下，都能大幅减少音频中的噪音，处理取得清晰的优质音频，提升音频的清晰度。

　　坚持以人为核心共创人机协同温暖未来

　　在AI领域，能够在单项技术上领先已属不易，而云从科技不满足于此。通过自研语音、视觉、NLP等多项技术领跑业界，以更坚实的技术闭环为人机协同构筑基底，不仅是云从基于人工智能大势的选择，也是云从面向人们的需求、推进人机协同时代的坚持。

　　从人工智能产业发展角度来看，经历了对计算机视觉等单点技术的狂热追捧，客户逐渐发现自身的复杂需求难以得到快速响应。

　　在云从看来市场需求带来了AI的第二浪：客户转向寻求获取人工智能综合解决方案，以实现对全业务链条的 AI 赋能，形成行业价值闭环。云从将人工智能技术整合为端到端的综合解决方案，在了解客户业务流程的基础上，将算法平台、AIoT设备和专家知识服务整合为场景化解决方案，定义和打造客户智慧化蓝图。

　　云从创新性提出了AI工程学的概念，首先提升人工智能技术自身的生产效率，实现算法模型的批量化产出，将AI产业带入工业化大生产时代。在此阶段，云从提供的不再是计算机视觉等单点技术，而是综合了听说读写等感知能力的全链人工智能技术，基于多项技术构建全面解决方案。

　　例如，云从的智慧网点解决方案，综合视觉、语音、自然语言处理等多项技术，应用于智慧迎宾、用户身份核验、AI双录等多个场景。目前云从已携手多家银行落地方案，共同为用户带来流畅、完整的智能体验。

　　正因技术闭环的重要性，云从坚持技术与应用双轮驱动：在技术上精益求精，领跑业界；同时深耕场景应用，基于视觉、语音等全面技术的核心技术闭环，构建人机协同操作系统与行业解决方案，赋能智慧金融、智慧治理、智慧出行、智慧商业等各行业。

　　多来年，让技术真正帮助每一个人、让技术真正“有用”是云从始终坚持的理念。人工智能驱动社会转型的浪潮正在开启，云从将不断突破自我，以人机协同的力量助力社会转型，让AI向善，真正实现理解人、帮助人、提升人，帮助每个人创造幸福生活。

审核：yj138 编辑:yj138

关键词：

云从,模型,AI

分享到：

免责声明:

1：凡本网注明“来源：***”的作品，均是转载自其他平台，本网赢家财富网 www.yjcf360.com 转载文章为个人学习、研究或者欣赏传播信息之目的，并不意味着赞同其观点或其内容的真实性已得到证实。全部作品仅代表作者本人的观点，不代表本网站赢家财富网的观点、看法及立场，文责作者自负。如因作品内容、版权和其他问题请与本站管理员联系，请在30日内进行，我们收到通知后会在3个工作日内及时进行处理。

2：本网站刊载的各类文章、广告、访问者在本网站发表的观点，以链接形式推荐的其他网站内容，仅为提供更多信息供用户参考使用或为学习交流的方便（本网有权删除）。所提供的数据仅供参考，使用者务请核实，风险自负。

版权属于赢家财富网，转载请注明出处查看更多

本文相关推荐

赢家增值服务

概念推荐

更多>>

可燃冰02-24 13:25

2月24日可燃冰板块涨幅达6%

恒泰艾普 +12.98% 山东墨龙 +10.04%
两桶油改革02-23 09:23

国泰君安证券：俄承认顿巴斯地区独立，油价上行风险加剧

中油资本 +9.96% 石化油服 +2.73%
页岩气02-24 13:24

2月24日页岩气板块涨幅达4%

恒泰艾普 +13.14% 山东墨龙 +10.04%
油品改革02-23 09:23

国泰君安证券：俄承认顿巴斯地区独立，油价上行风险加剧

准油股份 +10% 仁智股份 +9.9%
煤炭开采02-28 09:23

煤价区间机制再完善，煤炭股稳业绩利好估值重塑

平煤股份 +5.85% 电投能源 +4.67%

开盘必读

[大盘]江恩看盘-挺起A股脊梁反弹来了（1月27号） 2022-01-27
[大盘]江恩看盘-市场中期转弱短线快跌之后反弹不会缺 2022-01-26
[策略]2022年2月8日赢家早盘解读 2022-02-08
[早盘]早知道:2022年2月28号热点概念与题前瞻【附股】 2022-02-28
[早盘]早知道:2022年2月25号热点概念与题前瞻【附股】 2022-02-25
[预测]黄金珠宝消费需求旺盛煤价形成机制得到完善 2022-02-28
[预测]汽车芯片价格持续大涨资金流入服装家纺 2022-02-25
[午评]2022年2月28号A股午盘点评 2022-02-28
[揭秘]2022年2月25涨停揭秘 2022-02-26
[揭秘]2022年2月24涨停揭秘 2022-02-26

登录

让AI成为更懂你的知音——云从科技语音技术刷新多项权威纪录

免责声明:

本文相关推荐

赢家增值服务

概念推荐

可燃冰02-24 13:25

两桶油改革02-23 09:23

页岩气02-24 13:24

油品改革02-23 09:23

煤炭开采02-28 09:23

开盘必读

您可能喜欢的概念

登录

内参消息

赢家观点

内参频道

让AI成为更懂你的知音——云从科技语音技术刷新多项权威纪录

免责声明:

本文相关推荐

赢家增值服务

概念推荐

可燃冰02-24 13:25

两桶油改革02-23 09:23

页岩气02-24 13:24

油品改革02-23 09:23

煤炭开采02-28 09:23

开盘必读

您可能喜欢的概念