科大讯飞机器翻译系统挑战CET6翻译考试
摘要: 12月18日下午,合肥师范学院一间特殊的考场内,“考生”是科大讯飞(002230)一套机器翻译系统。它一连考了三道翻译题,每道题满分15分,它得到13分的均分。考题来自三天前结束的大学英语六级考试,评
12月18日下午,合肥师范学院一间特殊的考场内,“考生”是科大讯飞(002230)一套机器翻译系统。
它一连考了三道翻译题,每道题满分15分,它得到13分的均分。
考题来自三天前结束的大学英语六级考试,评分的是两位具有六级阅卷经验的高校资深专家,“这套机器翻译系统的表现让我们惊喜,翻译得很地道。”对于成绩,她们的鉴定是:优秀!
成绩:达大学英语六级翻译“优秀”
每次通过率只有30%左右,也足以说明六级考试的不易。但科大讯飞还是决定要挑战。
为确保在断网和无人工干预的情况下测评,科大讯飞的团队12月14日就将机器和系统封存在公证处。12月18日,在公证人员的见证下,考官分别打开三道考题,由人工输入电脑后系统作答,不到5秒便导出了文本。
成绩令人惊喜:每道题取三位评分专家的平均分,再计算三道题的平均分,最终机器翻译系统拿下13分。参考往年大学英语六级翻译考题的表现,可达到优秀六级考生的水平。
据悉,在参加此次评测前,科大讯飞研发人员在2014年6月到2018年6月的大学英语六级26道翻译考题上进行了测试,平均分达到12.8分,与此次测试结果基本持平,“这也说明机器翻译可以稳定在高水平。”
难点:自然语言的复杂性
据了解,科大讯飞自2012年启动机器翻译的研发工作,目前已取得不俗的成绩,很多技术也达到世界领先水平。
2014年,在IWSLT口译翻译比赛上就取得了中英互译的第一名;2015年在NIST国际openMT机器翻译比赛,中英人工主观分获得冠军;刚刚过去的2018年IWSLT比赛,在端到端的语音翻译上再次以显着优势取得第一名的成绩。
但机器翻译还是很难,“主要是其处理的对象——自然语言存在复杂性。”研发人员介绍,自然语言是人类在社会生活中,通过不断的重复性使用而自然进化形成的沟通媒介(语言),并且在此过程中缺少规划和设计,使得语言本身就存在诸多不确定性,“同样一句话,在不同的语境中不同人就有不同的理解。”
创新:面向领域的讯飞神经机器翻译系统
“最新一代技术是基于端到端的神经机器翻译。”神经机器翻译算法的提出,是当前机器翻译取得重大突破的关键。
“六级翻译题涉及文化、经济、历史、社会等多领域,还有不少专业表达或中国特色词汇,在整个翻译系统可供训练的语料中是比较匮乏的。”科大讯飞为了破解这一难题,对神经机器翻译进行若干改进,其中一项重要改进是领域翻译技术,即在通用翻译模型之上进行了领域定制。
其中一项技术是领域个性化。“传统翻译模型一般针对具体应用场景搜集该领域相关语料,但在实际应用中,由于‘精力不够’会导致其他领域的翻译效果受影响。”这就好比学习中的“偏科”,从而影响了总分。为此,科大讯飞研发人员在保持原有翻译系统不变的基础上、引入额外的旁支模型,“可最大程度实现目标领域和其他领域翻译性能的兼顾。”
方案内的另一项技术是术语词典拼接融合。“翻译中常会遇到行业术语,有的机器可能没有见过、有的见过却在不同行业有不同翻译方式。”科大讯飞给出的解决方案是:提前将行业领域的关键词汇融入翻译模型,指导机器在平日训练中自动学习术语,从而在翻译过程中产生正确的译文。
基于上述领域翻译技术,科大讯飞推出了面向行业的翻译解决方案。
应用:有请“行业翻译官”
基于机器翻译技术的不断突破及创新方案的提出,“身怀绝技”的机器翻译系统,也得以在应用领域内“大显身手”。
早在2016年,科大讯飞发布讯飞翻译机产品,并在业界第一个推出了纯离线的神经网络的离线口语翻译系统。而今,讯飞翻译机的用户遍及全球170个国家。刚刚过去的双十一,在翻译机品类中,讯飞翻译机占据了70%的销售份额,远远领先市面上其他的同类产品。
“尽管机器翻译技术已取得大幅进步,在语料丰富的语言和用户相对配合的使用环境下达到可用性门槛,但由于语言本身的复杂性,机器翻译还有很长的路要走。”科大讯飞研究人员表示。(张沛)
翻译,机器翻译,领域,系统,科大讯飞