神州泰岳首席科学家晋耀红:“UltraNLP Inside” 语义工厂的赋能之道
摘要: 正如大家熟知的“IntelInside”广告语一样,Intel公司只做计算机的CPU芯片,不做硬盘、显示器、主板等配件,也不做计算机整机组装;“UltraNLPIniside”,泰岳语义工厂只做NLP
正如大家熟知的“Intel Inside”广告语一样,Intel公司只做计算机的CPU芯片,不做硬盘、显示器、主板等配件,也不做计算机整机组装;“UltraNLP Iniside”,泰岳语义工厂只做NLP服务,不做业务流程、界面等业务逻辑相关的开发,也不做完整的解决方案。
泰岳语义工厂,将神州泰岳(300002)数十年来的NLP技术积累,以及在多个行业典型用户积累的应用场景知识、算法、模型,开放赋能给各行各业的应用开发者,使得应用开发者无须掌握NLP技术,即可拥有NLP能力,成为人工智能时代的弄潮儿。
“UltraNLP Inside”赋能01
语义工厂专注输出NLP能力
语义工厂将开放包含NLP基础服务、应用场景服务和数据服务等三大类服务,涉及16个行业领域,140多个场景的成熟服务。
与NLP相关的所有工作,我们均已打包到服务中。与算法相关的,如基础的语义资源、文本数据的标注、算法的参数调优、深度学习预训练模型等;与应用场景相关的,如业务模型的构建、算法的迁移、效果的评估等;与运行部署相关的,如Spark内存计算、TensorFlow环境配置、服务器资源的购置等。我们致力于输出最专业、最全面、最便捷、性价比最高的NLP服务。
开发者只需要一次调用,输入待处理的非结构化文本,即可输出想要的结构化数据。整个过程,无须开发者标注数据,无须调参,无须长时间训练,无须二次开发,即可以轻松地把NLP技术嵌入到自己的应用中去。
语义工厂不参与业务流程开发,不参与完整的解决方案开发,不跟各行各业的应用开发者竞争。对于应用开发者来说,语义工厂只相当于提供了一个服务模块,整体系统还是由应用开发者主导,而不管这个模块在整个系统或接近方案中占5%的比重,还是90%的比重。
02
语义工厂提供文本数据来料加工服务
语义工厂支持数据来料加工服务,根据用户需求,对用户数据,进行自动标注、抽取等加工,输出需求指定的数据格式。
支持人工对数据标注,以形成各种学习算法的训练数据集。
支持各种深度学习模型的训练,输出预训练模型。
03
语义工厂提供标准化服务和定制化服务
对已有成功应用的场景,语义工厂提供标准化服务,应用开发者无需需求分析、无需数据标注、无需模型训练,只需一次调用。
对没有成熟应用、或者个性化较强的场景,语义工厂提供定制化服务,应用开发者提需求,我们来开发。服务开发完成后,应用开发者仍然只需一次调用。
04
语义工厂提供公有云服务与私有云服务
语义工厂的所有服务,均搭建在公有云(目前是阿里云、亚马逊AWS云),对开发者提供线上SAAS调用服务。公有云环境,不仅节省成本,而且有专业的服务保障。
对于希望私有化部署的应用开发者来说,语义工厂提供线下OEM授权的方式,支持应用开发者在自有环境私有化部署,以满足更高的安全性需求。
05
语义工厂基础服务全免费
语义工厂中的NLP基础服务,全部免费,高级开发人员可以在此基础上进一步开发自己的NLP应用。
对于有明确应用场景的商业应用,语义工厂提供NLP场景应用,支持应用开发者零基础获得NLP能力。NLP场景应用按调用次数和数据量付费。语义工厂赋能给“谁”
广义上来说,凡是有文本处理需求的地方,都会用到语义工厂的服务。语义工厂的客户,会遍布各行各业,为举例方便,下面罗列几类典型的客户群。
01
行业应用开发商
有大量的应用开发商,在各行各业耕耘,开发着大大小小的应用系统,大到银行的风控系统,小到路边小店的管理系统。绝大多数的应用系统中,都会涉及到文本信息处理,如风控系统中,非结构化数据的加工、路边小店的点评信息提取等,区别只在于有的系统中文本信息处理比较关键,占比较重,有的系统则只是一个小功能,占比较小。
传统的商业模式下,行业应用开发商对文本信息处理的需求,要么组建一个NLP团队开发,自己开发;要么与BAT大厂商务合作,一起开发。不管哪种方式,应用开发商都觉得成本高,周期长,分利多。
语义工厂可以为行业应用开发商提供一种新的方式,按功能随用随调,不用启动成本,不用投入GPU服务器资源,不用投入人力研发。
02
大数据服务提供商
大数据服务提供商,为客户提供各种业务所需的数据,如企业工商注册信息等。他们提供的数据大体分为结构化数据和非结构化数据,其中的非结构化数据,需要用NLP技术加工成为结构化数据。
一般情况下,大数据服务提供商为了保证数据的安全性,都是自己组建NLP团队开发系统,支持文本信息处理。但是经常面临的问题是,NLP不是主营方向,投入资源不够,因此质量和进度很难保证。
语义工厂可以提供按数据条数进行调用,处理一条数据,支付一次费用。NLP服务输出的数据质量,语义工厂来保证,大数据提供商只需要专注自身数据业务。
03
人工智能创业公司
有大量的人工智能创业公司,面向行业提供解决方案。除了少数以NLP技术为创业方向的公司以外,大部分公司对文本信息处理的需求都没有大到能支撑公司运营的程度。在市场竞争如此激烈的情况下,创业公司一般都是人力少,资源缺,时间紧,而自己组建团队的一次性投入又太大,也很难招聘到高水平人才。语义工厂为创业公司提供了一个文本信息处理的新选择。
04
与文字打交道的知识型企业
司法、证券、审计、会计、人力资源等行业的企业业务中,有大量的非结构化文本处理需求,如裁判文书、招股说明书、医疗单据等。传统的方式,都是采用人海战术,由人来做提取、审核、校对的工作,成本高,效率低,重复度很高。
语义工厂可以为这类企业提供标准化的信息服务,如裁判文书的自动解析服务,可以帮助企业大大降低成本,提高效率。
05
政府机关与新闻媒体机构
政府机关和新闻媒体有大量的非结构化文本信息,如高检的卷宗、政府工作报告等,这些海量资源一旦变成结构化数据后,可以大幅度提升业务效率。
传统的方式是各部门单独规划、建设应用系统,但面临的难题是,系统建设有一定的周期,而数据又是动态的,往往刚上线就落后了,而且无法持续改进。
语义工厂可以为政府机关提供可持续发展的服务,语义工厂的专业团队在不断的改进算法,提高服务水平。
语义工厂的价值
01
最全面的NLP技术
语义工厂拥有最全面、经过实践检验的NLP技术,我们已经形成了完整的NLP技术体系,不仅有基础的NLP技术,如命名实体识别、句法分析等,有基于字的、词语的多维度深度学习预训练模型,有支持spark、TensorFlow等平台的部署工具,有140多个应用场景的业务模型,而且有面向业务场景的建模工具,支持应用场景的快速实现。关于NLP的技术,您能想到的,语义工厂都有。
02
可持续发展的服务
语义工厂已构建了一套完整的NLP工程化的项目管理流程,可以确保每个服务快速迭代,持续更新,不断改进服务效果。NLP技术日新月异,去年还是CNN、LSTM,今年流行的是BERT。传统NLP系统构建方式的尴尬是,往往是系统还没有建设完成,技术方案已经落后了,无法快速将新技术应用到已有系统中去。语义工厂的NLP项目管理流程,从算法的迭代、训练数据的更新,到需求的变更、性能的优化,一切以“敏捷”导向,确保服务每周更新。
03
最专业的NLP研发团队
语义工厂的研发团队,拥有20年的NLP研究与开发经验,在语义符号化、统计机器学习、深度学习预训练等方面,都有顶级专家带队。我们的开发团队服务过上百个客户。得到多个行业典型客户的认可,具有丰富的实战经验。专业的团队,是语义工厂服务质量的保证。
04
高性价比的服务
语义工厂的服务策略是“授人以鱼”,提供的服务是直接面向应用场景的,开发者只需付出一次调用的成本,即可获取所需要的处理结果。与自己组建团队开发,或者合作开发相比,省掉了人力成本、硬件资源成本、定制开发成本、时间成本等诸多投入,语义工厂提供更快捷、性价比更高的NLP服务。
“UltraNLP Inside”,因为专注,所以专业。语义工厂,让NLP赋能应用开发。
服务,语义,工厂,应用,NLP