突破!一场国际竞赛,22项第一!

11月10日,

国际低资源多语种语音识别竞赛OpenASR

落下帷幕,

科大讯飞-中国科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队(以下简称联合团队)

参加了所有15个语种受限赛道和

7个语种非受限赛道,

并全部取得第一名的成绩!

继前不久荣获多语言理解评测XTREME冠军之后,科大讯飞在多语种领域再次取得突破,在探索人机交互更自然、人人沟通无障碍的征程中又迈出了坚实的一步,也为中国多语种语音语言技术赶超国际先进水平、中国智能制造的全球化奠定了坚实的基础。

一场比赛,22项第一

从大语种向低资源多语种拓展

图1:15个语种信息

本次比赛共包含15个语种,涵盖受限赛道(Constrained condition)、受限附加赛道(Constrained Plus)和非受限赛道(Unconstrained Condition)。

其中受限赛道为各参赛单位必选项,每个语种只能使用组委会提供的10小时标注语音识别数据,受限附加赛道在受限赛道的基础上允许使用开源的预训练模型,而非受限赛道可以使用组委会提供10小时受限数据之外的数据。

科大讯飞-中国科大联合团队提出了基于语音和文本统一空间表达的半监督语音识别框架(Unified Spatial Representation Semi-supervised ASR,USRS-ASR),得益于该算法良好的推广性, 团队在受限赛道所有15个语种中全部取得冠军。同时,为了评估语种语音识别实际应用水平,该团队参加了7个语种非受限赛道,也全部取得第一名的成绩。

图2:联合团队全部15个语种受限赛道成绩

图3:联合团队参加的7个语种非受限赛道成绩

领先技术亮相国际赛场

在受限赛道上,由于每个语种只有10小时语音数据,如何使用少量文本数据,利用无监督的方法增加语音训练数据的多样性至关重要。

图4:USRS-ASR框架示意图

为全球提供多语种智能语音解决方案

多语种语音语言技术是万物互联时代实现人机交互的关键技术,也是实现“一带一路”语言大互通的基础技术。

从2014年开始,科大讯飞就一直在该方向的源头技术创新及产业化应用上持续投入,并不断挑战实际应用中的技术难题。

经过多年的技术积累,除了中英以外,科大讯飞还具备了 69种语言的语音识别能力(其中35个语种准确率已超过90%),并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点,为各地开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务,所有服务均在科大讯飞开放平台开放。

多语种技术有力支撑了科大讯飞智能硬件产品创新。在翻译终端方面,2016年11月发布的科大讯飞智能翻译硬件,开创了AI翻译机新品类;在会议同传方面,2016年11月推出的讯飞听见多语种字幕同传系统,支持日韩法西等多国语言的同声传译;在录音笔方面,科大讯飞于2019年5月发布智能录音笔,次年升级支持8种语言转写能力,2021年日本版智能录音笔VOITER系列在日本一经上线,就取得单月销售破千台的亮眼成绩。

除自身产品以外,科大讯飞也积极为“中国制造”出海产品提供自主可控解决方案。

在手机、家电方面,为国内众多手机厂商提供包括中英在内的多语种语音识别、语音合成能力解决方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场;在车载交互方面,与上汽、长安、奇瑞等国内主要出海汽车提供商,以及俄罗斯汽车工程研究院(NAMI)等海外车厂开展多语种项目合作,覆盖英语、俄语、日语、泰语、西班牙语、意大利语等数十个语种。

此外,科大讯飞的多语种相关技术能力也已应用于北京2022年冬奥会官方APP(冬奥通),助力冬奥信息沟通无障碍。

作为人工智能国家队,科大讯飞将继续坚持源头核心技术创新,联合国内众多研究机构与企业,构建多语言技术的系统性创新研发生态,共同推动我国多语言技术进步与应用落地。

—THE END—

信息来源:科大讯飞(李倩)

运营支持:安徽生活网政务新媒体中心

点个

分享给更多人

↙↙ ↙

主营产品:不锈钢弯头,不锈钢三通,不锈钢大小头,不锈钢法兰