日前,由厦门大学,清华大学,海天瑞声,西北工业大学及昆山杜克大学联合主办,中国计算机学会语音对话与听觉专委会,中文信息学会协办的第六届OLR2021东方语种识别国际竞赛研讨会在线上成功召开网易互娱AI Lab在本次竞赛中以绝对领先的优势夺取了多语种语音识别赛道双料冠军,分别是多语种语音识别受限任务的第一名和多语种语音识别开放任务的第一名
东方语种识别竞赛主要专注于东亚以及东南亚地区的语言研究此次比赛多语种语音识别任务突破了历届比赛仅识别语种的任务限制,在不给定测试语音语种标签的情况下,参赛队伍模型需要识别出多语种混合测试集的语音内容今年已经是OLR比赛的第六届,本届比赛吸引来自中国,加拿大,印度 等国家的高校和企业参加
图1. OLR历届冠军队伍及2021参赛队伍信息
本次比赛多语种语音识别赛道的任务是构建包含13种语言的混合语音识别系统而其中受限任务赛道每种语言仅提供约10小时带标签训练数据,训练数据资源的稀缺使得设计相应模型具有较大的挑战针对比赛中的难点,网易互娱AI Lab采用基于Hybrid和E2E的结构,针对普通话,粤语,上海话,日语和印尼语,使用Hybrid结构并训练相应单语种语音识别模型,该方法在低资源数据场景下,可以获得比E2E模型更好的结果,针对其他语言,由于缺少发音词典和文本数据,则使用多种语言混合训练E2E结构比赛通过语种识别模型将多语种模型和单语种模型进行耦合,进一步提升性能
比赛使用CER作为评价指标,CER越小表示系统识别率越高在受限任务赛道上,网易互娱AI Lab取得13.1%的平均CER,字符错误率比官方基线系统相对降低66%,比第二名相对降低28%值得一提的是,网易互娱AI Lab的多语种单模型亦超过第二名的融合系统在实际工业级语音识别应用中,使用单系统部署可以降低服务成本,也便于快速更新维护
图2.多语种语音识别受限赛道排名情况
在开放任务赛道上,网易互娱AI Lab基于受限赛道系统,融合了中文普通话,日语,印尼语等三个利用外部数据的模型,取得12.6%的CER,字符错误率比第二名相对降低30%。
图3.多语种语音识别开放赛道排名情况
目前,网易互娱多语种语音识别的应用价值主要在海外业务应用场景对于海外语音识别,仅根据用户手机语言设置,IP所在地区进行相应语言,语种的判断,无法做到非常高的准确率通过使用多语种语音识别系统,在一定程度上可以解决/缓解语种不匹配导致的语音转文字语种混乱问题针对东南亚地区,网易互娱AI Lab目前已支持集印尼,马来,英语三种语言于一体的多语言混合语音识别系统,该系统可以同时支持3种语言的语音识别
网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,在广州,杭州,上海均有分部,是游戏行业领先的人工智能实验室实验室致力于计算机视觉,语音和自然语言处理,以及强化学习等技术在游戏场景下的研究,应用和落地,旨在通过AI技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》《哈利波特:魔法觉醒》《阴阳师》《天下3》等等
该系统借助网易互娱AILab在虚拟人形象定制和内容智能制作方面的领先技术,通过输入文本或音频,在几分钟内快速生成AI复合主播的新闻播报视频,在降低制作成本,丰富传播形式的同时,大大提高了新闻内容的制作效率。此外,该系统可以24小时运行,不受体力,时间和空间的限制。可以保证播出和阅读时没有错误,提高报道的时效性和质量。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。