加入收藏 | 设为首页 | 会员中心 | 我要投稿 菏泽站长网 (https://www.0530zz.cn/)- 数据工坊、负载均衡、数据快递、云计算、事件网格!
当前位置: 首页 > 大数据 > 正文

无需依赖英语数据,100种语言互译机器

发布时间:2021-05-22 21:20:54 所属栏目:大数据 来源:互联网
导读:机器翻译(MT)能够打破语言障碍,将不同语种的人团结起来,为不同人群提供有关COVID的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译及翻译质量评估的最新研究与进展,现在,我们每天能够在Facebook News Feed上提供近200亿次翻译。 典型的MT系统
机器翻译(MT)能够打破语言障碍,将不同语种的人团结起来,为不同人群提供有关COVID的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译及翻译质量评估的最新研究与进展,现在,我们每天能够在Facebook News Feed上提供近200亿次翻译。
 
典型的MT系统需要对不同语言和任务单独构建翻译模型,然而,这样的方式却并不适合Facebook,因为在Facebook上,有超过160种语言发布的数十亿条内容。现在的多语言系统虽然可以一次处理多种语言,但却是通过英语数据作为源语言和目标语言之间的中转,从而降低了准确性。因此,我们需要一个真正的多语言机器翻译(MMT)模型,该模型可以在任何语言之间直接进行翻译,这将为我们的社区提供更好的服务。
 
我们已经在Facebook对MT进行了多年的研究,现在终于可以自豪的宣布:我们首次构建了一个的大型MMT模型,该模型可以在100种不同语言之间直接进行翻译,而无需依赖英语作为中转语言。同时,我们的多语言模型的表现完全不弱于传统的双语模型,甚至要比以英语为中转的多语言模型提高了10个BLEU点。
 
通过新颖的挖掘策略,我们首次构建了一个真正的“多对多”翻译数据集,该数据集有75亿个句子,涵盖100种不同语言。最终,我们构建了一个具有150亿个参数的通用模型,该模型可以捕获相关语言的信息,并能够学习更加多样化的语言和形态特征。开源地址见此。
 
不同语言的亿万训练语句挖掘
建立多对多MMT模型的最大障碍之一是训练数据,即不同语言之间直接的高质量翻译数据,而不是以英语作为中间语言。然而现实情况是,比起法语和中文的直接翻译数据,中文和英文以及英语和法语的翻译数据更易获取。此外,训练所需的数据量与支持语言的数量成正比,例如,如果每种语言需要需要10M句子对,那么10种语言就是1B句子对,100种语言需要100B句子对。
 
构建包含100种语言的75亿句子对的多对多MMT数据集是艰巨的任务,由于我们多年来积累了不同的数据挖掘资源,包括ccAligned,ccMatrix和LASER,因此构建该数据集是可行的。为此,我们创建了新的LASER 2.0,改进了fastText语言识别,从而提高挖掘质量,相关的训练与评估脚本也会开源。当然,所有这些数据都是开源合法的。
 
Facebook AI提出的多对多的多语言模型是多年研究的结晶,MT模型、数据资源和优化技术等方面均是开创性的。本文会重点介绍一些主要成就。除此之外,我们通过挖掘ccNET创建了庞大的训练数据集,该数据集是基于fastText的(fastText是处理单词表示的重要方法);基于CCMatrix的LASER库可将句子嵌入多语言嵌入空间中;CCAligned则能够根据URL匹配来对齐文档。进一步,我们开发了改进版本LASER 2.0。
 
即使使用LASER 2.0等先进技术,挖掘100种不同语言/4450种可能语言对中的任意一类训练数据也需要大量的计算。由于数据规模巨大,为方便管理,我们首先关注翻译请求最多的语言。因此,我们综合数据规模和数据质量对挖掘目标进行优先排序,舍弃了对极冷门语言的数据挖掘,如冰岛语-尼泊尔语或僧伽罗语-爪哇语。

(编辑:菏泽站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读