无需依赖英语数据，100种语言互译机器

发布时间：2021-05-22 21:20:54 所属栏目：大数据来源：互联网

导读：机器翻译（MT）能够打破语言障碍，将不同语种的人团结起来，为不同人群提供有关COVID的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译及翻译质量评估的最新研究与进展，现在，我们每天能够在Facebook News Feed上提供近200亿次翻译。典型的MT系统

机器翻译（MT）能够打破语言障碍，将不同语种的人团结起来，为不同人群提供有关COVID的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译及翻译质量评估的最新研究与进展，现在，我们每天能够在Facebook News Feed上提供近200亿次翻译。

典型的MT系统需要对不同语言和任务单独构建翻译模型，然而，这样的方式却并不适合Facebook，因为在Facebook上，有超过160种语言发布的数十亿条内容。现在的多语言系统虽然可以一次处理多种语言，但却是通过英语数据作为源语言和目标语言之间的中转，从而降低了准确性。因此，我们需要一个真正的多语言机器翻译（MMT）模型，该模型可以在任何语言之间直接进行翻译，这将为我们的社区提供更好的服务。

我们已经在Facebook对MT进行了多年的研究，现在终于可以自豪的宣布：我们首次构建了一个的大型MMT模型，该模型可以在100种不同语言之间直接进行翻译，而无需依赖英语作为中转语言。同时，我们的多语言模型的表现完全不弱于传统的双语模型，甚至要比以英语为中转的多语言模型提高了10个BLEU点。

通过新颖的挖掘策略，我们首次构建了一个真正的“多对多”翻译数据集，该数据集有75亿个句子，涵盖100种不同语言。最终，我们构建了一个具有150亿个参数的通用模型，该模型可以捕获相关语言的信息，并能够学习更加多样化的语言和形态特征。开源地址见此。

不同语言的亿万训练语句挖掘

建立多对多MMT模型的最大障碍之一是训练数据，即不同语言之间直接的高质量翻译数据，而不是以英语作为中间语言。然而现实情况是，比起法语和中文的直接翻译数据，中文和英文以及英语和法语的翻译数据更易获取。此外，训练所需的数据量与支持语言的数量成正比，例如，如果每种语言需要需要10M句子对，那么10种语言就是1B句子对，100种语言需要100B句子对。

构建包含100种语言的75亿句子对的多对多MMT数据集是艰巨的任务，由于我们多年来积累了不同的数据挖掘资源，包括ccAligned，ccMatrix和LASER，因此构建该数据集是可行的。为此，我们创建了新的LASER 2.0，改进了fastText语言识别，从而提高挖掘质量，相关的训练与评估脚本也会开源。当然，所有这些数据都是开源合法的。

Facebook AI提出的多对多的多语言模型是多年研究的结晶，MT模型、数据资源和优化技术等方面均是开创性的。本文会重点介绍一些主要成就。除此之外，我们通过挖掘ccNET创建了庞大的训练数据集，该数据集是基于fastText的（fastText是处理单词表示的重要方法）；基于CCMatrix的LASER库可将句子嵌入多语言嵌入空间中；CCAligned则能够根据URL匹配来对齐文档。进一步，我们开发了改进版本LASER 2.0。

即使使用LASER 2.0等先进技术，挖掘100种不同语言/4450种可能语言对中的任意一类训练数据也需要大量的计算。由于数据规模巨大，为方便管理，我们首先关注翻译请求最多的语言。因此，我们综合数据规模和数据质量对挖掘目标进行优先排序，舍弃了对极冷门语言的数据挖掘，如冰岛语-尼泊尔语或僧伽罗语-爪哇语。

（编辑：菏泽站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

架构迭代无法一蹴而就	云数据仓库中的数据安
区块链为大数据分析提	如何使用Google Cloud