ByteDance
关于我们
我们的产品
新闻动态
企业社会责任
加入我们
返回
火山翻译上新38个稀有语种,自研训练模型效率提升超500%
2021年gettext(`date.months.12`)30日

近期, 火山翻译官网上新了包括世界语、塔希提语、鞑靼语等在内的38个稀有语种的翻译。目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备94个语种、8742个语向的翻译能力,整体 bleu(机器翻译质量自动评估指标)达33.45,处于行业领先水平。

据了解,通过采用自研的 mRASP 多语言模型,火山翻译仅使用一个模型就完成了上述38个语种与英文的双向互译,突破了传统双语言翻译模型对每个语向单独训练、单独上线服务的方式,大幅降低机器学习的训练和服务成本。

“通常情况下,训练76个语向的双语言模型需要150-200天。而相同硬件条件下,训练一个多语言模型只需要30天。”火山翻译团队介绍,“对于请求量小的语种,使用 mRASP 模型集中服务可以大大节省计算资源,仅需半张用于深度学习训练的 Tesla T4 显卡就可以满足38个语言的全部翻译请求,和双语翻译所需的资源一样。”

蓝色部分为火山翻译上新的38个语种

蓝色部分为火山翻译上新的38个语种

由于稀有语种缺少训练用的平行语料,翻译质量往往容易大打折扣。火山翻译通过 mRASP 中的对比学习和词对齐信息,可以很好地借助单语语料和其他拥有丰富语料的语种来帮助训练,弥补训练数据的不足。数据显示,火山翻译此次上新的稀有语种平均 bleu 值达33.36,其中,海地语翻译表现最为突出,bleu 值达50.76。

火山翻译由字节跳动 AI Lab 研发。2021年,火山翻译凭借“并行翻译”技术一举打破了“自回归式”技术在机器翻译领域的绝对统治地位,夺得国际机器翻译大赛(WMT)德语到英语方向机器翻译冠军;此前,火山翻译已在WMT中荣获7项冠军, 并斩获了平行语料过滤对齐项目的2项第一。

目前,火山翻译拥有火山同传、机器翻译与视频翻译三大产品,支持飞书、今日头条、西瓜视频等业务的翻译需求,并通过字节跳动旗下的企业级技术服务平台火山引擎对外提供翻译服务。

中科院2022跨年科学演讲正式开讲,40万网友在抖音和院士一起理解宇宙
2021年gettext(`date.months.12`)30日
12月30日、31日晚7点,还将有两场科学家演讲,用硬核科普知识陪大家迎接新年。抖音搜索“中科院跨年演讲”,或进入新上线的抖音学习频道,即可找到演讲入口。
抖音发布2021年直播生态报告,科普直播观看人次增长283%
2021年gettext(`date.months.12`)24日
抖音直播正助力传统文化焕发生机,让匠人匠心获得尊重和认同,让善行善心收获更多支持。
“山货上头条”助16省农货出山,抖音电商产地直播让更多地标农品被看见
2021年gettext(`date.months.12`)24日
抖音电商和字节跳动公益将投入千万级平台补贴与专项扶持,吸引地方新农人和农货商家原产地开播,并辅以带货技能培训,从源头助力品质农货出村进城,促进地方农特产业发展。
ByteDance

关于我们

企业文化

行为准则

大事记

我们的产品

联系我们

新闻动态

公司新闻

数据报告

企业社会责任

社会责任动态

字节跳动公益官网

加入我们

招聘官网

中文简
English
中文简

© 2012-2024 字节跳动

京公网安备 11000002002068号京ICP备12025439号-7