您当前的位置 :环球传媒网>科技 > 正文
Meta研发闽南语AI翻译系统 让说闽南语与说英语的人进行良好对话
2022-11-01 09:29:36 来源:DeepTech深科技 编辑:

当前的 AI 翻译主要应用于书面语言。但世界现存的几千种语言,近一半是口头语言。口头语言几乎没有规范的书写系统,难以用通常方法来开发、训练翻译模型。

为了应对这一挑战, 建立了第一个以口语为主的闽南语 AI 翻译系统,其可一定程度上让说闽南语与说英语的人,进行良好对话。

对外表示:“口头交流可以帮助打破人与人之间的隔阂,也有助于人们在元宇宙(Metaverse)中交流。”该公司当前正在全力发展元宇宙业务,甚至在 2021 年 11 月将公司名字由 改为 。如果元宇宙要取得成功,需要实现更加身临其境和自然的体验。

据了解,开发闽南语翻译系统的一个重要前提是,需要有足够的数据。如今的机器翻译模型大都需要海量的书面文本来做训练。而闽南语的文本资源较少,在收集和注释数据方面存在不足。

因此,研究者决定利用高资源语言的数据来解决这一问题。他们选择使用普通话作为中介,即将闽南语转为普通话后,再译成相应的另一语言。该方法极大提高了模型的性能。

另外, 还采用了一种语音挖掘的训练数据生成方法,借助预训练的语音编码器,将闽南语和其他语言嵌入到同一语义空间中。这样,即使闽南语没有文字形式,其也能和英语或语义相似的文本对应。

值得一提的是, 还为非书面语言翻译开发了一种新的建模方法。

据了解,目前的语音翻译模型开发,大都需要借助转录或语音生成文本系统。但由于口头语言缺少规范的文字,因此, 将重点放在了语音到语音的翻译上。

研究人员使用“语音到单元的转换”(Speech-to-Unit Translation,S2UT)方法,把输入的语音变成许多声学单元。然后,再让声学单元产生波形。此外,他们还采用双通道解码机制,分别用来生成单元和以相关语言(普通话)生成文本。

接着, 对闽南语翻译系统的准确性做了评估。一般来说,语音翻译系统的评估采用的是 ASR-BLEU 指标。该指标指的是,用自动语音识(ASR Automatic Speech Recognition)将翻译的语音转换成文本,再对比转换文本与人工翻译文本,从而计算 BLEU 分数。BLEU 全称为 Bilingual evaluation understudy(双语评价替补),是一种标准的机器翻译指标。

关键词: Meta开创非书面语言翻译新方法 非书面语言翻译新方法 书面语言翻译 语言翻译

分享到:
版权和免责申明

凡注有"环球传媒网"或电头为"环球传媒网"的稿件,均为环球传媒网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网",并保留"环球传媒网"的电头。

Copyright © 1999-2017 cqtimes.cn All Rights Reserved 环球传媒网-重新发现生活版权所有 联系邮箱:8553 591@qq.com