低资源机器翻译与巴西人工智能使用监管问题探讨
1. 低资源机器翻译进展
在机器翻译领域,尤其是针对低资源语言对的翻译,一直是研究的热点。例如,有团队构建了一个包含100,000个句子的法 - 沃洛夫语平行语料库。由于公开可用的相关资源稀缺,这个语料库大部分是从头开始收集的,且目前收集项目仍在进行中,数据集尚未公开。
团队对基于长短期记忆网络(LSTM)和全局注意力机制的神经机器翻译模型的各种架构进行了实验,结果表明这些系统在子词化数据上更高效。此外,还通过在相同实验条件下比较法 - 沃洛夫语和法 - 英语这两个不同语言对的系统,研究了语言对之间的语言相似性对翻译性能的影响。
该语料库是目前该语言对收集到的最大语料库,并且是首次使用BLEU指标展示专门针对法 - 沃洛夫语对的基于LSTM的机器翻译系统的性能,这有助于更好地评估神经机器翻译(NMT)模型的性能。
不过,BLEU指标可能会引入偏差,不足以全面评估系统的实际质量。子词化虽然带来了显著收益,但SentencePiece方法对所有语言并非最优。而且,循环神经网络(RNN)系统即使使用LSTM或门控循环单元(GRU)单元,也难以处理长序列。当前最先进的系统主要基于Transformer架构,它能够更好地处理长序列并允许并行化。跨语言迁移学习方法在解决低资源语言的机器翻译问题上也显示出了非常有前景的结果,是值得探索的方向。
以下是相关研究的一些关键信息总结表格:
| 研究内容 | 详情 |
| ---- | ---- |
| 语料库 | 法 - 沃洛夫语平行语料库,100,000个句子,大部分从头收集,未公开 |
| 实验模型 | LSTM和全局注意
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



