28、低资源机器翻译与巴西人工智能使用监管问题探讨

低资源机器翻译与巴西人工智能使用监管问题探讨

1. 低资源机器翻译进展

在机器翻译领域,尤其是针对低资源语言对的翻译,一直是研究的热点。例如,有团队构建了一个包含100,000个句子的法 - 沃洛夫语平行语料库。由于公开可用的相关资源稀缺,这个语料库大部分是从头开始收集的,且目前收集项目仍在进行中,数据集尚未公开。

团队对基于长短期记忆网络(LSTM)和全局注意力机制的神经机器翻译模型的各种架构进行了实验,结果表明这些系统在子词化数据上更高效。此外,还通过在相同实验条件下比较法 - 沃洛夫语和法 - 英语这两个不同语言对的系统,研究了语言对之间的语言相似性对翻译性能的影响。

该语料库是目前该语言对收集到的最大语料库,并且是首次使用BLEU指标展示专门针对法 - 沃洛夫语对的基于LSTM的机器翻译系统的性能,这有助于更好地评估神经机器翻译(NMT)模型的性能。

不过,BLEU指标可能会引入偏差,不足以全面评估系统的实际质量。子词化虽然带来了显著收益,但SentencePiece方法对所有语言并非最优。而且,循环神经网络(RNN)系统即使使用LSTM或门控循环单元(GRU)单元,也难以处理长序列。当前最先进的系统主要基于Transformer架构,它能够更好地处理长序列并允许并行化。跨语言迁移学习方法在解决低资源语言的机器翻译问题上也显示出了非常有前景的结果,是值得探索的方向。

以下是相关研究的一些关键信息总结表格:
| 研究内容 | 详情 |
| ---- | ---- |
| 语料库 | 法 - 沃洛夫语平行语料库,100,000个句子,大部分从头收集,未公开 |
| 实验模型 | LSTM和全局注意

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值