
多语言机器翻译
文章平均质量分 93
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
多模态机器翻译 | (1) 简介
摘录自 机器翻译 基础与模型 东北大学文章目录1. 背景2. 机器翻译需要更多的上下文3. 图像翻译4. 基于图像增强的文本翻译4.1 基于特征融合的方法4.2 基于联合模型的方法5. 参考文献1. 背景基于上下文的翻译是机器翻译的一个重要分支。传统方法中,机器翻译通常被 定义为对一个句子进行翻译的任务。但是,现实中每句话往往不是独立出现的。比 如,人们会使用语音进行表达,或者通过图片来传递信息,这些语音和图片内容都 可以伴随着文字一起出现在翻译场景中。此外,句子往往存在于段落或者篇章之中, 如果要理转载 2021-06-03 15:09:07 · 4864 阅读 · 0 评论 -
多语言机器翻译 | (6) Transformer
文章目录1. 背景2. 流程和细节3. 总结1. 背景利用rnn,lstm学习上下文之间的关系,无法实现并行化,给模型的训练和推理带来了困难,因此提出了一种完全基于attention来对语言建模的模型,叫做transformer。transformer摆脱了nlp任务对于rnn,lstm的依赖,使用了self-attention的方式对上下文进行建模,提高了训练和推理的速度,transformer也是后续更强大的nlp预训练模型的基础。2. 流程和细节<1> Inputs是经过padd原创 2021-03-08 21:05:20 · 893 阅读 · 0 评论 -
多语言机器翻译 | (4) 注意力机制
在(编码器—解码器(seq2seq))里,解码器在各个时间步依赖相同的上下文向量来获取输入序列信息。当编码器为循环神经网络时,上下文向量来⾃它最终时间步的隐藏状态。现在,让我们再次思考那一节提到的翻译例子:输⼊为英语序列“They”“are”“watching”“.”,输出为法语序“Ils”“regardent”“.”。不难想到,解码器在⽣成输出序列中的每一个词时可能只需利用输入序列某一部分的信息。例如,在输出序列的时间步1,解码器可以主要依赖“They”“are”的信息来生成“Ils”,在时间步2则主要原创 2021-03-08 20:06:54 · 824 阅读 · 0 评论 -
多语言机器翻译 | (3) Beam Search
本篇博客介绍如何使用Encoder-Decoder来预测不定长序列。假设解码器的输出是一段⽂本序列。设输出⽂本词典(包含特殊符号"")的⼤小为Y , 输出序列的最大长度为T′T'T′。 所有可能的输出序列一共有O(∣Y∣T′)O(|Y|^{T'})O(∣Y∣T′)种。这些输出序列中所有特殊符号" "后⾯的⼦序列将被舍弃。文章目录1. 贪婪搜索2. 穷举搜索3. 束搜索4. 总结1. 贪婪搜索让我们先来看一个简单的解决⽅案:贪婪搜索(greedy search)。对于输出序列任一时间步t’,我们从|Y原创 2021-03-08 17:28:47 · 724 阅读 · 0 评论 -
多语言机器翻译 | (2) 编解码器结构
在⾃然语⾔处理的很多应用中,输⼊和输出都可以是不定长序列。以机器翻译为例,输⼊可以是⼀段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如:英语输入:“They”、“are”、“watching”、“.”法语输出:“Ils”、“regardent”、“.”输入和输出都是不定长序列时,我们可以使用编码器—解码器(encoder-decoder)或者 seq2seq模型 。这两个模型本质上都用到了两个循环神经网络(或transformer),分别叫做编码器和解码器。编码器用来分析输入序列,解码原创 2021-03-08 16:58:54 · 1166 阅读 · 0 评论 -
多语言机器翻译 | (1)多语言翻译模型简介
低资源机器翻译面临的主要挑战是缺乏大规模高质量的双语数据。这个问题往往伴随着多语言的翻译任务[1]。也就是,要同时开发多个不同语言之间的机器翻译系统,其中少部分语言是富资源语言,而其它语言是低资源语言。针对低资源语言双语数据稀少或者缺失的情况,一种常见的思路是利用富资源语言的数据或者系统帮助低资源机器翻译系统。这也构成了多语言翻译的思想,并延伸出大量的研究工作,其中有三个典型研究方向:基于枢轴语言的方法[2]、基于知识蒸馏的方法[3]、基于迁移学习的方法[4,5],下面进行介绍。1. 基于枢轴语言的方法转载 2021-03-07 21:35:35 · 4648 阅读 · 0 评论