基于连续向量空间表示的双语数据选择方法
在机器翻译领域,数据选择是提高翻译质量的关键环节。本文将介绍一种基于连续向量空间表示(CVR)的双语数据选择方法,并与交叉熵数据选择方法进行比较。
1. 句子的连续向量空间表示
为了将单词的CVR扩展到句子或短语级别,采用了两种不同的句子CVR方法:
- Mean - vec :这是最直观的方法,通过计算文档或句子中所有单词的加权算术平均值来表示句子。公式如下:
[F_x = F(x) = \frac{\sum_{w\in x} N_x(w)f(w)}{\sum_{w\in x} N_x(w)}]
其中,(w) 是句子 (x) 中的单词,(f(w)) 是 (w) 的CVR,(N_x(w)) 是 (w) 在句子 (x) 中的出现次数。
- Document - vec :这是一种更复杂的方法,通过改编连续Skip - Gram模型来生成句子或文档的代表性向量。
2. 基于向量空间表示的数据选择(DS)
DS的目标是增加领域内训练语料的信息量,因此需要选择与领域内语料相关的领域外语句。具体操作步骤如下:
1. 定义 (G) 为领域外语料库,(x) 为领域外句子((x \in G)),(F_x) 为 (x) 的CVR,(\vert G \vert) 为 (G) 中的句子数量。
2. 定义 (FS) 为领域内语料库 (I) 所有句子的拼接表示。
3. 使用余弦相似度 (cos(FS, F_x)) 来衡量句子之间的相似度:
[cos(FS, F_x) = \frac{FS
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



