12、基于连续向量空间表示的双语数据选择方法

基于连续向量空间表示的双语数据选择方法

在机器翻译领域,数据选择是提高翻译质量的关键环节。本文将介绍一种基于连续向量空间表示(CVR)的双语数据选择方法,并与交叉熵数据选择方法进行比较。

1. 句子的连续向量空间表示

为了将单词的CVR扩展到句子或短语级别,采用了两种不同的句子CVR方法:
- Mean - vec :这是最直观的方法,通过计算文档或句子中所有单词的加权算术平均值来表示句子。公式如下:
[F_x = F(x) = \frac{\sum_{w\in x} N_x(w)f(w)}{\sum_{w\in x} N_x(w)}]
其中,(w) 是句子 (x) 中的单词,(f(w)) 是 (w) 的CVR,(N_x(w)) 是 (w) 在句子 (x) 中的出现次数。
- Document - vec :这是一种更复杂的方法,通过改编连续Skip - Gram模型来生成句子或文档的代表性向量。

2. 基于向量空间表示的数据选择(DS)

DS的目标是增加领域内训练语料的信息量,因此需要选择与领域内语料相关的领域外语句。具体操作步骤如下:
1. 定义 (G) 为领域外语料库,(x) 为领域外句子((x \in G)),(F_x) 为 (x) 的CVR,(\vert G \vert) 为 (G) 中的句子数量。
2. 定义 (FS) 为领域内语料库 (I) 所有句子的拼接表示。
3. 使用余弦相似度 (cos(FS, F_x)) 来衡量句子之间的相似度:
[cos(FS, F_x) = \frac{FS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值