基于连续向量空间表示的双语数据选择
1. 句子的连续向量空间表示
在处理句子的向量空间表示时,有许多工作尝试将单词的连续向量表示(CVR)扩展到句子或短语级别。这里使用了两种不同的句子CVR,记为F(x)(有时为简化记法写作Fx):
1. Mean - vec :这是最直观的方法,基于文档或句子中所有单词的加权算术平均值。公式如下:
[ F_x = F(x) = \frac{\sum_{w\in x} N_x(w)f(w)}{\sum_{w\in x} N_x(w)} ]
其中,w是句子x中的一个单词,f(w)是w的CVR,Nx(w)是w在句子x中出现的次数。
2. Document - vec :这是一种更复杂的方法,作者改编了连续Skip - Gram模型,通过遵循相同的Skip - Gram架构来生成句子或文档的代表性向量,生成一个特殊向量Fx。
2. 使用句子向量空间表示的数据选择(DS)
数据选择的目标是增加领域内训练语料库的信息性,因此选择与领域内语料库I相关的领域外句子很重要。以下是具体的算法步骤:
Data: Fx, x ∈G; and FS; threshold τ
Result: Selected - corpus
forall the sentences x in G do
if cos(FS, Fx) ≥τ then
add x to Selected - corpus
end
end
双语数据选择方法研究
超级会员免费看
订阅专栏 解锁全文
1353

被折叠的 条评论
为什么被折叠?



