12、基于连续向量空间表示的双语数据选择

双语数据选择方法研究

最新推荐文章于 2025-11-24 13:17:29 发布

wasm7browser

最新推荐文章于 2025-11-24 13:17:29 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：模式识别前沿探析文章标签：双语数据选择连续向量空间表示机器翻译

本文链接：https://blog.youkuaiyun.com/wasm7browser/article/details/151004465

模式识别前沿探析专栏收录该内容

63 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于连续向量空间表示的双语数据选择

1. 句子的连续向量空间表示

在处理句子的向量空间表示时，有许多工作尝试将单词的连续向量表示（CVR）扩展到句子或短语级别。这里使用了两种不同的句子CVR，记为F(x)（有时为简化记法写作Fx）：
1. Mean - vec ：这是最直观的方法，基于文档或句子中所有单词的加权算术平均值。公式如下：
[ F_x = F(x) = \frac{\sum_{w\in x} N_x(w)f(w)}{\sum_{w\in x} N_x(w)} ]
其中，w是句子x中的一个单词，f(w)是w的CVR，Nx(w)是w在句子x中出现的次数。
2. Document - vec ：这是一种更复杂的方法，作者改编了连续Skip - Gram模型，通过遵循相同的Skip - Gram架构来生成句子或文档的代表性向量，生成一个特殊向量Fx。

2. 使用句子向量空间表示的数据选择（DS）

数据选择的目标是增加领域内训练语料库的信息性，因此选择与领域内语料库I相关的领域外句子很重要。以下是具体的算法步骤：

Data: Fx, x ∈G; and FS; threshold τ
Result: Selected - corpus
forall the sentences x in G do
    if cos(FS, Fx) ≥τ then
        add x to Selected - corpus
    end
end