文献阅读—跨语言词向量—有监督

本文介绍了如何使用有监督的方法来训练跨语言词向量,旨在将不同语言的词向量映射到同一空间,解决缺乏特定语言标注数据的问题。通过最小化Frobenius范数,找到最佳转换矩阵,同时探讨了正交矩阵、词向量归一化和去均值等优化技巧,以提高词向量的性能和相似度计算的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 问题描述

跨语言词向量解决什么问题呢?当我们有英文标注数据,在英文数据上训练好模型,但是我们没有中文标注数据去训练模型,怎么办?跨语言词向量就是将英文词向量和中文词向量映射到一个空间里,这样相当于中英文数据都只是整体数据的一部分,我拿整体数据中的一部分(即英文数据)做训练,拿整体数据中的另一部分(即中文数据)做测试,所以就不需要重新训练模型,解决了中文标注数据缺失的问题。啊说的有点多了,西湖的水我的泪。

对于跨语言词向量的文献,我看了两篇,一篇是16年EMNLP的《Learning principled bilingual mappings of word embeddings while preserving monolingual invariance》,用的是有监督的方法,另一篇是18年ACL的《A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings》,用的是无监督的方法。这篇博客介绍有监督的那一篇。

这篇文章主要是对之前的有监督方法训练跨语言词向量的文献做了一个总结,提出了一个通用框架,融合了之前一些算法的本质,我认为如果只是做个调研的话,看了这一篇之后,基本可以不用看之前的那些有监督的文献了。

2. 算法

XZ分别表示两类语言中独立训练好的词嵌入矩阵,需要自己先训练好,或者拿别人现成的。其中每行代表一个词的词向量,每一列代表词向量的第几维。X的第i行和Z的第i行对应的是一个词义,比如‘你好’和‘hello’。我们需要求一个转换矩阵W以使XW近似于Z,即

                                                                      arg\min_{W} \sum_{i}\left \| X_{i\ast } W-Z_{i\ast } \right \|^2

等价于求Frobenius 范数:

                              &nb

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值