跨语言嵌入空间中资源差距的弥合
在自然语言处理领域,跨语言词嵌入是一个重要的研究方向,它旨在将不同语言的词汇在一个共同的嵌入空间中进行表示。然而,当前的跨语言嵌入方法存在一些局限性,尤其是对于低资源语言。本文将探讨如何通过识别最优桥接语言来改善低资源语言在跨语言嵌入空间中的映射效果。
1. 跨语言词嵌入简介
跨语言词嵌入是将不同语言的词汇在一个联合嵌入空间中进行表示。Mikolov等人发现,通过适当的线性变换,单词及其翻译在各自的单语嵌入空间中会呈现出相似的几何排列。基于这一发现,可以通过学习一个线性投影,将源语言的向量空间转换为目标语言的向量空间。
具体操作步骤如下:
1. 使用源嵌入空间中最频繁的单词及其在目标语言嵌入空间中的对应翻译来学习变换矩阵。
2. 通过随机梯度下降法,最小化种子源单词(使用变换矩阵进行变换后)与其在目标语言向量空间中的翻译词嵌入之间的平方欧几里得距离。
3. 后来,通过将变换矩阵约束为正交,对基本回归方法进行了改进。正交约束下的解可以使用奇异值分解(SVD)来计算。
然而,诱导跨语言嵌入空间的映射方法假设独立训练的向量空间近似同构,但这一假设并不总是成立。语言之间的类型学距离、单语资源的大小以及训练时长等因素都会导致向量空间的非同构性。此外,自然语言处理中常见的数据限制和计算资源约束,也使得低资源语言的处理面临更大的挑战。
2. 识别桥接语言
2.1 语言集合
为了进行实验,选择了英语、俄语、白俄罗斯语、孟加拉语和阿萨姆语这五种语言。这些语言的单语嵌入空间是使用fastText在各自的维基百科上进行训练的,向量维度为300。其中,英语