多语言向量模型的语言鸿沟(Language Gap),对比学习能否带来突破?

多语言向量模型训练时,有一个棘手问题 -- 语言鸿沟(Language Gap)。简单来说,就是不同语言中表达相同含义的短语,它们的向量却可能相距甚远,无法有效对齐。

理想情况下,一段文本及其不同语言的翻译版本,应该具有高度近似的向量表示。这样,我们才能像处理单语言文本一样,无缝地进行跨语言分析和应用。

然而现实情况确是,模型在训练过程中容易关注原文的表层语言特征,形成一种“语义鸿沟”,导致跨语言任务性能受损。

为了更好地理解和解决“语言鸿沟”问题,我们用 jina-xlm-roberta 模型和最新的 jina-embeddings-v3进行了一系列实验,来评估模型对同一种语言内的释义以及跨语言翻译的语义对齐能力,以及不同训练条件下语义相似文本的向量聚类情况。

本文将详细介绍我们的实验结果和分析,并分享我们对跨语言语义对齐的思考和 insights。

语言鸿沟:多语言模型的棘手挑战

训练文本向量模型,通常要经历两个核心阶段:

1. 掩码语言建模(Masked Language Modeling, MLM)

在预训练阶段,我们会使用大量文本数据,并随机遮盖一些 Token,然后训练模型来通过其余的 Token 预测 masked 的 Token。

这个过程就像做“填空题”,帮助模型学习训练数据中的一种或多种语言的模式,包括语法规则、词汇含义以及现实世界中一些语言习惯等。

2. 对比学习(Contrastive Learning

预训练完成后,我们会用一些精心挑选或者半自动构建的数据集,继续训练模型。这里的目标是让语义相似的文本向量靠得更近,同时(可选地)将语义不相似的文本向量推得更远。

这个过程有点像“连连看”,训练时可以使用成对、三元组甚至更大规模的文本组合,前提是得知道或者能可靠地估计它们的语义相似性。

对比学习阶段可能还会分成好几个子阶段,而且训练策略也很多,目前学术界还没有定论说哪种方法最好,新的研究成果也层出不穷。

要想搞明白语言鸿沟是怎么产生的,该怎么弥合它,就得深入研究这两个阶段分别起了什么作用,以及它们之间是怎么互相影响的。

掩码语言预训练:跨语言对齐的起点

文本向量模型的一些跨语言能力是在预训练期间获得的。同源词和借用词的存在,让模型能够从海量的文本数据中学习到一些跨语言语义对齐的知识。

举个例子,英语单词 banana 和法语单词 banane,还有德语 Banane 拼写非常接近,而且出现的频率也都很高。所以向量模型很容易就能发现,在不同的语言里,长得像“banan-”的单词,它们的分布模式都很相似。

利用这些信息,模型就能在一定程度上学会:即使有些单词在不同语言里长得不太一样,但它们的意思可能很接近,甚至还能摸索出一些语法结构是怎么翻译的。

不过,这种学习过程是隐式的,没有明确的指导和监督。

为了看看 jina-xlm-roberta 模型,也就是 jina-embeddings-v3 的预训练主干模型,到底从掩码语言预训练中学到了多少跨语言等效性的知识,我们做了个实验。

我们选了一组英语文本,把它们翻译成德语、荷兰语、简体中文和日语,然后用 UMAP 可视化它们的向量表示,结果如下图所示,灰色线条将非英语文本连接到它们翻译的源英语文本。

9a6126f75ce7902373ae0fe150759522.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值