论文阅读：Few-Shot Representation Learning for Out-Of-Vocabulary Words

下了一周雨

已于 2023-03-21 21:29:00 修改

阅读量159

点赞数

文章标签：机器学习深度学习人工智能

于 2023-03-21 21:27:59 首次发布

本文链接：https://blog.youkuaiyun.com/qcmhzly/article/details/129698021

版权

Few-Shot Representation Learning for Out-Of-Vocabulary Words

对于词库外词汇的小样本回归学习

摘要

在现实世界中，训练语料库中没有出现的词**（OOV）可能频繁出现。仅仅通过一些观察就能准确地表达这些词是很有挑战性的。在本文中，我们将OOV嵌入的学习描述为一个小样本回归问题，并通过训练一个表示函数来预测基于有限观测的oracle嵌入向量**(定义为用大量观测训练的嵌入)来解决它。

address it by training a representation function to predict the oracle embedding vector (defined as embedding trained with abunobservations) based on limited observations.

问题：什么叫oracle嵌入向量？为什么此处出现了基于大量观察的嵌入？

可以直接理解为embed的标准答案，即基于大量观察的嵌入

我们提出了一种新的基于注意的分层结构作为神经回归函数，使用该结构对一个单词的上下文信息进行编码并从K个观察中聚合。此外，我们的方法可以利用Model Agnostic元学习(MAML)，使学习的模型快速而健壮地适应新的语料库。

1 intro

核心问题：如何通过对OOV词的用法只观察几次，就能在推理时间内获得准确的嵌入向量?

现有方法：

第一组方法根据OOV词的形态信息推导出其嵌入向量。当不能从单词的子单位推断单词的含义时，这种类型的方法有一个局限性。subword方法

第二组方法尝试从几个例子中学习嵌入一个OOV单词。这些演示示例被视为一个小型语料库，并用于微调OOV嵌入。不幸的是，仅使用几个示例进行微调通常会导致过拟合。在另一项工作中使用一个简单的线性函数来推断一个OOV单词的嵌入，方法是通过在示例中聚合其上下文单词的嵌入，从上下文中捕获一个OOV词的复杂语义和关系。

人类有能力根据对上下文和形态的更全面的理解来推断单词的含义。给定一个带有几个例句的OOV单词，人类能够理解每个句子的语义，然后聚合多个句子来估计这个单词的含义。

提出了一种基于注意的分层上下文编码器(HiCE)，它可以同时利用句子示例和形态信息。具体而言，该模型采用多头自注意来整合从多个上下文提取的信息，形态信息可以通过字符级CNN编码器轻松集成。

为了训练HiCE从几个例子中有效地预测一个OOV词的嵌入，我们引入了一个基于episode的少镜头学习框架。在每一episode中，我们假设一个具有丰富观察值的单词实际上是一个OOV单词，并使用这些观察值训练的嵌入作为其oracle嵌入。

然后，HiCE模型仅使用单词的K个随机采样观测值及其形态信息来预测单词的oracle嵌入。该训练方案可以模拟在推理过程中出现OOV词的真实场景，而在我们的例子中，我们可以访问他们的甲骨文嵌入作为学习目标**。**

此外，OOV词可能出现在新的语料库中，其领域或语言用法与主训练语料库不同。为了解决这个问题，我们建议采用模型不可知的元学习(MAML)来辅助预训练HiCE模型的快速和健壮的适应，这使得HiCE可以从一个有希望的初始化开始，更好地推断OOV词在新领域中的嵌入。

核心创新：我们提出了一种基于注意的分层上下文编码器(HiCE)来编码和聚合上下文和子词信息。

我们进一步整合了MAML，通过弥合语义鸿沟，使学习模型快速适应新的语料库

2 方法

2.1小样本回归框架

问题表述：一个训练语料库DT，和一个给定的词嵌入学习算法，它为每个词w产生一个学习到的词嵌入，记为Tw∈Rd。我们的目标是根据一个新的测试语料库DN推断在训练语料库DT中没有观察到的OOV词的嵌入。

DN通常比DT小得多，OOV词在DN中可能只出现几次，因此很难直接从DN中学习到它们的嵌入。我们的解决方案是学习一个神经回归函数Fθ(·)在DT上用θ参数化。函数Fθ(·)具有OOV词的少数上下文和形态特征作为输入，输出其近似的嵌入向量。输出嵌入预计将接近它的“甲骨文”嵌入向量

选取有足够观测值的N个词{wt}Nt=1作为目标词，将其嵌入{Twt}Nt=1作为oracle嵌入。对于每个目标词wt，我们将St表示为DT中包含wt的所有句子。wt是保证具有足量观察的词（即其embed是准确的）

我们形成了片段学习任务。在每一片段中，我们从St中随机抽取K个句子，将这些句子中的wt进行掩码，构建一个掩码支持上下文集SKt = {St, K}Kk=1，其中St, K表示目标词wt的第K个掩码句子。我们将其字符序列作为特征，记为Ct。基于这两类特征，我们学习了Fθ模型来预测甲骨文嵌入。在本文中，我们选择余弦相似度作为接近度度量，因为它作为词向量之间语义相似度的指标很受欢迎。