论文阅读:Few-Shot Representation Learning for Out-Of-Vocabulary Words

Few-Shot Representation Learning for Out-Of-Vocabulary Words

对于词库外词汇的小样本回归学习

摘要

在现实世界中,训练语料库中没有出现的词**(OOV)可能频繁出现。仅仅通过一些观察就能准确地表达这些词是很有挑战性的。在本文中,我们将OOV嵌入的学习描述为一个小样本回归问题,并通过训练一个表示函数来预测基于有限观测的oracle嵌入向量**(定义为用大量观测训练的嵌入)来解决它。

address it by training a representation function to predict the oracle embedding vector (defined as embedding trained with abunobservations) based on limited observations.

  • 问题:什么叫oracle嵌入向量?为什么此处出现了基于大量观察的嵌入?

    可以直接理解为embed的标准答案,即基于大量观察的嵌入

我们提出了一种新的基于注意的分层结构作为神经回归函数,使用该结构对一个单词的上下文信息进行编码并从K个观察中聚合。此外,我们的方法可以利用Model Agnostic元学习(MAML),使学习的模型快速而健壮地适应新的语料库。

1 intro

核心问题:如何通过对OOV词的用法只观察几次,就能在推理时间内获得准确的嵌入向量?

现有方法:

第一组方法根据OOV词的形态信息推导出其嵌入向量。当不能从单词的子单位推断单词的含义时,这种类型的方法有一个局限性。subword方法

第二组方法尝试从几个例子中学习嵌入一个OOV单词。这些演示示例被视为一个小型语料库,并用于微调OOV嵌入。不幸的是,仅使用几个示例进行微调通常会导致过拟合。在另一项工作中使用一个简单的线性函数来推断一个OOV单词的嵌入,方法是通过在示例中聚合其上下文单词的嵌入,从上下文中捕获一个OOV词的复杂语义和关系。

人类有能力根据对上下文和形态的更全面的理解来推断单词的含义。给定一个带有几个例句的OOV单词,人类能够理解每个句子的语义,然后聚合多个句子来估计这个单词的含义。

提出了一种基于注意的分层上下文编码器(HiCE),它可以同时利用句子示例和形态信息。具体而言,该模型采用多头自注意来整合从多个上下文提取的信息,形态信息可以通过字符级CNN编码器轻松集成。

为了训练HiCE从几个例子中有效地预测一个OOV词的嵌入,我们引入了一个基于episode的少镜头学习框架。在每一episode中,我们假设一个具有丰富观察值的单词实际上是一个OOV单词,并使用这些观察值训练的嵌入作为其oracle嵌入。

然后,HiCE模型仅使用单词的K个随机采样观测值及其形态信息来预测单词的oracle嵌入。该训练方案可以模拟在推理过程中出现OOV词的真实场景,而在我们的例子中,我们可以访问他们的甲骨文嵌入作为学习目标**。**

此外,OOV词可能出现在新的语料库中,其领域或语言用法与主训练语料库不同。为了解决这个问题,我们建议采用模型不可知的元学习(MAML)来辅助预训练HiCE模型的快速和健壮的适应,这使得HiCE可以从一个有希望的初始化开始,更好地推断OOV词在新领域中的嵌入。

核心创新:我们提出了一种基于注意的分层上下文编码器(HiCE)来编码和聚合上下文和子词信息。

我们进一步整合了MAML,通过弥合语义鸿沟,使学习模型快速适应新的语料库

2 方法

2.1小样本回归框架

问题表述:一个训练语料库DT,和一个给定的词嵌入学习算法,它为每个词w产生一个学习到的词嵌入,记为Tw∈Rd。我们的目标是根据一个新的测试语料库DN推断在训练语料库DT中没有观察到的OOV词的嵌入。

DN通常比DT小得多,OOV词在DN中可能只出现几次,因此很难直接从DN中学习到它们的嵌入。我们的解决方案是学习一个神经回归函数Fθ(·)在DT上用θ参数化。函数Fθ(·)具有OOV词的少数上下文和形态特征作为输入,输出其近似的嵌入向量。输出嵌入预计将接近它的“甲骨文”嵌入向量

选取有足够观测值的N个词{wt}Nt=1作为目标词,将其嵌入{Twt}Nt=1作为oracle嵌入。对于每个目标词wt,我们将St表示为DT中包含wt的所有句子。wt是保证具有足量观察的词(即其embed是准确的)

我们形成了片段学习任务。在每一片段中,我们从St中随机抽取K个句子,将这些句子中的wt进行掩码,构建一个掩码支持上下文集SKt = {St, K}Kk=1,其中St, K表示目标词wt的第K个掩码句子。我们将其字符序列作为特征,记为Ct基于这两类特征,我们学习了Fθ模型来预测甲骨文嵌入。在本文中,我们选择余弦相似度作为接近度度量,因为它作为词向量之间语义相似度的指标很受欢迎。

  • 哪两类特征?

    ct和Skt:字符特征和掩码句子

一旦训练好模型F θ(基于DT),就可以将所有含有这些OOV词的句子及其字符序列作为输入,预测OOV词在DN中的嵌入。

2.2 层次上下文编码(HiCE)

Fθ(·)应该能够分析复杂的上下文语义,聚合多条上下文信息进行全面的嵌入预测,并纳入形态学特征,线性聚合不行。

自注意编码模块:每个编码块由一个自注意层和一个按点完全连接的层组成。这种编码块可以丰富序列输入之间的交互,有效地提取局部信息和全局信息。

对于注意力输出的每个头i,我们首先通过一组不同的线性投影将序列输入矩阵x转换为查询、键和值矩阵,。。。。自注意的常规流程

HiCE Architecture由两个主要层组成:上下文编码器和多上下文聚合器。

形态特征可以使用字符级CNN跟随进行编码(Kim et al, 2016),可以与Multi-Context Aggregator的输出相连接。因此,我们的模型可以同时利用上下文和形态信息来推断OOV嵌入。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值