面对稀疏噪声的有标签数据时如何改造通用词嵌入表示

针对有监督学习中标签数据稀缺及噪声问题,介绍了一种非线性子空间嵌入(NLSE)模型,该模型通过低维投影学习词嵌入,有效解决传统方法在更新未知单词嵌入向量上的难题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文献:RF Astudillo , S Amir , W Lin , M Silva , I Trancoso. Learning Word Representations from Scarce and Noisy Data with Embedding Sub-spaces[C]. ACL 2015:1074–1084

Motivation

NLP中有监督学习任务的通常做法是:利用无监督词嵌入算法完成词嵌入层的初始化,然后利用应用领域内的有标签数据进行基于误差反向传播的词嵌入更新。当面临有标签数据非常稀疏且噪声很大时,使得模型有严重的学习过度问题、未知单词无法实现嵌入向量的更新,也即是传统方法难以适用。

方法

考虑到结构化skip-ngram模型要优化的概率是p(wp=j|w=i)=exp(CpjEwi), w=i表示当前窗口中心词是vocabulary中的第i个词, wp=j表示当前窗口中心词的语境词wp是vocabulary中的第j个词. E为嵌入矩阵,Ewi表示提取wi的嵌入表示,Cpj就是第j个单词的输出矩阵。ERe×v, CpjRv×e.
学习S并以SE进行低维投影,提出非线性子空间嵌入模型NLSE (Non-Linear Sub-space Embedding)如下:
给定文本序列m=[w1,,wn], 分类学习对应的概率为p(y=k|m)exp(Ykh1), 其中h=σ(SEm), h{0,1}e×n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值