【阅读笔记】On the Dimensionality of Word Embedding

本文深入研究Word Embedding的维度选择,提出Pairwise Inner Product (PIP)损失函数,讨论维度如何影响嵌入的质量。通过理论分析和实验,揭示了维度、偏差与方差之间的平衡,为优化词向量模型提供了新的视角。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection

引入

本文是探讨 Word Embedding 维度的 bias-variance trade-off,提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标,并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries:

  • Word embeddings 是 unitary-invariant 的(体现了旋转特性不变,具体而言就是进行酉变换,就是词向量乘一个酉矩阵,不改变词向量特性。酉矩阵: U U T = U T U = I d UU^T=U^TU=Id UUT=UTU=Id
  • 大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
    • Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 M = U D V T M=UDV^T M=UDVT,然后取 U 1 : k D 1 : k α U_{1:k}D_{1:k}^{\alpha} U1:kD1:kα作为 Embedding(显式)
    • Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似(隐式)

PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings

下面先给出两个定义:

  • 对于给定的 embedding matrix E E E,定义 Pairwise Inner Product (PIP) matrix 为 P I P ( E ) = E E T PIP(E)=EE^T PIP(E)=EET
  • 定义 PIP loss 为 ∣ ∣ P I P ( E ^ ) − P I P ( E ) ∣ ∣ ||PIP(\hat{E}) − PIP(E)|| PIP(E^)PIP(E)(元素之间的均方根, E ^ \hat{E} E^为用给定数据训练的词向量, E E E为理想下的词向量,两个 Word Embedding 越相似,PIP loss 越小)

How Does Dimensionality Affect the Quality of Embedding?

这一部分是理论推导,太数学了,我按我的理解翻译成比较通俗的话,理论推导暂时舍去,有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵 M M M的低阶近似,那么可以看作是 E = U 1 : d D 1 : d α E = U_{1:d}D_{1:d}^{\alpha} E=U1:dD1:dα α \alpha α是由词向量方法确定的, d d d为向量的维度。 M M M的奇异值为 { λ i } \{\lambda_i\} {λi},训练数据的共现矩阵为 M ^ = M + Z \hat{M}=M+Z M^=M+Z Z Z Z的奇异值独立同分布,均值为0,方差为 σ \sigma σ
在这里插入图片描述
根据随机矩阵的性质可得 PIP loss 的 upper bound approximation:
E [ ∣ ∣ E E T − E ^ E ^ T ∣ ∣ ] = ∑ i = k + 1 d λ i 4 α + 2 2 n α σ ∑ i = 1 k λ i 4 α − 2 + 2 ∑ i = 0 k ( λ i 2 α − λ i + 1 2 α ) σ ∑ r ≤ i &lt; s ( λ r − λ s ) − 2 E[||EE^T-\hat{E}\hat{E}^T||]=\sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}+2\sqrt{2n}\alpha\sigma\sqrt{\sum_{i=1}^{k}\lambda_i^{4\alpha-2}}+\sqrt{2}\sum_{i=0}^{k}(\lambda_i^{2\alpha}-\lambda_{i+1}^{2\alpha})\sigma\sqrt{\sum_{r\leq i&lt;s}(\lambda_r-\lambda_s)^{-2}} E[EETE^E^T]=i=k+1dλi4α +22n ασi=1kλi4α2 +2 i=0k(λi2αλi+12α)σri<s(λrλs)2

d d d为理想情况下的维度, k k k为实际选择的维度。可以看出 ∑ i = k + 1 d λ i 4 α \sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}} i=k+1dλi4α 表示的是 bias, k k k越大偏差越小,其他部分为 variance,在噪声( σ \sigma σ)一定的情况下, k k k越小越好。文中说将 ∑ i = k + 1 d λ i 4 α \sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}} i=k+1dλi4α 作为 zeroth-order term,我的理解是只保留其中的第一项,因为奇异值随着 i i i变小的速度很快,主要他的大小取决于第一项,这样也省去了对与d的估计。

PIP loss 的效果

结合论文和作者在 Neural Information Processing Systems 上的演讲我们来看看 PIP loss 的作用
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Spectrum and Noise Estimation from Corpus

下面我们就具体看看公式中的参数 { λ i } \{\lambda_i\} {λi} σ \sigma σ如何求。根据假设 M ^ = M + Z \hat{M}=M+Z M^=M+Z,我们把数据集等分为两份, M ^ 1 = M + Z 1 \hat{M}_1=M+Z_1 M^1=M+Z1 M ^ 2 = M + Z 2 \hat{M}_2=M+Z_2 M^2=M+Z2 Z 1 Z_1 Z1 Z 2 Z_2 Z2的方差为 2 σ 2 2\sigma^2 2σ2,那么 M ^ 1 − M ^ 2 = Z 2 − Z 1 \hat{M}_1-\hat{M}_2=Z_2-Z_1 M^1M^2=Z2Z1的方差为 4 σ 2 4\sigma^2 4σ2,根据随机矩阵的性质我们得倒 σ \sigma σ的估算值
σ ^ = 1 2 n ∣ ∣ M ^ 1 − M ^ 2 ∣ ∣ \hat{\sigma}=\frac{1}{2n}||\hat{M}_1-\hat{M}_2|| σ^=2n1M^1M^2

n n n为词表的大小。根绝随机矩阵的性质我们可得
λ ^ i = ( λ ^ i − 2 σ n ) + \hat{\lambda}_i=(\hat{\lambda}_i-2\sigma\sqrt{n})_+ λ^i=(λ^i2σn )+

读后感

Word Embedding 实际上看一看做是 nlp 中神经网络的第一层,onehot 为输入的一个全链接,这样像自然会有 bias-variance trade-off。因为 Word Embedding 可以无监督的预训练,给我们带来了很多的好处,这篇文章就从理论上说明了词向量维度对结果的影响。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值