Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection
引入
本文是探讨 Word Embedding 维度的 bias-variance trade-off,提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标,并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries:
- Word embeddings 是 unitary-invariant 的(体现了旋转特性不变,具体而言就是进行酉变换,就是词向量乘一个酉矩阵,不改变词向量特性。酉矩阵: U U T = U T U = I d UU^T=U^TU=Id UUT=UTU=Id)
- 大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
- Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 M = U D V T M=UDV^T M=UDVT,然后取 U 1 : k D 1 : k α U_{1:k}D_{1:k}^{\alpha} U1:kD1:kα作为 Embedding(显式)
- Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似(隐式)
PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings
下面先给出两个定义:
- 对于给定的 embedding matrix E E E,定义 Pairwise Inner Product (PIP) matrix 为 P I P ( E ) = E E T PIP(E)=EE^T PIP(E)=EET
- 定义 PIP loss 为 ∣ ∣ P I P ( E ^ ) − P I P ( E ) ∣ ∣ ||PIP(\hat{E}) − PIP(E)|| ∣∣PIP(E^)−PIP(E)∣∣(元素之间的均方根, E ^ \hat{E} E^为用给定数据训练的词向量, E E E为理想下的词向量,两个 Word Embedding 越相似,PIP loss 越小)
How Does Dimensionality Affect the Quality of Embedding?
这一部分是理论推导,太数学了,我按我的理解翻译成比较通俗的话,理论推导暂时舍去,有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵
M
M
M的低阶近似,那么可以看作是
E
=
U
1
:
d
D
1
:
d
α
E = U_{1:d}D_{1:d}^{\alpha}
E=U1:dD1:dα,
α
\alpha
α是由词向量方法确定的,
d
d
d为向量的维度。
M
M
M的奇异值为
{
λ
i
}
\{\lambda_i\}
{λi},训练数据的共现矩阵为
M
^
=
M
+
Z
\hat{M}=M+Z
M^=M+Z,
Z
Z
Z的奇异值独立同分布,均值为0,方差为
σ
\sigma
σ。
根据随机矩阵的性质可得 PIP loss 的 upper bound approximation:
E
[
∣
∣
E
E
T
−
E
^
E
^
T
∣
∣
]
=
∑
i
=
k
+
1
d
λ
i
4
α
+
2
2
n
α
σ
∑
i
=
1
k
λ
i
4
α
−
2
+
2
∑
i
=
0
k
(
λ
i
2
α
−
λ
i
+
1
2
α
)
σ
∑
r
≤
i
<
s
(
λ
r
−
λ
s
)
−
2
E[||EE^T-\hat{E}\hat{E}^T||]=\sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}+2\sqrt{2n}\alpha\sigma\sqrt{\sum_{i=1}^{k}\lambda_i^{4\alpha-2}}+\sqrt{2}\sum_{i=0}^{k}(\lambda_i^{2\alpha}-\lambda_{i+1}^{2\alpha})\sigma\sqrt{\sum_{r\leq i<s}(\lambda_r-\lambda_s)^{-2}}
E[∣∣EET−E^E^T∣∣]=i=k+1∑dλi4α+22nασi=1∑kλi4α−2+2i=0∑k(λi2α−λi+12α)σr≤i<s∑(λr−λs)−2
d d d为理想情况下的维度, k k k为实际选择的维度。可以看出 ∑ i = k + 1 d λ i 4 α \sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}} ∑i=k+1dλi4α表示的是 bias, k k k越大偏差越小,其他部分为 variance,在噪声( σ \sigma σ)一定的情况下, k k k越小越好。文中说将 ∑ i = k + 1 d λ i 4 α \sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}} ∑i=k+1dλi4α作为 zeroth-order term,我的理解是只保留其中的第一项,因为奇异值随着 i i i变小的速度很快,主要他的大小取决于第一项,这样也省去了对与d的估计。
PIP loss 的效果
结合论文和作者在 Neural Information Processing Systems 上的演讲我们来看看 PIP loss 的作用
Spectrum and Noise Estimation from Corpus
下面我们就具体看看公式中的参数
{
λ
i
}
\{\lambda_i\}
{λi}、
σ
\sigma
σ如何求。根据假设
M
^
=
M
+
Z
\hat{M}=M+Z
M^=M+Z,我们把数据集等分为两份,
M
^
1
=
M
+
Z
1
\hat{M}_1=M+Z_1
M^1=M+Z1,
M
^
2
=
M
+
Z
2
\hat{M}_2=M+Z_2
M^2=M+Z2,
Z
1
Z_1
Z1、
Z
2
Z_2
Z2的方差为
2
σ
2
2\sigma^2
2σ2,那么
M
^
1
−
M
^
2
=
Z
2
−
Z
1
\hat{M}_1-\hat{M}_2=Z_2-Z_1
M^1−M^2=Z2−Z1的方差为
4
σ
2
4\sigma^2
4σ2,根据随机矩阵的性质我们得倒
σ
\sigma
σ的估算值
σ
^
=
1
2
n
∣
∣
M
^
1
−
M
^
2
∣
∣
\hat{\sigma}=\frac{1}{2n}||\hat{M}_1-\hat{M}_2||
σ^=2n1∣∣M^1−M^2∣∣
n
n
n为词表的大小。根绝随机矩阵的性质我们可得
λ
^
i
=
(
λ
^
i
−
2
σ
n
)
+
\hat{\lambda}_i=(\hat{\lambda}_i-2\sigma\sqrt{n})_+
λ^i=(λ^i−2σn)+
读后感
Word Embedding 实际上看一看做是 nlp 中神经网络的第一层,onehot 为输入的一个全链接,这样像自然会有 bias-variance trade-off。因为 Word Embedding 可以无监督的预训练,给我们带来了很多的好处,这篇文章就从理论上说明了词向量维度对结果的影响。