许多深度学习的研究前沿均涉及构建输入的概率模型。原则上说,给定任何其他变量的情况下,这样的模型可以使用概率推断来预测其环境中的任何变量。
本文描述了一些基于潜变量的最简单的概率模型:线性因子模型。这些模型有时被用来作为混合模型的组合模块或者更大的深度概率模型。同时,也介绍了构建生成模型所需的许多基本方法,在此基础上更先进的深度模型也将得到进一步扩展。
线性因子模型有如下的数据生成过程。首先从一个分布中抽取解释性因子
h
h
h,其中
h
∼
p
(
h
)
h\sim p(h)
h∼p(h)
其中
p
(
h
)
p(h)
p(h)是一个因子模型,满足
p
(
h
)
=
∏
i
p
(
h
i
)
p(h)=\prod_ip(h_i)
p(h)=∏ip(hi),所以易于从中采样。接下来在给定因子的情况下,我们对实值的可观察变量进行采样
x
=
W
h
+
b
+
n
o
i
s
e
x=Wh+b+noise
x=Wh+b+noise
其中噪声通常是对角化的且服从高斯分布。
概率PCA和因子分析
概率PCA、因子分析和其他线性因子模型是上述等式的特殊情况,并且仅在对观测到
x
x
x之前的噪声分布和潜变量
h
h
h先验的选择上所有不同。
在因子分析中,潜变量的先验是一个方差为单位仿真的高斯分布。同时,假定在给定
h
h
h的条件下观察值
x
i
x_i
xi是条件独立的。具体来说,我们可以假设噪声是从对角协方差矩阵的高斯分布中抽出的,协方差矩阵为
ψ
=
d
i
a
g
(
σ
2
)
\psi=diag(\sigma^2)
ψ=diag(σ2)。
概率PCA模型利用了这样一种观察现象:除了一些微小残余的重构误差,数据中的大多数变化可以由潜变量
h
h
h描述。当
σ
→
0
\sigma \rightarrow0
σ→0时,概率PCA退化成PCA。
独立成分分析
独立成分分析(ICA)是最古老的表示学习算法之一。它是一种建模先行银子的方法,旨在将观察到的信号分离成许多潜在信号,这些潜在信号可以通过放缩和叠加恢复成观察数据。信号之间完全是独立的。
慢特征分析
慢特征分析(SFA)是使用来自时间信号的信息学习不变特征的线性因子模型。
其想法源于慢性原则。基本思想是,与场景中起描述作用的单个量度相比,场景的重要特性通常变化的非常缓慢。例如在CV领域,单个像素的变化非常快,但整个图片的特征变化较为缓慢。
一般来说,我们可以将慢性原则应用于可以使用梯度下降训练的任何可微分模型。为了引入慢性原则,我们可以在代价函数中加入以下项:
λ
∑
t
L
(
f
(
x
(
t
+
1
)
)
,
f
(
x
(
t
)
)
)
\lambda\sum_tL(f(x^{(t+1)}),f(x^{(t)}))
λt∑L(f(x(t+1)),f(x(t)))
其中
λ
\lambda
λ是确定慢度正则化强度的超参数项,
t
t
t是样本时间序列的索引,
f
f
f是需要正则化的特征提取器,
L
L
L是测量
f
(
x
(
t
)
)
f(x^{(t)})
f(x(t))和
f
(
x
(
t
+
1
)
)
f(x^{(t+1)})
f(x(t+1))之间的距离的损失函数。
L
L
L的一个常见选择是均方误差。
慢特征分析是慢性原则的一个特别高效的应用。由于它被应用于线性特征提取器,并且可以通过闭式解训练,所以他是高效的。像ICA的一些变种一样,SFA本身并不是生成模型,只是在输入空间和特征空间之间定义了一个线性映射,但是没有定义特征空间的先验,因此没有在输入空间上施加分布
p
(
x
)
p(x)
p(x)。
稀疏编码
稀疏编码是一个线性因子模型,已作为一种无监督特征学习和特征提取机制得到了广泛研究。严格来说,“稀疏编码”是指在该模型中推断 h h h值的过程,而“稀疏建模”是指设计和学习模型的过程,但是通常这两个概念都可以用术语“稀疏编码”来描述。
PCA的流形解释
线性因子模型包括PCA和因子分析,可以理解为学习一个流形。
我们可以将概率PCA定义为一个高概率的薄饼状区域,即一个高斯分布。PCA能将该薄饼与更高维空间中的线性流形对准。这种解释不仅适用于传统PCA,还适用于学习矩阵W和V的任何线性自编码器,其目的是使重构的x尽可能接近于原始的x。