读书笔记:Deep Learning [Ada-Computation&ML series]--chapter13.Linear factor model


part0.ICA vs PCA

1.相同:
1)都是要找是的一个n维的w,使得sum(wi*xi)的某种特征最大。
2.PCA
1)假设源信号间彼此非相关。(根据 相关的定义,仅指的是 线性相关
2)主元之间彼此正交,样本呈高斯分布
3)认为最有用的信号体包含在方差里。因此要找到一个方向是的在该方向的投影的方差最大。然后在于第一个最大方差方向正交的方向里面找最大。这样就找到一列不相关的随机变量。
3.ICA
1)假设源信号间独立
2)要求数据源是非高斯的。
3)认为一个信号可以被分解为若干个统计独立的分量的线性组合,而后者携带更多信息。
4)要求信号非高斯?如果信号是高斯分布,那么根据其旋转对称性,我们无法得知源信号是否经过旋转后得到。如果是非高斯,那么只要有足够的数据,就有可能恢复n个独立的源信号。既对于x = As,A' = AR’,RR' = R’R = I,x’ = A’s,且对于x,mean = 0, Cor = AA’,则 x’与x的均值和协方差一样。 无法得知数据是经过混合矩阵A,还是A’,也就无法得知源数据。
5)x = As;<=> x = a*A*(a^(-1)*s).所以加上约束:s的方差要归一化

part1.Probablistics PCA

1.线性因子模型可以像这样描述数据的生成过程:
首先,从分布p(h)中采样解释因子h:h~p(h),p(h)是一个因子分布,p(h) = product p(hi) for all i,这样更容易采样。
然后,我们根据上述的因子来采样观测的实数值的样本:
x = Wh + b + noise
noise一般是高斯且对角的(维度之间独立)
2.首先考虑三种特殊情况:(它们的区别只是噪声的选择以及模型的先验h。)
1)Factor Analysis:隐变量的先验是单位方差的高斯分布,h ~ N(h; 0, I),xi关于h是条件独立的。隐变量的作用是捕获不同观测样本的依赖。如果noise是对角协方差高斯分布,alpha = diag(delta^2);
x~ N(x; b, WW’ + alpha )
2)Probablistic PCA:将FA的做一些改动,把每个条件方差deltai^2都相等。因此x的协方差只是WW’ + delta^2*I.
x~N(x; b, WW’ + delta^2 * I ),or
x = Wh + b + delta*z, z ~ N(z; 0, I)
优点是:绝对大多数的变化可以被隐变量捕获,它可以有非常小的残差,也就是重构误差delta^2.
3)other linear factor models

part2.ICA

1.历史:是最早的表达学习。
2.用途:复原被混合在一起的low-level的信号,而不是抽象的high-level的信号。
3.要求p(h)是非高斯的。否则W不唯一。一般选择p(h)的分布,使得它0位置有较大的峰值。所以大多数ICA都是学习稀疏特征。
4.ICA一般仅仅知道如何从 xh之间转换,但是不知道如何表示p(h),因为ICA只是用来作为分离信号的工具,因此不具备生成模型的功能(可以生成数据)。

part3.Slow Feature Analysis 跳过
motivation:场景的一些重要特性与单独的统计量相比变化的很慢。

part4.PCA的流形解释

1.PCA可以看做是在高位空间的线性流形中对齐PCA的形如薄饼的区域。
2.正交于薄饼平面方向的方差很小,对应的是噪声
3.沿着薄饼最长的方向方差很大,对应的是信号
4.PCA既可以看做是最小化重构误差,也可以看做是最大化 h的元素的方差。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值