PCA,ZCA,ICA,白化,稀疏编码和自编码器

本文简要介绍了PCA、PCA白化、ZCA白化、ICA独立成分分析以及自编码器和稀疏编码在特征提取中的应用。PCA通过求协方差矩阵的特征分解实现数据降维,白化则是进一步将协方差矩阵变为单位矩阵。ZCA白化结合了PCA和旋转操作。ICA则寻找线性无关、正交且稀疏的基来表示数据。自编码器和稀疏编码则通过神经网络结构实现非线性特征学习和降维,其中稀疏编码强调大部分系数为零的特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

因为概率统计理论(随机信号分析?)的缺乏,只能从外观上简单地总结这几种和特征提取相关的算法。

自编码器 Autoencoder

自编码器就是一个全连接网络,就简单的三层,一个输入一个输出一个隐藏层。也可以把自编码器级联,形成多层的结构。自编码器的目的就是训练一个恒等映射,输入进去什么,就期望输出什么。简单的恒等映射没有意义,有意义的在于它的隐藏层神经元的个数往往和输入层不同。如果少于输入个数,这就相当于一个特征提取和重构的过程(降维);如果隐藏层个数大于输入层个数,此时如果还能再加上稀疏性约束,则就相当于稀疏编码。

如果是前者,Loss直接是输入和输出的的差,比如平方误差之类。

如果是后者,得加上稀疏性约束(稀疏性即提取出来的特征中,大量系数为零,非零系数尽量少)。为约束稀疏性,手段可以如下(来自UFLDL教程)。先定义隐藏层第 j j 单元的平均激活(在训练集上取平均)如下,其中 x ( i ) 是训练集第 i i 个样本,一共有 m 个样本。

ρj^=1mi=1m(a(2)j(x(i))) ρ j ^ = 1 m ∑ i = 1 m ( a j ( 2 ) ( x ( i ) ) )

再引入一个接近于零的所谓的稀疏性参数 ρ ρ ,约束为 ρ^j ρ ^ j 接近 ρ ρ 。从而此时Loss可以定义为
J(W,b)=J0(W,b)+βjs2KL(ρ|ρj^) J ( W , b ) = J 0 ( W , b ) + β ∑ j s 2 KL ( ρ | ρ j ^ )
右边第一项代表重构误差,第二项代表稀疏惩罚。 KL() KL ( ⋅ ) 是相对熵, ρ^j ρ ^ j ρ ρ 越远则这个惩罚项越大;参数 β β 用于权衡。

稀疏编码 Sparse Coding

上面的自编码器,隐层单元数量大于输入层时,如果再有稀疏性的约束,则相当于稀疏编码。但是因为激活函数的非线性等等问题,总的来说,它不是线性的变换。而一般说的稀疏编码、稀疏表示,大多数都是线性变换。就线性变换而言,稀疏编码是在寻找超完备的一组基 { ϕi},i=1,2,,k { ϕ i } , i = 1 , 2 , ⋯ , k ,使得输入向量表示成基的线性组合(这里不要求基的正交性)。

x=iai
自动编码器(Autoencoder)主成分分析(PCA)是两种常用的降维技术,它们有一些相似之处,但也存在一些区别。 自动编码器是一种无监督学习算法,用于学习输入数据的低维表示。它由编码解码器两部分组成。编码器将输入数据映射到一个较低维度的隐藏表示,而解码器则将隐藏表示映射回原始输入空间。自动编码器的目标是尽可能地重构输入数据,使得重构误差最小化。通过这种方式,自动编码器可以学习到数据的潜在特征,并用于降维、特征提取等任务。 主成分分析(PCA)是一种统计学方法,用于将高维数据转换为低维数据。它通过线性变换将原始数据投影到一个新的坐标系中,使得投影后的数据具有最大的方差。这些投影轴被称为主成分,它们是原始数据中方差最大的方向。PCA的目标是通过保留尽可能多的方差来减少数据的维度,同时尽量保持数据的信息。 区别如下: 1. 目标不同:自动编码器旨在学习输入数据的低维表示并重构输入数据,而PCA旨在通过线性变换找到数据中方差最大的方向。 2. 学习方式不同:自动编码器是一种无监督学习算法,它通过最小化重构误差来学习数据的表示;而PCA是一种基于统计学的方法,通过计算协方差矩阵的特征向量来找到主成分。 3. 非线性变换:自动编码器可以通过使用非线性激活函数多层结构来学习非线性变换,而PCA只能进行线性变换。 4. 数据依赖性:自动编码器对数据的分布有一定的依赖性,如果数据分布复杂或非线性,可能需要更复杂的自动编码器结构;而PCA对数据分布没有假设,适用于各种类型的数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值