偏最小二乘法回归(Partial Least Squares Regression)

1、存在问题

最早的 Linear Regression 的缺点:如果样例数 m 相比特征数 n 少,或者特征间线性相关时,由于 X^{T}Xn*n 矩阵)的秩小于特征个数(即 X^{T}X 不可逆)。因此最小二乘法  \theta =(X^{T}X)^{-1}X^{T}y 就会失效。

为了解决这个问题,利用 PCA 对样本 Xm*n 矩阵)进行降维,假设降维之后的 X 为 xm*r 矩阵),那么 x 的秩为 r(列不相关)。

2、主成分分析(Principal Component Analysis, PCA)

PCA 是一种常用的数据分析方法。PCA 通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。

X 表示样本,含有 m 个样例 {x^{(1)},x^{(2)},...,x^{(m)}},每个样例特征维度为 nx^{(i)}={x_{1}^{(i)},x_{2}^{(i)},...x_{n}^{(i)}}。假设我们已经做了每个特征均值为 0 处理。

如果 X 的秩小于 n,那么 X 的协方差矩阵  \frac{1}{m}X^{T}X 的秩小于 n,因此直接使用线性回归的话不能使用最小二乘法来求解出唯一的 \theta,利用 PCA 来使X^{T}X可逆,这样就可以用最小二乘法来进行回归了,这样的称为主元回归(PCR)。

PCA的表示形式: 

(1)当 P 为 n*n 时,P^{T}=P^{-1},则有  T=XP\rightarrow TP^{T}=XPP^{T}\rightarrow X=TP^{T}

即  X=M_{1}+M_{2}+M_{3}+...+M_{n}=t_{1}p_{1}^{T}+t_{2}p_{2}^{T}+t_{3}p_{3}^{T}+...+t_{n}p_{n}^{T}=TP^{T}

(假设 X 秩为 n

(2)当 P 为 n*r 时,需要舍弃特征值较小的特征向量,上式变为:

X=M_{1}+M_{2}+M_{3}+...+M_{r}+E=t_{1}p_{1}^{T}+t_{2}p_{2}^{T}+t_{3}p_{3}^{T}+...+t_{r}p_{r}^{T}+E

其中,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值