1、存在问题
最早的 Linear Regression 的缺点:如果样例数 相比特征数
少,或者特征间线性相关时,由于
(
矩阵)的秩小于特征个数(即
不可逆)。因此最小二乘法
就会失效。
为了解决这个问题,利用 PCA 对样本 (
矩阵)进行降维,假设降维之后的
为
(
矩阵),那么
的秩为
(列不相关)。
2、主成分分析(Principal Component Analysis, PCA)
PCA 是一种常用的数据分析方法。PCA 通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
令 表示样本,含有
个样例
,每个样例特征维度为
,
。假设我们已经做了每个特征均值为 0 处理。
如果 的秩小于
,那么
的协方差矩阵
的秩小于
,因此直接使用线性回归的话不能使用最小二乘法来求解出唯一的
,利用 PCA 来使
可逆,这样就可以用最小二乘法来进行回归了,这样的称为主元回归(PCR)。
PCA的表示形式:
(1)当 为
时,
,则有
即
(假设 秩为
)
(2)当 为
时,需要舍弃特征值较小的特征向量,上式变为:
其中,