数据降维(PCA、因子分析法)

数据降维原因:常用的数据库中包含百万记录和数千个变量,不是所有变量都相互独立,没有任何关联,为防止变量多重共线性的出现而导致的解空间不稳定的后果。而高维空间本身具备稀疏性,例如十维多元正态分布中仅有2%数据位于某超球面内,一维空间中大约有68%的正态分布变量值位于正负标准差之间,因而如果不做降维会在高维解空间中出现某一重要特征的重复使用造成过拟合的情况。

降维利用变量间的相关结构减少预测变量个数确保预测变量相互独立、提供最小单元框架解释结果。

常用降维方法:主成分分析(PCA:Principal Components Analysis)、因子分析、用户自定义先验

PCA:是将多个变量通过线性组合选出小部分重要变量集合来描述相关结构的统计分析。这些线性组合被称为成分。PCA仅用于处理预测变量不针对目标变量

物理意义:如果初始变量x1,x2,...,xm组成一个m维的坐标系,PCA要做的事是选出主成分表示一个新的坐标系统沿着最大变化的方向旋转原始坐标系得到。

一、主成分分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏曦儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值