主成分分析(PCA) 是一种降维方法,核心是在保留数据核心信息(方差) 的前提下,将多个相关的原始变量,转化为少数几个互不相关的“综合变量”(即主成分),实现数据简化。
可以把它类比成“总结文章大意”:一篇长文(多个原始变量)包含很多细节,PCA就是提炼出1-2句核心主旨(主成分),既抓住关键信息,又大幅缩短了内容长度,且主旨之间互不重复。
为什么要把原始变量转为不相关变量呢?
转换为不相关变量(主成分),核心目的是消除原始变量间的“信息重叠”,让降维后的核心信息更纯粹、分析更高效。
具体可从两个关键价值理解:
-
避免“重复计数”:原始相关变量(如“身高”和“体重”)会反复反映同一类信息(体型),分析时相当于把同一信息算多次,干扰结果。不相关的主成分能让每个成分承载独立信息,更精准。
-
简化分析难度:互不相关的变量可排除“变量间相互影响”的干扰,让后续的建模、可视化等操作更简单。比如用2个独立主成分建模,比用10个相互关联的原始变量建模,效率和稳定性都更高。
864

被折叠的 条评论
为什么被折叠?



