唐宇迪《python数据分析与机器学习实战》学习笔记
22降维算法-PCA主成分分析
一、算法讲解


比如(3,2)是建立在我的基上,一旦改变就不能这么表达那个点了。


线性无关,X轴Y轴的数据不相互影响。


做事要有依据,既然映射到基,那就要 找最合适的基
一堆密集的点希望投影后得到一堆比较分散的点,因此方差越大越好,方差代表一个特征的分散程度,协方差代表两个变量之间的关系,如果A、B的变化趋势类似则协方差越大,协方差的值在-1到1之间。
协方差计算:第一列减去第一列均值,第二列减去第二列均值,本来应该是(ai-μa)(bi-μb)这里假设均值为0所以直接aibi

之所以要引入协方差是因为:比如10维-2维选方差最大的当轴,第一个轴方差最大,第二个轴次大,两个轴肯定接近重合,即使多个轴也会大部分接近重合,不利于建模。

优化目标

使方差尽可能大、使协方差为0。对角线上是各自的方差(默认μ为0),非对角线上就是两个字段的协方差

本文介绍了PCA主成分分析的算法原理,强调了降维过程中保持方差最大化和协方差为0的目标。通过实例展示了PCA在数据标准化、特征分解、投影矩阵构建和效果验证的过程,证实PCA能增强数据的分辨能力。
最低0.47元/天 解锁文章
2964

被折叠的 条评论
为什么被折叠?



