上面是我们上一节使用这个步骤,通过PCA降维中的,特征值和特征向量的方式,来进行的数据降维处理步骤,我们再来回顾一下:
代码写完了,然后我们看一下原理PCA降维原理,
1.首先样本均值简单
2.样本方差,这里我们需要说一下,首先样本方差,可以看到/n-1,这里为什么是n-1呢
可以看到总体标准差,这里/的n对吧,因为数据是n,是整体的数据,但是现实生活中,我们使用的所有数据都是
样本数据,不可能有包含所有的数据.所以我们求的都是样本标准差,那么 标准差就是对 方差开平方
可以看到公式中, 就是xi-x 上面横线表示平均值. 的平方 ,然后加起来,然后/n-1
为啥要n-1,n-1 会让分母变小,让整体变大.
因为在样本标准差中我们的数据是样本数据,也就是说,分子(xi-xi横线)平方,然后加和,这个值是偏小的.比起
总体标准差,所以说,如果除以的还是n的话,那就表示,我们得到的结果,跟实际的标准差,也就是总体标准差
,也就是比总体标准差是偏小的,所以这个时候,给分母,减小一点n-1,这个时候,让样本标准差,增大一点