机器学习————PCA

一、PCA

1.1 概述

主成分分析(PCA)是一种常用的数据降维方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,通常用于高维数据的处理可视化

1.2 特征维度约减

特征约减的目的是将高维特征向量映射到低维子空间中

给定n个样本(每个样本维度为p维)

\{x_1,x_2,\ldots\ldots x_n\}

通过特征变换/投影矩阵实现特征空间的压缩:

G\in R^{p\times d}:x\in R^p\to y=G^Tx\in R^d(d<<p)

大多数机器学习算法在高维空间中表现不够鲁棒,查询速度与精度随着维度增加而降低.有价值的维度往往很少

1.3 协方差矩阵

在统计学中,方差是用来度量单个随机变量离散程度,而协方差则一般用来刻画两个随机变量相似程度

方差:

\sigma_x^2=\frac1{n-1}\sum_{i=1}^n(x_i-\overline{x})^2

协方差:

\sigma(x,y)=\frac1{n-1}\sum_{i=1}^n(x_i-\overline{x})^2(y_i-\overline{y})^2

例:如果观测N个人的体重w和身高h,这样会形成R^{2}的样本空间,观测向量\mathrm{X_j}(\mathrm{X_j}\subseteq\mathbb{R}^2)表示第j个人体重和身高,观测矩阵可以表示为:

\begin{bmatrix}\mathrm w_1&&\mathrm w_1&&\cdots&&\mathrm w_\mathrm{N}\\\mathrm h_1&&\mathrm h_2&&\dots&&\mathrm h_\mathrm{N}\end{bmatrix}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值