降维方法

本文深入探讨k近邻(kNN)算法原理及其在分类与回归任务中的应用,同时解析主成分分析(PCA)用于数据降维的技术细节,包括数学推导及实现步骤。

kNN

  • 首先,k近邻是一种监督学习方法;
  • 它的基本思路是这样的:
    给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。如果是分类问题就用投票发,回归问题就用平均法。
  • 它的特点是,没有显式的训练过程,lazy learning的代表
  • 影响k近邻效果的两个因素;
    • k值的选取,灰常重要,不同的k可能会导致不同的预测结果
    • 距离度量方式的选择(前面聚类方法中有提到过常用的距离度量方法)

PCA降维

主成分分析。
从最大可分性的要求进行推导:我们的目标是希望在新空间中的超平面上,样本点的投影尽可能分开,一种数学表达就是投影后的样本点的方差最大化
假设样本点xixi在新空间的投影为:WTxiWTxi,由于样本已经中心化了,所以投影后的样本点的方差是:iWTxixTiW∑iWTxixiTW,于是优化目标就可以写为:

maxWtr(WTXXTW)s.t.WTW=ImaxWtr(WTXXTW)s.t.WTW=I
利用拉格朗日乘子法可得
XXTW=λWXXTW=λW
于是只需要对协方差矩阵XXTXXT进行特征值分解,将求得的特征值进行排序,选取前dd′个特征值对应的特征向量构成W=(w1,w2,,wd)W=(w1,w2,…,wd′).
算法流程如下:
- 输入:样本集D,低维空间维数dd′
- 1.首先对样本进行中心化:xixi1mmi=1xixi←xi−1m∑i=1mxi
- 2.计算样本的协方差矩阵XXTXXT
- 3.对协方差矩阵进行特征值分解
- 4.取最大的dd′个特征值所对应的特征向量
- 输出:投影矩阵W=(w1,w2,,wd)W=(w1,w2,…,wd′)

trickdd′的设置:用户指定或者通过在dd′值不同的低维空间中对k近邻分类器进行交叉验证来选取较好的dd′值。
另外,可以用奇异值分解方法来代替特征值分解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值