数值计算和SVM讲解(中)

本文是数值计算和SVM讲解系列的中篇,主要介绍了SVM的相关预备知识,包括数据维度的概念,解释了维度在机器学习中的作用,探讨了维度灾难与降维技术PCA和SVD。此外,还讨论了回归与分类的区别,以及线性分类器如感知机的基本原理。最后,对比了logistic回归与SVM的异同,为后续深入理解SVM奠定基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2.1 SVM预备

这一部分紧接上一篇《数值计算和SVM讲解(上)》。 之前一直考虑如何写这部分,如果按部就班地和前面一样,很多大神其实很早就已经写出了关于SVM的优质详解blog。而且,本篇开头我的预想是想借由SVM和各位读者分享一下机器学习的思路,所以第二部分我们首先介绍几部分与SVM相关的预备知识,把学习的思路捋一捋。

2.1.1 关于数据维度

在《线代和PCA详解》一文中,我们介绍了降维的工具——PCA,并且简单说明了它的两种方式。更朴实意义而言,SVD其实本身就充当着压缩的角色。降维有好处,那么升维又能不能给予我们一定的帮助呢。这一节,我们就谈谈数据维度的问题。

维度这个概念我们都并不陌生,维度在数学中也称作维数,代表的是参数的数目。我们说零维是点,一维是线,二维是面,三维是立体。

我们跳出数学的视角,而上升到哲学的角度,我们说维度其实代表的是我们看一件事物的视角,每个视角都有着一个对应的描述,于是我们将这个描述数字化,并且将这些视角的描述综合起来,放到一起,我们将之成为多维向量。例如说,我们审视一个长方体,需要看他的长度,高度,宽度,重量,那么我们用多维向量来描述这个长方体便可能是 < 1,1,2,4 >,这里面我们引入了4个维度,我们把它叫做四维向量。

上升到机器学习的领域,这个维度主要指数据特征向量的各维,即每一个样本点的各个属性。实际中,例如某个商品的买卖交易,时间、地点、数量、单价,都可以作为评价的维度。另外,维度和维度之间,还会有相似度的衡量,它代表着这两种维度之间的潜在关系。这里我们要理解一个常识性的概念,叫做维度灾难。维度灾难通常都被用作是不要处理高维数据的最好借口。维度灾难通常是指在高维空间中,所有的数据都很稀疏,于是导致在相似度度量上,距离计算上都会出现很大的偏差,因为平时我们采用的算法也都会变得很低效。

在现实中初始的维度范围很可能会很大,导致我们在后面的算法优化和特征选取都会有影响,这时候我们会采取降维的方式。另外在SVM中我们会遇到维度灾难的问题,那时候我们运用核技巧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值