(1)分类算法

本文介绍了分类算法的基础知识,包括K-近邻(KNN)、支持向量机(SVM)、朴素贝叶斯和决策树。朴素贝叶斯常用于文本分类,适合多分类任务,而SVM通过构建分类边界进行分类。决策树则以树状结构进行特征测试,形成分类规则。这些算法在实际应用中各有优势,选择时需考虑数据特性和问题需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类算法原理

一、KNN(K-近邻)

1、定义:

如果待推测点(空心点)在中间的某个位置,则计算出与其最邻近的4个样本点(K=4),而此时这4个样本点包含了3个类别(1红、1蓝、2绿),针对这样的情况,knn算法通常采用投票法进行类别推测,即找出k个样本点中类别出现次数最多的那个类别,因此该待推测点的类型值即被推测为 --------绿色类别。

    

knn算法的基本法则是:  在特征空间中,相同类别的样本之间 应当聚集在一起。

K-NN:      意思就是K个最近的邻居。

KNN的原理:当预测一个新的值x的时候,根据它距离最近的K个点是什么类别  来判断x属于哪个类别。

关键点:    K值的选取、点距离的计算。  (K值选取要调参测试)

二、支持向量机SVM    (就是条直线)

1、定义:

支持向量:那些距离分割平面最近的

支持向量机就是用来分割数据点那个分割面,他的位置是由支持向量(点)确定的 (如果支持向量发生了变化,往往分割面的位置也会随之改变),  因此这个面就是一个支持向量确定的分类器---即支持向量机。

对于线性可分两类数据,支持向量机就是条直线 (对于高维数据点就是一个超平面) 。 两类数据点中的的分割线有无数条,SVM就是这无数条中最完美的一条。 

怎么样才算最完美呢?就是这条线距离两类数据点越远。  则当有新的数据点的时候我们使用这条线将其分类的结果也就越可信。例如下图中的三条直线都可以将A中的数据分类,D图的那条具有最优的分类能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bigdata_pokison

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值