在介绍具体分类方法之前,先来明确两个概念,过拟合(OverFit)与欠拟合(UnderFit),这是在分类器训练,包括神经网络训练中都会遇到的问题。
过拟合 一般是训练了一个分类器,对于训练及测试样本分类近似100%,但实际分类效果却很差,究其原因在于也许数据本身更符合二次特征,由于噪声导致采用更高次函数模拟,或者参数迭代次数过多导致,解决方案是选择合适的参数个数、交叉样本验证或者设置一个有效的停止机制。
欠拟合 一般是指分类器本身的训练不到位,或者说无法收敛到一个比较好的极值点,产生的主要原因在于样本的数量或者说可分性不够。
• KNN
K-近邻(K-NearestNeighbor)算法是最简单的一种分类算法,将所有样本作为分类依据,对于一个新的数据,计算与其距离最近的K个邻居,根据K个样本的标签进行投票,得到其分类类别。
不同的K值会影响对应三角形的分类,如上图所示,当K=3时,类别判定为圆形,当K=5时,判定为矩形。
经常容易与KNN混淆的是K-Means算法,K-Means是一种非监督的聚类算法,初始化过程设置K个初始中心点(对应K类),迭代过程将样本按照距离分配到对应中心点并计算新的中