机器学习算法 | Python实现k-近邻算法
基本介绍
KNN,全名k近邻算法。是⼀种⾮常简单有效的机器学习算法。KNN是通过计算不同特征值距离作为分类依据,即计算⼀个待分类对象不同特征值与样本库中每⼀个样本上对应特征值的差值,将每个维度差值求和也就得到了该组数据与样本之间的距离,⼀般使⽤欧式距离进⾏计算,通过对所有样本求距离,最终得到离待分类对象最近的K个样本,将这K个点作为分类依据。
- 优点:精度高、对异常值不敏感、无数据输入假定,对数据的特征类型没有明确的要求;
- 缺点:时间复杂度高、空间复杂度高;
适用数据范围:数值型和标称型;
关键点:k值的选取,k值为10以内的奇数(奇数是为了避免出现打成平⼿的情况),也可以通过交叉验证的⽅式来选取得到合适的k值;
工作原理
- 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 与所属分类的对应关系。
- 输入没有标签的新数据后&#