一、KNN算法
KNN分类算法的思想非常简单,就是k个最近邻多数投票的思想,关键就是在给定的距离量度下快速找到预测实例的最近的k个临近值
常用的距离量度方式包括:闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离
优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
二、数据集内容
Iris数据集里一共包括150行记录,其中前四列为花萼长度,花萼宽度,花瓣长度,花瓣宽度等4个用于识别鸢尾花的属性,第5列为鸢尾花的类别(包括Setosa,Versicolour,Virginica三类)。
通过判定四个尺寸大小识别类别花朵类别,可通过UCI Machine Learning RepositoryDiscover datasets around the world!