1.过程:
计算测试样本与训练样本之间的距离,这里的距离有欧式距离,曼哈顿距离,拉普拉斯距离等。
按照距离进行排序
选择其中最近的k个值,这里k值的选择用到交叉验证的方法,交叉验证包括s折,随机,留一
根据分类决策规则来确定最终属于哪个类(分类决策规则一般是经验风险最小)
2.优点:
形式简单,理论成熟,不需要抽象出模型,可以用于分类回归等。
3.缺点:
计算量大,费空间,样本不平衡问题
4.kd树的构建与搜索
构建时,选取每个特征上的中位数与该特征对应的坐标轴构建超平面,直到子区域没有节点为止。
搜索时,先选取节点所在的子区域,记此时与该区域中节点的距离为最近,然后依次回退,每次检验是不是有更近,直到根节点,则将此时最近的输出