前言:机器学习算法的第一次实验,用k-近邻算法来设计一个有关于集美大学的程序,对于刚了解机器学习以及接触python不深的我来说,只能先将教科书上的例子吃透在继续深入
课本源代码使用的是python2版本,照书本写代码后发现在自己的Visual Studio Code上报了一些错误,在上网查阅资料后发现,python3是不向下兼容python2的,虽然其中很多组件和扩展都是python2的,但部分代码还是有些不同,基于自己所用的是python3版本的,所以决定用python3来理解书上的案例
目录
一、理解k-近邻算法含义以及代码实现
k-近邻算法的代码实现原理:
在一个样本集中存在对应特征和标签,例如海伦约会网站案例中一个样本有四个值(每年获得的飞行常客里程数、玩视频游戏所消耗时间百分比、每周消费的冰淇淋公升数、喜爱程度),前三个值为特征,最后一个值为标签,这样便形成了一个样本数据和其分类的对应关系,当一个没有标签的新数据被输进来时,我们需要提取与新数据(k个)最相近的特征的分类标签,选择其中出现次数最多的标签,作为新数据的分类标签。
那么,怎么求特征间的距离呢?
书本上使用的是欧氏距离,即 :