knn的优缺点
优点:精度高,对异常值不敏感,无数据输入假定。
缺点:计算复杂度高,空间复杂度高。
适用数据范围:数值型和标称型。
knn的大致流程
1.计算未知点与数据集中所有点的距离。
2.按距离从小到大排序。【距离值越小,越相似】
3.取前k个距离相似的点。
4.统计每个点的分类标签。【判断分类标签,哪个标签出现的次数多,未知点就属于哪种分类】
基础概念
https://blog.youkuaiyun.com/u013829973/article/details/77942942(一)
实战项目
https://blog.youkuaiyun.com/u013829973/article/details/77950299(二)
用Spark实现knn
https://www.jianshu.com/p/ac8f4f84c934