转载请注明出处:http://blog.youkuaiyun.com/xiaojimanman/article/details/51064307
http://www.llwjy.com/blogdetail/f74b497c2ad6261b0ea651454b97a390.html
个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽~
-------------------------------------------------------------------------------------------------
在开始之前先打一个小小的广告,自己创建一个QQ群:321903218,点击链接加入群【Lucene案例开发】,主要用于交流如何使用Lucene来创建站内搜索后台,同时还会不定期的在群内开相关的公开课,感兴趣的童鞋可以加入交流。
KNN算法又叫近邻算法,是数据挖掘中一种常用的分类算法,接单的介绍KNN算法的核心思想就是:寻找与目标最近的K个个体,这些样本属于类别最多的那个类别就是目标的类别。比如K为7,那么我们就从数据中找到和目标最近(或者相似度最高)的7个样本,加入这7个样本对应的类别分别为A、B、C、A、A、A、B,那么目标属于的分类就是A(因为这7个样本中属于A类别的样本个数最多)。
算法实现
一、训练数据格式定义
下面就简单的介绍下如何用JAVA来实现KNN分类,首先我们需要存储训练集(包括属性以及对应的类别),这里我们对未知的属性使用泛型,类别我们使用字符串存储。
/**
*@Description: KNN分类模型中一条记录的存储格式
*/
package com.lulei.datamining.knn.bean;
public class KnnValueBean<T>{
private T value;//记录值
private String typeId;//分类ID
public KnnValueBean(T value, String typeId) {
this.value = value;
this.typeId = typeId;
}
public T getValue() {
return value;
}
public void setValue(T value) {
this.value = value;
}
public String getTypeId() {
return typeId;
}
public void setTypeId(String typeId) {
this.typeId = typeId;
}
}
二、K个最近邻类别数据格式定义
在统计得到K个最近邻中,我们需要记录前K个样本的分类以及对应的相似度,我们这里使用如下数据格式:
/**
*@Description: K个最近邻的类别得分
*/
package com.lulei.datamining.knn.bean;
public class KnnValueSort {
private String typeId;//分类ID
private double score;//该分类得分
public KnnValueSort(String typeId, double score) {
this.typeId = typeId;
this.score = score;
}
public String getTypeId() {