最近学习了《机器学习实战》这本书,讲的很仔细,很适合我们这些初学者
K-近邻算法是一种易于理解的机器学习算法,它的工作原理是:存在一个样本数据集合,并且样本中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中的k,通常k是不大于20的整数,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类
k-近邻算法通俗理解为计算样本数据中的点距离新数据点的距离,取最近的k个点作为最相似的点作为新数据的分类的判断依据
python实现
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
sortedDistIndicies = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]