用Python写的adaboost代码如下,已做了详尽的注释。如果对adaboost算法不太熟悉,可以看上一篇博客:Adaboost(1)——从了解到掌握。
# coding=utf-8
"""
@Time : 2017/4/10 18:57
@Author : EvanChen
"""
from numpy import *
# 简单数据集
def loadSimpData():
datMat = matrix([[1., 2.1],
[2., 1.1],
[1.3, 1.],
[1., 1.],
[2., 1.]])
classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
return datMat, classLabels
# 该函数可以自动检测出特征的数目,因此不必指定每个文件中的特征数目。
# 同时,该函数也假定最后一个特征是类别标签
def loadDataSet(fileName):
numFeat = len(open(fileName).readline().split('\t'))
dataMat = [];
labelMat = []
fr = open(fileName)
for line in fr.readlines():
lineArr = []
curLine = line.strip().split('\t')
for i in range(numFeat - 1):
lineArr.append(float(curLine[i]))
dataMat.append(lineArr)
labelMat.append(float(curLine[-1]))
return dataMat, labelMat
# 该函数用于通过阈值比较对数据进行分类
# 通过数组过滤所有在阈值一边的数据会分类到类别-1,而在另一边的数据会分类到+1
# 特征:dimen,分类的阈值是 threshVal,切换不等号是threshIneq
# 返回值retArray:表示根据某个阈值的分类结果
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
retArray = ones((shape(dataMatrix)[0], 1))
if threshIneq == 'lt':
retArray[dataMatrix[:, dimen] <= threshVal] = -1.0