什么叫回归:
假设我们现在又一些数据点,我们用一条直线对这些数据点进行拟合(该线成为最佳拟合直线),这个拟合过程就称作回归。
主要思想:
根据现有数据对分类边界线建立回归公式,以此进行分类。
训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。
因为是分类,所以我们想要的函数应该是,能接受所有的输入然后预测出类别。在这我们用到的是Sigmoid函数,这个函数的计算公式如下:
在这个函数中,我们输入z,就能够得到一个范围在0--1之间的数值,大于0.5的数据被分为1类,小于0.5的被归入0类。所以Logistic也可以被看成是一种概率估计。
下面我们的问题就是怎么确定这个z,由下面的公式得出:
上述公式可以写成:z = w向量的转置*x向量。向量x是分类器的输入数据,向量w就是我们要找到的最佳参数(系数),从而使分类器尽可能的准确。
下面的问题又成了我们怎么去找这个最佳参数:上面说了,我们用一些最优算法,这里我们要说的是梯度上升法
梯度上升法思想:找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。
函数f(x,y)的梯度为:
我们计算最佳参数w的公式为:
这里的a成为步长,a后面的成为w的梯度。我们对它进行迭代,直到达到某个停止条件为止,比如迭代次数达到某个指定的值或者算法达到某个可以允许的误差范围。
说了这么多,下面我们就用代码实现一下,怎么使用梯度上升找到最佳参数
我们现在又的数据是,在testSet.txt文件中有100个样本点,每个点包含两个数值特征:X1和X2。最后一列是类别,如下图:
代码:
#最优化算法,Logistic回归
from numpy import *
def loadDataSet():
dataMat = [];labelMat = []
fr = open('testSet.txt')
for line in fr.readlines():
lineArr = line.strip().split()
dataMat.append([1.0,float(lineArr[0]), float(lineArr[1])])
labelMat.append(int(lineArr[2]))
#print(lineArr)
#print(dataMat)
#print(labelMat)
return dataMat,labelMat
#sigmoid函数
def sigmoid(inX):
return 1.0/(1+exp(-inX))
#利用上面公式求回归系数,回归梯度上升优化算法
def gradAscent(dataMatIn, classLabels):
dataMatrix = mat(dataMatIn)
labelMat = mat(classLabels).transpose()#矩阵转置
m,n = shape(dataMatrix)
alpha = 0.001#向目标移动的长度
maxCycles = 500#迭代次数
weights = ones((n,1))
for k in range(maxCycles):
h = sigmoid(dataMatrix*weights)
error = (labelMat - h)#计算真实类别与预测类别的差值
weights = weights + alpha * dataMatrix.transpose()*error#一步步迭代调整回归系数
return weights#返回训练好的回归系数
运行结果测试:
>>> import logRegres
>>> dataArr,labelMat = logRegres.loadDataSet()
>>> logRegres.gradAscent(dataArr,labelMat)
matrix([[ 4.12414349],
[ 0.48007329],
[-0.6168482 ]])
>>>
这就是我们要的回归系数(最佳参数)下面的代码是利用最佳参数,画出决策边界,将两类分开
#画出数据集和Logistic回归最佳拟合直线的函数
def plotBestFit(weights):
import matplotlib.pyplot as plt
dataMat,labelMat = loadDataSet()
dataArr = array(dataMat)
n = shape(dataArr)[0]
xcord1 = [];ycord1 = []
xcord2 = [];ycord2 = []
for i in range(n):
if int(labelMat[i]) == 1:
xcord1.append(dataArr[i,1]);ycord1.append(dataArr[i,2])
else:
xcord2.append(dataArr[i,1]);ycord2.append(dataArr[i,2])
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xcord1,ycord1,s=30,c='red',marker='s')
ax.scatter(xcord2,ycord2,s=30,c='green')
x = arange(-3.0,3.0,0.1)
print(x)
y = (-weights[0]-weights[1]*x)/weights[2]#最佳拟合直线
ax.plot(x,y)
plt.xlabel('X1');plt.ylabel('X2');
plt.show()
运行结果:
下面我们来举一个例子,来查看一下Logistic的准确率:预测病马的死亡率
代码如下:
#Logistic回归分类函数
def classifyVector(inX,weights):
prob = sigmoid(sum(inX*weights))
if prob > 0.5:
return 1.0
else:
return 0.0
def colicTest():
frTrain = open('horseColicTraining.txt')
frTest = open('horseColicTest.txt')
trainingSet = [];trainingLabels = []
for line in frTrain.readlines():
currLine = line.strip().split('\t')
lineArr = []
for i in range(21):
lineArr.append(float(currLine[i]))
trainingSet.append(lineArr)
trainingLabels.append(float(currLine[21]))
#print(lineArr)
#print(trainingSet)
#print(trainingLabels)
trainWeights = stocGradAscent1(array(trainingSet),trainingLabels,500)
#print(trainWeights)
errorCount = 0;numTestVec = 0.0
for line in frTest.readlines():
numTestVec += 1.0
currLine = line.strip().split('\t')
lineArr = []
for i in range(21):
lineArr.append(float(currLine[i]))
if int(classifyVector(array(lineArr),trainWeights)) != int(currLine[21]):
errorCount += 1
#print(int(classifyVector(array(lineArr),trainWeights)))
errorRate = (float(errorCount)/numTestVec)
print("the error rate of this test is : %f" % errorRate)
return errorRate
def mutiTest():
numTests = 10;errorSum = 0.0
for k in range(numTests):
errorSum += colicTest()
print("after %d iterations the average error rate is : %f" % \
(numTests,errorSum/float(numTests)))
代码运行结果:
>>> logRegres.mutiTest()
the error rate of this test is : 0.358209
the error rate of this test is : 0.328358
the error rate of this test is : 0.358209
the error rate of this test is : 0.417910
the error rate of this test is : 0.313433
the error rate of this test is : 0.328358
the error rate of this test is : 0.313433
the error rate of this test is : 0.298507
the error rate of this test is : 0.388060
the error rate of this test is : 0.358209
after 10 iterations the average error rate is : 0.346269
>>>
如果想知道预测结果可以在clicTest()函数里面得到。over