logistic回归（机器学习）

最新推荐文章于 2022-12-07 17:08:15 发布

原创最新推荐文章于 2022-12-07 17:08:15 发布 · 430 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了机器学习算法的实现与应用，包括梯度上升、随机梯度上升及改进算法，通过实验证明其在分类任务上的有效性和准确性。同时，介绍了数据集加载、特征转换和最佳拟合函数绘制等关键步骤，为读者提供了从理论到实践的全面指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#encoding:utf-8
from numpy import *
def loadDataSet():
	dataMat=[];labalMat=[]
	fr=open('testSet.txt')
	for line in fr.readlines():
		lineArr=line.strip().split()
		dataMat.append([1.0,float(lineArr[0]),float(lineArr[1])])
		labalMat.append(int(lineArr[2]))

	return dataMat,labalMat

def sigmoid(inX):
	return 1.0/(1.0+exp(-inX))

#梯度上升算法
def gradAscent(dataMatIn,classLabels):
	dataMatix=mat(dataMatIn)
	labalMat=mat(classLabels).transpose()
	m,n=shape(dataMatix)
	alpha=0.001
	maxCycle=500
	weights=ones((n,1))
	for k in range(maxCycle):
		h=sigmoid(dataMatix*weights)
		error=(labalMat-h)
		weights=weights+alpha*dataMatix.transpose()*error
	return weights

#随机梯度上升算法	
def stocGradAscent0(dataMatix,classLabels):
	m,n=shape(dataMatix)
	alpha=0.01
	weights=ones(n)
	for i in range(m):
		h=sigmoid(sum(dataMatix[i]*weights))
		error=classLabels[i]-h
		weights=weights+alpha*error*dataMatix[i]
	return weights
#dataArr,labelMat=loadDataSet()

#改进的随机梯度上升算法
def stocGradAscent1(dataMatix,classLabels,numIter=150):
	m,n=shape(dataMatix)
	weights=ones(n)
	for j in range(numIter):
		dataIndex=range(m)
		for i in range(m):
			alpha=4/(1.0+j+i)+0.01
			randIndex=int(random.uniform(0,len(dataIndex)))
			h=sigmoid(sum(dataMatix[randIndex]*weights))
			error=classLabels[randIndex]-h
			weights=weights+alpha*error*dataMatix[randIndex]
			del(dataIndex[randIndex])
	return weights

def plotBestFit(weights):
	import matplotlib.pyplot as plt 
	dataMat,labelMat=loadDataSet()
	dataArr=array(dataMat)
	n=shape(dataArr)[0]
	xcord1=[];ycord1=[]
	xcord2=[];ycord2=[]
	for i in range(n):
		if int(labelMat[i])==1:
			xcord1.append(dataArr[i,1]);ycord1.append(dataArr[i,2])
		else:
			xcord2.append(dataArr[i,1]);ycord2.append(dataArr[i,2])
	fig=plt.figure()
	ax=fig.add_subplot(111)
	ax.scatter(xcord1,ycord1,s=30,c='red',marker='s')
	ax.scatter(xcord2,ycord2,s=30,c='green')
	x=arange(-3.0,3.0,0.1)
	y=(-weights[0]-weights[1]*x)/weights[2]
	ax.plot(x,y)
	plt.xlabel('X1');plt.ylabel('X2')
	plt.show()
# dataArr,labelMat=loadDataSet()
# #weights=gradAscent(dataArr,labelMat)
# weights=stocGradAscent1(array(dataArr),labelMat,500)
# print weights
# plotBestFit(weights)

def classifyVector(intX,weights):
	prob=sigmoid(sum(intX*weights))
	if prob>0.5:
		return 1.0 
	else:
		return 0.0

def colicTest():
	frTrain=open('horseColicTraining.txt')
	frTest=open('horseColicTest.txt')
	trainingSet=[];trainingLabels=[]
	for line in frTrain.readlines():
		currLine=line.strip().split('\t')
		lineArr=[]
		for i in range(21):
			lineArr.append(float(currLine[i]))
		trainingSet.append(lineArr)
		trainingLabels.append(float(currLine[21]))
	trainWeights=stocGradAscent1(array(trainingSet),trainingLabels,500)
	errorCount=0;numTestVec=0.0 
	for line in frTest.readlines():
		numTestVec+=1.0;
		currLine=line.strip().split('\t')
		lineArr=[]
		for i in range(21):
			lineArr.append(float(currLine[i]))
		if int(classifyVector(array(lineArr),trainWeights))!=int(currLine[21]):
			errorCount+=1 
	errorRate=(float(errorCount)/numTestVec)
	print "the error rate of this test is:%f"%errorRate
	return errorRate

def multiTest():
	numTests=10;errorSum=0.0 
	for k in range(numTests):
		errorSum+=colicTest()
	print "after %d iteration the average error rate is %f"%(numTests,errorSum/float(numTests))
multiTest()