Logistic回归(实例)

最新推荐文章于 2025-02-18 20:53:05 发布

原创最新推荐文章于 2025-02-18 20:53:05 发布 · 2.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #监督学习 #算法 #Python #Logistic

算法同时被 3 个专栏收录

29 篇文章

订阅专栏

机器学习

24 篇文章

订阅专栏

有监督学习

19 篇文章

订阅专栏

本文通过实例演示了算法测试过程，包括数据集加载、特征处理、改进的随机梯度上升算法应用、分类函数构建及错误率计算。通过多次迭代评估算法性能。

这节我们通过一个实例来进行一下算法测试:Text.txt下载（提取码：3b8f） Train.txt下载（提取码：d947）

def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0

def colicTest():
    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[21]))
    trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)
    errorCount = 0; numTestVec = 0.0
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(21):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec)
    print "the error rate of this test is: %f" % errorRate
    return errorRate

def multiTest():
    numTests = 10; errorSum=0.0
    for k in range(numTests):
        errorSum += colicTest()
    print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))

第一个函数以回归系数和特征向量作为输入来计算Sigmoid的值。第二个函数首先对数据进行处理，然后使用改进的随机梯度上升算法来计算回归系数然后进行预测并计算出错误率，最后一个函数是进行10次迭代计算平均的错误率。