机器学习实战：逻辑回归(2)-从疝气病症预测病马的死亡率_作业2. 疝气病症数据-adaboost或者逻辑回归-优快云博客

本文链接：https://blog.youkuaiyun.com/zhangxiaohuiNO1/article/details/122533248

1.准备数据：处理数据中的缺失值

可选的做法：

使用可用特征的均值来填补缺失值；
使用特殊值来填补缺失值，如-1；
忽略有缺失值的样本；
使用相似样本的均值添补缺失值；
使用另外的机器学习算法预测缺失值。

我们对要用的数据集进行预处理：

选择实数0来替换所有的缺失值。

因为更新时不会影响系数。回归系数的更新公式如下：

如果dataMatrix的某特征对应值为0，那么该特征的系数将不做更新，即： weights=weights

同时，由于sigmoid(0)=0.5，即它对结果的预测不具有任何倾向性，因此上述做法也不会对误差项造成任何影响。

若数据集中某些数据类别标签缺失，则直接舍弃这些数据

处理后的数据集下载：horseColicTest.txt和horseColicTraining.txt。

2.测试算法：用Logistic回归进行分类

把测试集上每个特征向量乘以最优化方法得来的回归系数，再将该乘积结果求和，最后输入到Sigmoid函数中即可。如果对应的Sigmoid值大于0.5就预测类别标签为1，否则为0。

全部代码为：

import numpy as np

"""
函数说明:sigmoid函数
Parameters:
    inX - 数据
Returns:
    sigmoid函数
"""
def sigmoid(inX):
    return 1.0/(1+np.exp(-inX))


"""
函数说明：改进的随机梯度上升算法
Parameters:
    dataMatrix - 数据数组
    classLabels - 数据标签
    numIter - 迭代次数
Returns:
    weights - 球的的回归系数数组(最优参数)
"""
def stocGradAscent1(dataMatrix,classLabels,numIter):
    m,n = np.shape(dataMatrix)
    weights = np.ones(n)
    for j in range(numIter):
        dataIndex =list(range(m))
        for i in range(m):
            alpha = 4.0/(j+i+1.0) +0.01
            randIndex = int(np.random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(weights*dataMatrix[dataIndex[randIndex]]))
            error = classLabels[dataIndex[randIndex]] - h
            weights = weights+alpha*error*dataMatrix[dataIndex[randIndex]]
            del(dataIndex[randIndex])
    return weights

"""
函数说明:计算对应的sigmoid值
Parameters:
    inX - 数据
    weights - 回归系数
Returns:
    1/0
"""
def classifyVector(inX,weights):
    prob = sigmoid(sum(inX*weights))
    if prob>0.5: return 1.0
    else: return 0.0


"""
函数说明：打开训练集和测试集，并对数据进行格式化处理
Parameters:
    无
Returns:
    errorRate - 错误率
"""
def colicTest():
    frTrain = open('horseColicTraining.txt','r')
    frTest = open('horseColicTest.txt','r')
    # 训练模型
    trainingSet=[]; trainingLabels = []
    for line in frTrain.readlines():
        currntLine = line.strip().split('\t')
        lineArry = []
        for i in range(len(currntLine)-1):
            lineArry.append(float(currntLine[i]))
        trainingSet.append(lineArry)
        trainingLabels.append(float(currntLine[-1]))
    trainingWeights = stocGradAscent1(np.array(trainingSet),trainingLabels,500)
    # 测试模型
    errorCount = 0; numTest = 0.0
    for line in frTest.readlines():
        numTest += 1.0
        currntLine = line.strip().split('\t')
        lineArry = []
        for i in range(len(currntLine)-1):
            lineArry.append(float(currntLine[i]))
        if int(classifyVector(np.array(lineArry),trainingWeights)) != int(currntLine[-1]):
            errorCount += 1
    errorRate = float(errorCount/numTest)*100
    print('分类错误率：%.2f%%'%errorRate)
    return errorRate


"""
函数说明：调用函数colicTest()10次并求结果的平均值
Parameters:
    无
Returns:无
"""
def muliTest():
    numTests = 10; errorSum = 0.0
    for i in range(numTests):
        errorSum += colicTest()
    errorAverage = errorSum/numTests
    print("10次测试结果的平均值:%.2f%%"%errorAverage)

muliTest()