【3】机器学习实战第五章 logistic回归

最新推荐文章于 2022-07-28 14:32:47 发布

原创最新推荐文章于 2022-07-28 14:32:47 发布 · 701 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

19 篇文章

订阅专栏

本文介绍了逻辑回归算法原理及其实现过程，包括梯度上升和随机梯度下降算法的应用。探讨了getA()方法的作用及其在绘图中的重要性，并讨论了几种处理数据缺失值的方法。

1.getA()方法

def plotBestFit(weights):
    dataMat, labelMat = loadDataSet()
    dataArr           = array(dataMat)              #将每个数据点的x,y坐标存为矩阵的形式
    n                 = shape(dataArr)[0]           #取其行数,也即数据点的个数
    #======画数据点
    xcord1 = []
    ycord1 = []    
    xcord2 = []
    ycord2 = []
    for i in range(n):
        if int(labelMat[i]) == 1:                   #若是正例，存到(x1,y1)中
            xcord1.append(dataArr[i,1])
            ycord1.append(dataArr[i,2])
        else:
            xcord2.append(dataArr[i,1])
            ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax  = fig.add_subplot(111)
    ax.scatter(xcord1,ycord1,s=30,c="red",marker = "s")
    ax.scatter(xcord2,ycord2,s=30,c="green")
    #============
    x = arange(-3.0,3.0,0.1)                    #x为numpy.arange格式，并且以0.1为步长从-3.0到3.0切分。
    #拟合曲线为0 = w0*x0+w1*x1+w2*x2, 故x2 = (-w0*x0-w1*x1)/w2, x0为1,x1为x, x2为y,故有
    y = (-weights[0] - weights[1]*x)/weights[2] 
    #x为array格式，weights为matrix格式，故需要调用getA()方法，其将matrix()格式矩阵转为array()格式
    ax.plot(x,y)
    plt.xlabel("X1")
    plt.ylabel("X2")
    plt.show()
dataMat, labelMat = loadDataSet()
weights = gradAscent(dataMat, labelMat)
#getA()方法，其将matrix()格式矩阵转为array()格式，type(weights),type(weights.getA())可观察到。
plotBestFit(weights.getA())

getA()是什么的问题，解释如下：
matrix.getA()
Return self as an ndarray object.
Equivalent to np.asarray(self).
Parameters: None
Returns: ret : ndarrayself as an ndarray
也就是说矩阵通过这个getA()这个方法可以将自身返回成一个n维数组对象
为什么要这样做呢？
因为plotBestFit()函数中有计算散点x,y坐标的部分，其中计算y的时候用到了weights，如果weights是矩阵的话，weights[1]就是[[0.48007329]]（注意这里有中括号！），就不是一个数了，最终你会发现y的计算结果的len()只有1，而x的len()则是60

2.数据处理时，若遇到缺失值时的处理办法