机器学习笔记(二)梯度下降法实现对数几率回归(Logistic Regression)

最新推荐文章于 2025-02-16 14:26:09 发布

Kee77

最新推荐文章于 2025-02-16 14:26:09 发布

阅读量3.1k

点赞数 5

分类专栏：机器学习 Python 文章标签：机器学习逻辑回归 python

本文链接：https://blog.youkuaiyun.com/weixin_43171317/article/details/120189122

版权

Python 同时被 2 个专栏收录

5 篇文章

订阅专栏

机器学习

2 篇文章

订阅专栏

前言

在之前的机器学习笔记(一)对数几率回归模型(Logistic Regression)中详细介绍了对数几率回归模型，而本篇文章则是使用梯度下降法实现对数几率回归模型的实践。本文将详细介绍梯度下降算法的内容与知识点，以及使用其求解对数几率回归模型参数最优解的过程。

以下是本篇文章正文内容

一、梯度下降法(Gradient Descent)

梯度下降算法是常用的一阶优化算法，是求解无约束优化问题最简单、也是最经典的数值优化算法之一。
考虑无约束优化问题：求解x使得 $f (x)$ 最小，其中 $f (x)$ 为连续可微函数，若能构造一个序列 $x^{0}, x^{1}, x^{2},...$ 满足
$f(x^{t+1})<f(x^{t})，t=0, 1, 2, ... \tag{1.1}$
则不断执行该过程即可收敛到局部极小点，欲满足式(1.1), 根据泰勒展开式有
$f(x+\Delta x) \simeq f(x) + \Delta x \nabla f(x) \tag{1.2}$
于是欲满足 $f(x+\Delta x)<f(x)$ , 可选择
$\Delta x = - \gamma \nabla f(x)$
其中步长 $\gamma$ 是一个小常数, 这就是梯度下降法

1.1 Python简单实现

代码展示了使用python实现梯度下降法求解函数 $f(x)=x^{2} + 3x - 1$ 最小值的完整过程。

class GradientDescent:
    
    
    def __init__(self, x0, step=0.01):
        self.x0 = x0
        self.step = step
    
    def function(self, x):
        return x * x - 3 * x - 1
    
    def fisrt_order(self, x):
        return 2 * x - 3

    def run(self):
        x = self.x0
        gradient = self.fisrt_order(x)
        while abs(gradient) > 1e-6:
            delta_x = -self.step * gradient
            x = x + delta_x
            gradient = self.fisrt_order(x)
        minimum = self.function(x)
        return minimum

gd = GradientDescent(0)
minimum = gd.run()

二、对数几率回归模型

对数几率回归模型的相关知识已在机器学习笔记(一)对数几率回归模型(Logistic Regression)一章中详细展开描述, 这里笔者不加以赘述, 只列出模型优化过程中需要用到的主要公式.

对率函数中 $\omega$ 和 $b$ 是我们需要进行优化并算出最优值的参数, 如式2.1所示
$\frac{1}{1+e^{-(\omega^Tx+b)}} \tag{2.1}$
式2.2是关于 $\beta$ 的高阶连续可导凸函数, 其中 $\beta=(\omega;b)$ , 在这里使用梯度下降法求其最优解, 即可确定参数 $\omega$ 和 $b$ 最优值
$l(\beta)=\sum_{1}^{m}-y_{i}\cdot\beta^{T}\hat{x}_{i} + ln(1+e^{\beta^{T}\hat{x}_{i}})\tag{2.2}$
根据梯度下降法的数学原理，使用梯度下降法求解函数最优值时，需要对目标函数进行一阶求导以计算梯度，在这里，我们对式2.2中的 $\beta$ 进行一阶求导, 得到
$\frac{\partial {l}}{\partial {\beta}} = -\sum_{1}^{m}\hat{x}_{i}·(y_{i}-\frac{e^{\beta^{T}}}{1+e^{\beta^{T}\hat{x}_{i}}}) \tag{2.3}$

三、梯度下降法实现对数几率回归

在这里笔者使用周志华老师《机器学习》一书中的西瓜数据集，作为训练数据集。使用西瓜数据集训练模型，建立通过西瓜的密度以及含糖率来预测西瓜是否为好瓜的对数几率回归模型。

3.1 西瓜数据集展示

编号	密度	含糖率	好瓜
1	0.697	0.460	1
2	0.774	0.376	1
3	0.634	0.264	1
4	0.608	0.318	1
5	0.556	0.215	1
6	0.403	0.237	1
7	0.481	0.149	1
8	0.437	0.211	1
9	0.666	0.091	0
10	0.243	0.267	0
11	0.245	0.057	0
12	0.343	0.099	0
13	0.639	0.161	0
14	0.657	0.198	0
15	0.360	0.370	0
16	0.593	0.042	0
17	0.719	0.103	0

注意：好瓜一列中为1则是好瓜，为0则是坏瓜。

3.2 Python实践

3.2.1 数据准备

这里笔者将3.1中的西瓜数据集，存储为csv文件，供程序读取和处理。

import numpy as np

# load dataset
data_file = './watermelon_data.csv'
data = np.loadtxt(data_file, skiprows=1, delimiter=",")
print(data)

读取到的数据集如下图所示：
西瓜数据集

3.2.2数据处理

在数据处理这一步，需要将式2.2中的 $\hat{x}_{i}$ 和 $y_{i}$ 以矩阵的形式从数据集中分离开来。注意： $\hat{x}_{i}=(x_{i};1)$

X = data[:,1:3] # 取数据集中的密度和含糖率两列
y = data[:,3:] # 取数据集中的好瓜判断一列
X0 = np.ones(np.shape(X)[0]) # 生成相同行数的数据1
X = np.c_[X, X0.T] # 生成矩阵(xi, 1)

生成的 $\hat{x}_{i}$ 矩阵如图所示
xi矩阵
生成的 $y_{i}$ 矩阵如图所示 yi矩阵

3.2.3模型训练

def gradient_function_l(beta_T_X, X, y):
    """对数几率回归模型中需要优化的函数l(β)的一阶导数"""
    p1 = np.exp(beta_T_X) /  (1 + np.exp(beta_T_X))
    return -np.sum(X * (y-p1), axis=0, keepdims=True)

def gradient_descent(tranning_times=500):
    """梯度下降法求解函数l(β)最优时的β值"""
    dataset_n = np.shape(X)[0]
    # 设置步长为0.01
    alpha = 0.01
    # 初始化beta值
    beta = np.zeros((1,3))
    for i in range(tranning_times):
        # (x, beta)
        beta_T_X = np.dot(X, beta.T)
        # 计算梯度
        gradient = gradient_function_l(beta_T_X, X ,y)
        # 更新beta值
        beta = beta - alpha * gradient
    return beta

在这里笔者主要用python实现了使用数据集对对数几率回归模型进行训练，求出式2.2最小时的参数 $\beta$ 的值。

3.2.3模型展示

最后将训练得到的参数 $\beta$ 代入线性回归模型产生预测值

w1, w2, b = gradient_descent().tolist()[0]

def function_y(x):
    return (-b-w1*x)/w2

y_0 = y==0
y_1 = y==1

plt.title('watermelon_dataset')
plt.xlabel('density')
plt.ylabel('sugar content')
plt.scatter(X[y_0[:,0],0], X[y_0[:,0], 1], label = 'low quality')
plt.scatter(X[y_1[:,0],0], X[y_1[:,0], 1], label = 'high quality')
left_point = function_y(0.1)
right_point = function_y(0.9)
plt.plot([0.1, 0.9], [left_point, right_point], label='y', color='green')
plt.legend(loc="upper left")
plt.show()