机器学习数学基础之Python矩阵运算

最新推荐文章于 2021-04-30 02:26:26 发布

原创最新推荐文章于 2021-04-30 02:26:26 发布 · 492 阅读

4 ·

CC 4.0 BY-SA版权

人工智能专栏收录该内容

2 篇文章

订阅专栏

本文介绍了Python矩阵基本运算，详细解读了梯度的概念、微分及其在梯度下降法中的应用，通过实例演示了如何手动求解和使用Excel进行梯度下降，并重点展示了如何用梯度下降法求解线性回归问题。学习者将掌握用Python解决实际问题的技巧。

机器学习数学基础之Python矩阵运算

一、Python矩阵基本运算学习

环境Jupyter Notebook

Python矩阵基本运算学习记录
在这里插入图片描述

二、梯度下降法

2.1 梯度的含义

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

2.2 微分的含义

微分在数学中的定义：由函数B=f(A)，得到A、B两个数集，在A中当dx靠近自己时，函数在dx处的极限叫作函数在dx处的微分，微分的中心思想是无穷分割。

2.3 梯度下降法的含义

梯度下降（gradient descent）在机器学习中应用十分的广泛，不论是在线性回归还是Logistic回归中，它的主要目的是通过迭代找到目标函数的最小值，或者收敛到最小值。

梯度下降法的基本思想可以类比为一个下山的过程。
假设这样一个场景：一个人被困在山上，需要从山上下来(找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低；因此，下山的路径就无法确定，必须利用自己周围的信息一步一步地找到下山的路。这个时候，便可利用梯度下降算法来帮助自己下山。怎么做呢，首先以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着下降方向走一步，然后又继续以当前位置为基准，再找最陡峭的地方，再走直到最后到达最低处；同理上山也是如此，只是这时候就变成梯度上升算法了

2.4 梯度算法手工求解

梯度下降法的一般求解框架
求函数的极小值点。

在这里插入图片描述

2.5 Excel梯度下降法求解

求:z=2(x-1)^2 + y^2的近似根
如下图，学习率为0.01
迭代到第1062步，极值一直不出来
修改学习率为0.15，迭代到995步终于出来了

三、线性回归求解

3.1 梯度下降法求解

定义一个代价函数
代码
定义数据集和学习率

#导入bumpy包
from numpy import *
#定义别名
import numpy as np
# 定义数据集的大小 即20个数据点
m = 20
# x的坐标以及对应的矩阵
X0 = ones((m, 1))  # 生成一个m行1列的向量，其值全是1
X1 = arange(1, m+1).reshape(m, 1)  # 生成一个m行1列的向量，也就是x1，从1到m
X = hstack((X0, X1))  # 按照列堆叠形成数组，其实就是样本数据
# 对应的y坐标
Y = np.array([
    3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12,
    11, 13, 13, 16, 17, 18, 17, 19, 21
]).reshape(m, 1)
# 学习率
alpha = 0.01
import matplotlib.pyplot as plt
#绘制出数据集
plt.scatter(X1,Y,color='red')
plt.show()

在这里插入图片描述

以矩阵向量的形式定义代价函数和代价函数的梯度

# 定义代价函数
#损失函数（loss function）或代价函数（cost function）是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数
def cost_function(theta, X, Y):
    diff = dot(X, theta) - Y  # dot() 数组需要像矩阵那样相乘，就需要用到dot()
    return (1/(2*m)) * dot(diff.transpose(), diff)

算法的核心部分，梯度下降迭代计算

# 梯度下降迭代
def gradient_descent(X, Y, alpha):
    #将[1,1]变为2行1列的形式
    theta = array([1, 1]).reshape(2, 1)
    #得到代价函数的初始梯度
    gradient = gradient_function(theta, X, Y)
    #不断迭代的过程
    while not all(abs(gradient) <= 1e-5):
    	#更新迭代公式
        theta = theta - alpha * gradient
        #更新迭代所用的梯度
        gradient = gradient_function(theta, X, Y)
    return theta

#梯度下降最终的结果
optimal = gradient_descent(X, Y, alpha)
print('optimal:\t', optimal)
print('cost function:', cost_function(optimal, X, Y)[0][0])
# 定义代价函数对应的梯度函数
def gradient_function(theta, X, Y):
    diff = dot(X, theta) - Y
    return (1/m) * dot(X.transpose(), diff)

通过matplotlib画出图像

# 根据数据画出对应的图像
def plot(X, Y, theta):
    ax = plt.subplot(111)  # 将画布分为1行1列，取第一个
    ax.scatter(X, Y, s=30, c="red", marker="s")
    plt.xlabel("X")
    plt.ylabel("Y")
    x = arange(0, 21, 0.2)  # x的范围
    y = theta[0] + theta[1]*x
    ax.plot(x, y)
    plt.show()

plot(X1, Y, optimal)