Tensorflow实现线性回归

最新推荐文章于 2023-07-16 18:20:31 发布

Erick_Lv

最新推荐文章于 2023-07-16 18:20:31 发布

阅读量309

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qq_35976351/article/details/79473070

机器学习专栏收录该内容

20 篇文章

订阅专栏

本文介绍使用TensorFlow实现线性回归的过程，包括线性回归的理论基础、数学公式推导及具体代码实现。通过本教程，读者可以了解如何利用TensorFlow搭建线性回归模型并进行训练。

Tensorflow实现线性回归

线性回归理论以及公式：

目标公式：

y = w 1 x 1 + w 2 x 2 + \dots + w n x n + b

$y=w_1x_1+w_2x_2+\cdots+w_nx_n+b$
当有m组训练公式的时候，输入数据写成矩阵的形式：

$\mathbf{X}=\left[ \begin{matrix} x^{(1)}_1 & x^{(1)}_2 & \cdots & x^{(1)}_n\\ x^{(2)}_1 & x^{(2)}_2 & \cdots & x^{(2)}_n\\ \vdots & \vdots & \ddots & \vdots\\ x^{(m)}_1 & x^{(m)}_2 & \cdots & x^{(m)}_n\\ \end{matrix} \right]$
权重写成权重向量：

w = [w 1, w 2, \dots, w n] T

$\boldsymbol{w}=[w_1, w_2, \cdots, w_n]^T$
偏置项向量：

b=[b,b,⋯,b]Tn×1b=[b,b,⋯,b]n×1T $\boldsymbol{b}=[b,b,\cdots,b]^T_{n\times1}$

Y = X w + b

$\mathbf{Y}=\mathbf{X}\boldsymbol{w}+\boldsymbol{b}$
一般来说，为了加快训练速度，梯度下降的时候，是以向量为单位，对向量进行求导。给出线性回归的使用到的求导公式：

\partial \partial s (x - A s) T W (x - A s) = - 2 A T W (x - A s)

$\frac{\partial}{\partial \boldsymbol{s}}(\boldsymbol{x}-\mathbf{A}\boldsymbol{s})^T \mathbf{W}(\boldsymbol{x}-\mathbf{A}\boldsymbol{s})=-2\mathbf{A}^T\mathbf{W}(\boldsymbol{x}-\mathbf{A}\boldsymbol{s})$
其中：

WW $\mathbf{W}$ 是对称矩阵，小写的粗体是向量。公式来自于Matrix Cookbook这个PDF文档。
给出损失函数的矩阵化定义：

J (w, b) = (y - X w - b) T I m \times m (y - X w - b)

$J(\boldsymbol{w},\boldsymbol{b})=(\boldsymbol{y}-\mathbf{X}\boldsymbol{w}-\boldsymbol{b})^T\boldsymbol{I}_{m\times m}(\boldsymbol{y}-\mathbf{X}\boldsymbol{w}-\boldsymbol{b})$

Im×mIm×m $\boldsymbol{I}_{m\times m}$ 是m阶的单位矩阵，这里只是为了更好的理解求导过程，单位矩阵肯定是对称矩阵，实际可以不加。
根据求导公式：

\partial J ( w , b ) \partial w = - 2 X T (y - b - X w)

$\frac{\partial J(\boldsymbol{w},\boldsymbol{b})}{\partial{\boldsymbol{w}}}=-2\mathbf{X}^T(\boldsymbol{y}-\boldsymbol{b}-\mathbf{X}\boldsymbol{w})$

\partial J ( w , b ) \partial b = - 2 (y - X w - b)

$\frac{\partial J(\boldsymbol{w},\boldsymbol{b})}{\partial{\boldsymbol{b}}}=-2(\boldsymbol{y}-\mathbf{X}\boldsymbol{w}-\boldsymbol{b})$
梯度下降的更新过程：

w = w - α \partial J ( w , b ) \partial w

$\boldsymbol{w}=\boldsymbol{w}-\alpha\frac{\partial J(\boldsymbol{w},\boldsymbol{b})}{\partial{\boldsymbol{w}}}$

b = b - α \partial J ( w , b ) \partial b

$\boldsymbol{b}=\boldsymbol{b}-\alpha\frac{\partial J(\boldsymbol{w},\boldsymbol{b})}{\partial{\boldsymbol{b}}}$
其中

αα $\alpha$ 是学习速率。

tensorflow实现：

实际使用tensorflow的过程中，可以使用库函数实现自动化微分求导的过程，不必手写。

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

# 输入数据
x_data = np.random.normal(size=(100, 3))
w_real = np.matrix([3.0, 5.1, 1.7]).T
b_real = 0.2
y_data = np.matmul(x_data, w_real) + b_real * np.ones((100, 1))

# 占位符，输送数据
x = tf.placeholder(dtype=tf.float32, shape=[None, 3], name="x_train")
y_true = tf.placeholder(dtype=tf.float32, shape=None, name="y_true")

with tf.name_scope("inference") as scope:
    w = tf.Variable(tf.zeros([3, 1]))
    # 不显示地声明形状,形状会自适应
    b = tf.Variable(0.0)
    y_pred = tf.matmul(x, w) + b

with tf.name_scope("loss") as scope:
    # 损失函数 
    loss = tf.reduce_mean(1 / 2 * tf.square(y_pred - y_true))

with tf.name_scope("train") as scope:
    # 训练，使用Adam算法优化，学习步长0.1
    train = tf.train.AdamOptimizer(0.1).minimize(loss)

# 用于绘图
x_axis = []
y_axis = []

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    # 执行1000次训练
    for i in range(1000):
        sess.run(train, feed_dict={x: x_data, y_true: y_data})
        x_axis.append(i)
        # 这里也需要feed数据
        y_axis.append(sess.run(loss, feed_dict={x: x_data, y_true: y_data}))
    print("loss:", sess.run(loss, feed_dict={x: x_data, y_true: y_data}))
    print(sess.run(w), sess.run(b))
    tf.summary.FileWriter("./graph", sess.graph)
    plt.plot(x_axis, y_axis)
    plt.show()