[学习笔记] 对《动手学深度学习》第3.2节的简单线性回归模型的一些个人解读

近期在学李沐的深度学习，在学习3.2的线性回归模型时，梳理了一下这部分代码的逻辑，尝试逐行解释这些代码。

如果有错误的地方，感谢大佬们能指出（跪谢.jpg）

import matplotlib.pyplot as plt
import random
import torch
from d2l import torch as d2l

"""
首先通过torch.normal生成散点，这一系列点在坐标系中的位置满足正态分布，将其赋值给张量X，X为{},2列数组
将X和w两个张量叉乘，X的形状为1x2，w为2x1。
在这里我们需要将X看作[x1, x2]，w看作[w1, w2]T，通过将X和W叉乘可以方便地将x1和x2分别与其对应的权重相乘。
最后加上偏置和噪音。通过以上方式生成训练集。
"""
# 生成y=Xw+b+噪声
def synthetic_data(w, b, num_examples):
    X = torch.normal(0, 1, (num_examples, len(w)))  # 生成均值为0，标准差为1的{num_examples}个散点，将其赋值给张量X。
    y = torch.matmul(X, w) + b  # 将X和w两个张量叉乘，加上偏置
    y += torch.normal(0, 0.01, y.shape)  # 加入噪音，噪音也是一系列散点，均值为0，标准差为0.01
    return X, y.reshape((-1, 1))


true_w = torch.tensor([2, -3.4])  # 设置实际上的w
true_b = 4.2  # 设置实际上的b
features, labels = synthetic_data(true_w, true_b, 1000)  # 将生成的一系列X, y的数据导入给features和labels（训练集），用于训练模型。

d2l.set_figsize(figsize=(10, 6))  # 用于描绘生成的散点
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1)
"""
plt.show()  # 通过此语句将绘制好的图形显现
"""

"""
此函数的作用是遍历整个训练集，并将其打乱后划分为各个小批次。再分别将这些小批次传递出来进行下一步处理。
首先我们用{num_examples}接收训练集中所包含的feature数。
之后使用{indices}将获取到的features的序列号打乱，实现从features和labels中随机取{batch_size}个feature和label。
"""
# 函数接收批量大小、特征矩阵和向量标签作为输入，生成大小为batch_size的小批量。每个小批量包含一组特征和标签。
def data_iter(batch_size, features, labels):
    num_examples = len(features)  # {num_examples}的值为features的长度。即该批次中有{num_examples}个数据。
    indices = list(range(num_examples))  # 将{num_examples}中的所有元素赋值给indices
    random.shuffle(indices)  # 将indices中的元素顺序打乱
    for i in range(0, num_examples, batch_size):  # 从0到{num_examples}循环，每次增加{batch_size}个数。
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)]  # 遍历从i到本批次末尾，并将内容赋值给batch_indices。
        )
        yield features[batch_indices], labels[batch_indices]  # 返回本批次包含的features和labels


batch_size = 10  # 设置一个批次中包含10个数据
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)  # 初始化w和b
b = torch.zeros(1, requires_grad=True)


# 线性回归模型
def linreg(X, w, b):
    return torch.matmul(X, w) + b


# 均方损失，在这里我们通过此函数来计算loss
def squared_loss(y_hat, y):
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2


# 小批量随机梯度下降
def sgd(params, lr, batch_size):  # lr代表LearningRate
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size  # param梯度下降
            param.grad.zero_()


lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

"""
将X, w, b输入线性回归模型net()中，并计算在当前批次下的loss，并将其赋值给{l}。
由于此时l不是标量，便对l进行sum()，将所获得的每一组loss加起来，此时l是标量，可以使用backward()
对相加后的l使用backward()，对l中每一个元素求偏导，求得的偏导储存于该元素的.grand中（如对w求得的偏导储存于w.grand中）
那么储存的.grand偏导有什么用呢？紧接着在下一步调用sgd()，将[w, b]作为params传入sgd()中，而在上一步求得的.grand在sgd中用于计算梯度。（param.grad）
最后，将本次优化后的w、b带入训练集（将features和labels带入X, y），计算得到的结果和训练集的差异（loss）。
"""
# 进行迭代，以每个小批量为单位，不断改变w和b的值
for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # x和y的小批量损失
        l.sum().backward()  # 计算每个参数的梯度
        sgd([w, b], lr, batch_size)  # 将w, b梯度下降
        with torch.no_grad():
            train_l = loss(net(features, w, b), labels)  # 计算当前w, b下的loss
            print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')  # 将结果打印

print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')

参考文献：对模型训练代码中l.sum().backward()的粗浅理解 - 知乎 (zhihu.com)

pytorch backward() 的一点简单的理解 - 知乎 (zhihu.com)