[学习笔记] 对《动手学深度学习》第3.2节的简单线性回归模型的一些个人解读

近期在学李沐的深度学习,在学习3.2的线性回归模型时,梳理了一下这部分代码的逻辑,尝试逐行解释这些代码。

如果有错误的地方,感谢大佬们能指出(跪谢.jpg)

import matplotlib.pyplot as plt
import random
import torch
from d2l import torch as d2l

"""
首先通过torch.normal生成散点,这一系列点在坐标系中的位置满足正态分布,将其赋值给张量X,X为{},2列数组
将X和w两个张量叉乘,X的形状为1x2,w为2x1。
在这里我们需要将X看作[x1, x2],w看作[w1, w2]T,通过将X和W叉乘可以方便地将x1和x2分别与其对应的权重相乘。
最后加上偏置和噪音。通过以上方式生成训练集。
"""
# 生成y=Xw+b+噪声
def synthetic_data(w, b, num_examples):
    X = torch.normal(0, 1, (num_examples, len(w)))  # 生成均值为0,标准差为1的{num_examples}个散点,将其赋值给张量X。
    y = torch.matmul(X, w) + b  # 将X和w两个张量叉乘,加上偏置
    y += torch.normal(0, 0.01, y.shape)  # 加入噪音,噪音也是一系列散点,均值为0,标准差为0.01
    return X, y.reshape((-1, 1))


true_w = torch.tensor([2, -3.4])  # 设置实际上的w
true_b = 4.2  # 设置实际上的b
features, labels = synthetic_data(true_w, true_b, 1000)  # 将生成的一系列X, y的数据导入给features和labels(训练集),用于训练模型。

d2l.set_figsize(figsize=(10, 6))  # 用于描绘生成的散点
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1)
"""
plt.show()  # 通过此语句将绘制好的图形显现
"""

"""
此函数的作用是遍历整个训练集,并将其打乱后划分为各个小批次。再分别将这些小批次传递出来进行下一步处理。
首先我们用{num_examples}接收训练集中所包含的feature数。
之后使用{indices}将获取到的features的序列号打乱,实现从features和labels中随机取{batch_size}个feature和label。
"""
# 函数接收批量大小、特征矩阵和向量标签作为输入,生成大小为batch_size的小批量。每个小批量包含一组特征和标签。
def data_iter(batch_size, features, labels):
    num_examples = len(features)  # {num_examples}的值为features的长度。即该批次中有{num_examples}个数据。
    indices = list(range(num_examples))  # 将{num_examples}中的所有元素赋值给indices
    random.shuffle(indices)  # 将indices中的元素顺序打乱
    for i in range(0, num_examples, batch_size):  # 从0到{num_examples}循环,每次增加{batch_size}个数。
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)]  # 遍历从i到本批次末尾,并将内容赋值给batch_indices。
        )
        yield features[batch_indices], labels[batch_indices]  # 返回本批次包含的features和labels


batch_size = 10  # 设置一个批次中包含10个数据
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)  # 初始化w和b
b = torch.zeros(1, requires_grad=True)


# 线性回归模型
def linreg(X, w, b):
    return torch.matmul(X, w) + b


# 均方损失,在这里我们通过此函数来计算loss
def squared_loss(y_hat, y):
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2


# 小批量随机梯度下降
def sgd(params, lr, batch_size):  # lr代表LearningRate
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size  # param梯度下降
            param.grad.zero_()


lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

"""
将X, w, b输入线性回归模型net()中,并计算在当前批次下的loss,并将其赋值给{l}。
由于此时l不是标量,便对l进行sum(),将所获得的每一组loss加起来,此时l是标量,可以使用backward()
对相加后的l使用backward(),对l中每一个元素求偏导,求得的偏导储存于该元素的.grand中(如对w求得的偏导储存于w.grand中)
那么储存的.grand偏导有什么用呢?紧接着在下一步调用sgd(),将[w, b]作为params传入sgd()中,而在上一步求得的.grand在sgd中用于计算梯度。(param.grad)
最后,将本次优化后的w、b带入训练集(将features和labels带入X, y),计算得到的结果和训练集的差异(loss)。
"""
# 进行迭代,以每个小批量为单位,不断改变w和b的值
for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # x和y的小批量损失
        l.sum().backward()  # 计算每个参数的梯度
        sgd([w, b], lr, batch_size)  # 将w, b梯度下降
        with torch.no_grad():
            train_l = loss(net(features, w, b), labels)  # 计算当前w, b下的loss
            print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')  # 将结果打印

print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')

参考文献:对模型训练代码中l.sum().backward()的粗浅理解 - 知乎 (zhihu.com)

                  pytorch backward() 的一点简单的理解 - 知乎 (zhihu.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值