近期在学李沐的深度学习,在学习3.2的线性回归模型时,梳理了一下这部分代码的逻辑,尝试逐行解释这些代码。
如果有错误的地方,感谢大佬们能指出(跪谢.jpg)
import matplotlib.pyplot as plt
import random
import torch
from d2l import torch as d2l
"""
首先通过torch.normal生成散点,这一系列点在坐标系中的位置满足正态分布,将其赋值给张量X,X为{},2列数组
将X和w两个张量叉乘,X的形状为1x2,w为2x1。
在这里我们需要将X看作[x1, x2],w看作[w1, w2]T,通过将X和W叉乘可以方便地将x1和x2分别与其对应的权重相乘。
最后加上偏置和噪音。通过以上方式生成训练集。
"""
# 生成y=Xw+b+噪声
def synthetic_data(w, b, num_examples):
X = torch.normal(0, 1, (num_examples, len(w))) # 生成均值为0,标准差为1的{num_examples}个散点,将其赋值给张量X。
y = torch.matmul(X, w) + b # 将X和w两个张量叉乘,加上偏置
y += torch.normal(0, 0.01, y.shape) # 加入噪音,噪音也是一系列散点,均值为0,标准差为0.01
return X, y.reshape((-1, 1))
true_w = torch.tensor([2, -3.4]) # 设置实际上的w
true_b = 4.2 # 设置实际上的b
features, labels = synthetic_data(true_w, true_b, 1000) # 将生成的一系列X, y的数据导入给features和labels(训练集),用于训练模型。
d2l.set_figsize(figsize=(10, 6)) # 用于描绘生成的散点
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1)
"""
plt.show() # 通过此语句将绘制好的图形显现
"""
"""
此函数的作用是遍历整个训练集,并将其打乱后划分为各个小批次。再分别将这些小批次传递出来进行下一步处理。
首先我们用{num_examples}接收训练集中所包含的feature数。
之后使用{indices}将获取到的features的序列号打乱,实现从features和labels中随机取{batch_size}个feature和label。
"""
# 函数接收批量大小、特征矩阵和向量标签作为输入,生成大小为batch_size的小批量。每个小批量包含一组特征和标签。
def data_iter(batch_size, features, labels):
num_examples = len(features) # {num_examples}的值为features的长度。即该批次中有{num_examples}个数据。
indices = list(range(num_examples)) # 将{num_examples}中的所有元素赋值给indices
random.shuffle(indices) # 将indices中的元素顺序打乱
for i in range(0, num_examples, batch_size): # 从0到{num_examples}循环,每次增加{batch_size}个数。
batch_indices = torch.tensor(
indices[i: min(i + batch_size, num_examples)] # 遍历从i到本批次末尾,并将内容赋值给batch_indices。
)
yield features[batch_indices], labels[batch_indices] # 返回本批次包含的features和labels
batch_size = 10 # 设置一个批次中包含10个数据
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True) # 初始化w和b
b = torch.zeros(1, requires_grad=True)
# 线性回归模型
def linreg(X, w, b):
return torch.matmul(X, w) + b
# 均方损失,在这里我们通过此函数来计算loss
def squared_loss(y_hat, y):
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
# 小批量随机梯度下降
def sgd(params, lr, batch_size): # lr代表LearningRate
with torch.no_grad():
for param in params:
param -= lr * param.grad / batch_size # param梯度下降
param.grad.zero_()
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss
"""
将X, w, b输入线性回归模型net()中,并计算在当前批次下的loss,并将其赋值给{l}。
由于此时l不是标量,便对l进行sum(),将所获得的每一组loss加起来,此时l是标量,可以使用backward()
对相加后的l使用backward(),对l中每一个元素求偏导,求得的偏导储存于该元素的.grand中(如对w求得的偏导储存于w.grand中)
那么储存的.grand偏导有什么用呢?紧接着在下一步调用sgd(),将[w, b]作为params传入sgd()中,而在上一步求得的.grand在sgd中用于计算梯度。(param.grad)
最后,将本次优化后的w、b带入训练集(将features和labels带入X, y),计算得到的结果和训练集的差异(loss)。
"""
# 进行迭代,以每个小批量为单位,不断改变w和b的值
for epoch in range(num_epochs):
for X, y in data_iter(batch_size, features, labels):
l = loss(net(X, w, b), y) # x和y的小批量损失
l.sum().backward() # 计算每个参数的梯度
sgd([w, b], lr, batch_size) # 将w, b梯度下降
with torch.no_grad():
train_l = loss(net(features, w, b), labels) # 计算当前w, b下的loss
print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}') # 将结果打印
print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}')
print(f'b的估计误差: {true_b - b}')