反向传播
模型训练过程是求损失对权重求导的最小值
在复杂网络中直接求导会非常麻烦
假设有个两层线性模型,
但是模型是可以化简的,复杂程度会降低
可以将每层的输出结果用个非线性函数处理一下,这个后面讲到了再细说
回到反向传播,就是先把参数传到最后
然后从后往前求导,其实就是数学里面的多层函数求导
完整的计算过程如下图所示,理解不了也没关系,求梯度有方法可以直接用
程序
import torch
# 初始化数据
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = torch.Tensor([1.0]) # w为权重,因为只有1个值,所以设置成1.0
w.requires_grad = True # 计算梯度-开
# 模型还是前馈模型
def forward(x):
return x * w # 这里会发生类型转换->tensor
# 损失函数
def loss(x, y):
y_pred = forward(x)
return (y_pred - y) ** 2
epoch_list = [] #记录轮数
cost_list = [] #记录损失
lr = 0.01 # 学习率
print('Predict (before training)', 4, forward(4).item())
for epoch in range(100):
for x, y in zip(x_data, y_data):
l = loss(x, y)
l.backward()
print('\tgrad:', x, y, w.grad.item())
w.data = w.data - lr * w.grad.data
w.grad.data.zero_()
print("progress:", epoch, l.item())
print('Predict (after training)', 4, forward(4).item())