第一种情形: 网络不同参数组使用同样的Optimizer (如SGD,Adam), 但设置不同的学习率
关键在于如何对不同参数组进行过滤,看到一个不错的博客。
第二种情形:网络不同参数组使用不同的Optimizer
step 1:对不同参数组进行过滤;
step 2:每组参数分别定义一个优化器,需要注意的是在梯度反传过程中每个优化器都要调用zero_grad()和step()。
关键在于如何对不同参数组进行过滤,看到一个不错的博客。
step 1:对不同参数组进行过滤;
step 2:每组参数分别定义一个优化器,需要注意的是在梯度反传过程中每个优化器都要调用zero_grad()和step()。