1、为什么是“负梯度方向”
因为梯度>0是递增函数,我们要找到损失函数的最小值,需要递减方向

2、为什么需要激活函数
如果没有激活函数,即使有多层的预测也会回归到同一个公式(类似于没用),所以需要激活,让其多层函数时无法结合同类项
3、反向传播的作用
反向更新求到了梯度,因为我们梯度更新就是要用这个梯度

4、Tensor包含什么

5、Linear的输入输出维度确定

6、二分类的交叉熵损失BCELoss,多分类的交叉熵损失CrossEntropyLoss。当使用CrossEntropyLoss时,最后一层不需要激活,因为CrossEntropyLoss包括了激活函数softmax

文章讨论了为何在优化损失函数时选择负梯度方向,激活函数在神经网络中的必要性,以及反向传播在计算梯度中的作用。还提到了Tensor的概念,线性层的输入输出维度确定,并解释了二分类的BCELoss与多分类的CrossEntropyLoss,指出CrossEntropyLoss已包含softmax激活函数。
1729

被折叠的 条评论
为什么被折叠?



