sigmoid函数的优点在于,它的输出映射在(0,1)内,单调连续,非常适合用做输出层,并且求导比较容易。但是一旦输入落入饱和区,容易产生梯度消失。梯度小时是指在更新模型参数时采用链式求导法则反向求导,越往前梯度越小。最终的结果时到达一定深度后梯度对模型的更新就没有任何贡献了。
输出以0为中心,收敛速度比sigmoid要快,无法解决梯度消失
f(x)=max(x,0) relu在x<0时硬饱和。x>0时导数为1,保持梯度不衰减,缓解梯度消失文体,还能更快的收敛。
2、L1正则化是指权值向量w中个元素绝对值之和
L2正则化是指权值向量中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号)
3、TP,FP、FN、TN、precesion:查准率,即在检索后返回的结果中,真正正确的个数占整个结果的比例。
recall:查全率,即在检索结果中真正正确的个数 占整个数据集(检索到的和未检索到的)中真正正确个数的比例。
FN:False Negative,被判定为负样本,但事实上是正样本。
FP:False Positive,被判定为正样本,但事实上是负样本。
TN:True Negative,被判定为负样本,事实上也是负样本。
TP:True Positive,被判定为正样本,事实上也是证样本。
本文探讨了sigmoid和ReLU等激活函数的特点及其在神经网络中的应用,对比了它们在梯度传播上的优劣。此外,还介绍了L1和L2正则化的概念及其在防止过拟合方面的作用。
3906

被折叠的 条评论
为什么被折叠?



