机器学习中的神经网络与Word2vec技术详解
1. 交叉熵误差与梯度下降
交叉熵误差是基于实际值和预测值(通过softmax步骤2获得)来计算的。计算出最终的误差度量后,我们再次使用梯度下降法来最小化整体的交叉熵误差。
2. 不同的损失优化函数
可以针对不同的度量进行优化,例如回归中的平方误差和分类中的交叉熵误差。其他可优化的损失函数包括:
- 均方误差
- 平均绝对百分比误差
- 均方对数误差
- 平方合页损失
- 合页损失
- 分类合页损失
- Logcosh损失
- 分类交叉熵
- 稀疏分类交叉熵
- 二元交叉熵
- Kullback Leibler散度
- 泊松损失
- 余弦相似度
3. 数据集缩放
通常,当我们对输入数据集进行缩放时,神经网络的性能会更好。下面通过对比两个场景,来看缩放对输出的影响。
- 未缩放输入的场景 :在某些计算场景中,输入始终为255,但每个场景中与输入相乘的权重不同。尽管权重变化很大,但sigmoid输出并没有改变。这是因为权重乘以一个大数字,其输出也是一个大数字。
- 输入缩放的场景 :在这个场景中,我们将不同的权重值乘以一个小的输入数字。此时,不同权重值对应的sigmoid输出有很大差异。
当自变量的量级较高时,问题会很严重,因为权重需要缓慢调整才能达到最优权重值。由于权重调整缓慢(根据梯度下降中的学习率),当输入是大数字时,可能需要相当长的时间才能
超级会员免费看
订阅专栏 解锁全文
1404

被折叠的 条评论
为什么被折叠?



