3、深度学习表征的展望

最新推荐文章于 2025-12-26 22:25:18 发布

Alpha

最新推荐文章于 2025-12-26 22:25:18 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《SLSP 2013》：统计语言与语音处理的新视角文章标签：深度学习表征学习条件计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/alpha/article/details/149645840

解读《SLSP 2013》：统计语言与语音处理的新视角专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习表征的展望

1 条件计算与稀疏梯度

条件计算在深度学习中具有重要作用，其参数的确定取决于进入每个参数的训练信号量。有趣的是，条件计算有助于实现稀疏梯度，专家硬混合的快速收敛表明，条件计算的一个附带好处是更易于和快速的优化。

在神经语言模型的第一层中，就存在条件计算和稀疏梯度的例子。词汇表中的每个单词都有一个参数向量，但每个句子仅“触及”与句子中单词相关的参数，这是因为输入可视为极其稀疏。然而，如何在模型的其余部分执行条件计算仍是一个问题。

专家硬混合的训练机制仅在门控器在输出层操作时才有意义。此时，很容易为门控器输出获得强大而清晰的训练信号，即评估选择不同专家时的误差，并训练门控器为产生最小误差的专家输出更高的值。但对于在模型中间操作的门控单元，产生训练信号是一个挑战，因为在分布式设置中有许多门控单元时，门控配置的数量会呈指数级增长。

为了解决这个问题，可以在门控过程中引入随机性，例如从一组门控单元的众多选择中随机选择一两个。这是在dropout作为正则化器取得成功之后，再次在深度网络中间引入随机性的第二个动机。这种随机性允许原本不会被选择的配置有时被选中，从而积累关于该配置价值的训练信号。

1.1 随机神经元的梯度估计

在随机神经元中估计或传播梯度的一般问题，可通过离散随机决策获得损失梯度的无偏（但有噪声）估计器。此外，在非线性（如最大池化或整流器）之前添加噪声也是一个有趣的想法，这样获胜者并非总是相同，获胜选择会对结果产生平滑影响，从而提供梯度信号。

2 优化

2.1 优化的挑战

随着数据集越来越大（增长速度超过模型大小），训练误差和泛化

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。