深度学习表征的展望
1 条件计算与稀疏梯度
条件计算在深度学习中具有重要作用,其参数的确定取决于进入每个参数的训练信号量。有趣的是,条件计算有助于实现稀疏梯度,专家硬混合的快速收敛表明,条件计算的一个附带好处是更易于和快速的优化。
在神经语言模型的第一层中,就存在条件计算和稀疏梯度的例子。词汇表中的每个单词都有一个参数向量,但每个句子仅“触及”与句子中单词相关的参数,这是因为输入可视为极其稀疏。然而,如何在模型的其余部分执行条件计算仍是一个问题。
专家硬混合的训练机制仅在门控器在输出层操作时才有意义。此时,很容易为门控器输出获得强大而清晰的训练信号,即评估选择不同专家时的误差,并训练门控器为产生最小误差的专家输出更高的值。但对于在模型中间操作的门控单元,产生训练信号是一个挑战,因为在分布式设置中有许多门控单元时,门控配置的数量会呈指数级增长。
为了解决这个问题,可以在门控过程中引入随机性,例如从一组门控单元的众多选择中随机选择一两个。这是在dropout作为正则化器取得成功之后,再次在深度网络中间引入随机性的第二个动机。这种随机性允许原本不会被选择的配置有时被选中,从而积累关于该配置价值的训练信号。
1.1 随机神经元的梯度估计
在随机神经元中估计或传播梯度的一般问题,可通过离散随机决策获得损失梯度的无偏(但有噪声)估计器。此外,在非线性(如最大池化或整流器)之前添加噪声也是一个有趣的想法,这样获胜者并非总是相同,获胜选择会对结果产生平滑影响,从而提供梯度信号。
2 优化
2.1 优化的挑战
随着数据集越来越大(增长速度超过模型大小),训练误差和泛化
超级会员免费看
订阅专栏 解锁全文
1223

被折叠的 条评论
为什么被折叠?



