无监督应用中的正则化方法解析
1 无监督应用中正则化概述
在无监督应用里,过拟合问题相对不那么突出,但在很多场景下,使用正则化仍有显著益处。例如,在过完备自编码器中,隐藏单元数量多于输入单元数量,此时正则化能为学习到的表示赋予特定结构,带来诸如创建稀疏表示、恢复受损数据等应用特定的好处。下面将介绍几种无监督应用中的正则化方法。
2 基于值的惩罚:稀疏自编码器
稀疏自编码器在无监督学习中有重要应用。它每层的隐藏单元数量远多于输入单元数量,不过通过显式惩罚或约束,促使隐藏单元的值趋近于 0,收敛时多数隐藏单元的值为 0。创建稀疏表示的一种方法是对隐藏单元施加 L1 惩罚。另外,还有基于约束的方法,如仅允许前 k 个隐藏单元激活,这种约束方式可合理修改反向传播过程,例如仅让梯度通过这些被选中的单元反向传播。约束技术可视为基于惩罚方法的严格变体。
3 噪声注入:去噪自编码器
噪声注入是一种基于惩罚的权重正则化方式。在单层线性激活网络中,输入添加高斯噪声大致等同于 L2 正则化。去噪自编码器基于噪声注入而非对权重或隐藏单元进行惩罚,其目标是从受损的训练数据中重建出良好的样本。可添加的噪声类型如下:
1. 高斯噪声 :适用于实值输入,为每个输入添加均值为 0、方差为 λ(λ > 0)的噪声,λ 为正则化参数。
2. 掩码噪声 :将输入的一部分(比例为 f)置为 0 以损坏输入,在处理二进制输入时特别有用。
3. 椒盐噪声 :根据抛硬币结果,将输入的一部分(比例为 f)设置为其最小或最大值,常用于二
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



