深度学习基础与机器翻译中的对偶学习
1. 深度学习基础
在深度学习中,为了最小化 L2 范数正则化损失,需要最小化模型参数的范数。通过 L2 范数正则化,我们倾向于选择具有较小范数和较小模型容量的模型,这是处理过拟合的直接方法。L1 范数是各个参数绝对值的总和,也广泛用于范数惩罚,公式为:
[
\Omega(\theta) = ||\theta|| 1 = \sum {i}|\theta_i|
]
L1 范数正则化意味着我们希望模型具有稀疏性,即学习一个尽可能少非零权重的模型。
近年来,人工神经网络在计算机视觉、语音处理、自然语言处理和游戏等多个领域取得了巨大的实际成功,这主要归功于其层数的增加,即深度神经网络。以 ImageNet 数据集为例,神经网络的图像分类准确率与网络深度密切相关。2012 年引入的 8 层 AlexNet 显著提高了准确率,将传统浅层模型的错误率从 25.8% 降低到 16.4%,2015 年引入的 152 层 ResNet 进一步将错误率降低到 3.57%,超过了人类 5.1% 的错误率。
从理论角度来看,研究人员从多个方面试图理解深度神经网络成功的原因:
- 表达能力 :早期研究表明神经网络具有通用逼近性质,但无法解释为什么深度网络比浅层网络更好。近期研究发现,浅层网络需要指数级数量的神经元来逼近某些函数,而深度网络则更具表达能力,仅需要多项式数量的神经元即可。
- 优化角度 :深度神经网络具有高度非凸和高维的特点,找到一般非凸函数的全局最小值是 NP 难问题。然而,设计良好的特定架构的深度神经
超级会员免费看
订阅专栏 解锁全文
52

被折叠的 条评论
为什么被折叠?



