5、深度学习基础与机器翻译中的对偶学习

深度学习基础与机器翻译中的对偶学习

1. 深度学习基础

在深度学习中,为了最小化 L2 范数正则化损失,需要最小化模型参数的范数。通过 L2 范数正则化,我们倾向于选择具有较小范数和较小模型容量的模型,这是处理过拟合的直接方法。L1 范数是各个参数绝对值的总和,也广泛用于范数惩罚,公式为:
[
\Omega(\theta) = ||\theta|| 1 = \sum {i}|\theta_i|
]
L1 范数正则化意味着我们希望模型具有稀疏性,即学习一个尽可能少非零权重的模型。

近年来,人工神经网络在计算机视觉、语音处理、自然语言处理和游戏等多个领域取得了巨大的实际成功,这主要归功于其层数的增加,即深度神经网络。以 ImageNet 数据集为例,神经网络的图像分类准确率与网络深度密切相关。2012 年引入的 8 层 AlexNet 显著提高了准确率,将传统浅层模型的错误率从 25.8% 降低到 16.4%,2015 年引入的 152 层 ResNet 进一步将错误率降低到 3.57%,超过了人类 5.1% 的错误率。

从理论角度来看,研究人员从多个方面试图理解深度神经网络成功的原因:
- 表达能力 :早期研究表明神经网络具有通用逼近性质,但无法解释为什么深度网络比浅层网络更好。近期研究发现,浅层网络需要指数级数量的神经元来逼近某些函数,而深度网络则更具表达能力,仅需要多项式数量的神经元即可。
- 优化角度 :深度神经网络具有高度非凸和高维的特点,找到一般非凸函数的全局最小值是 NP 难问题。然而,设计良好的特定架构的深度神经

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值