4、深度强化学习中的深度学习与强化学习对比

深度强化学习中的深度学习与强化学习对比

1. 深度学习在强化学习中的应用

深度学习擅长复杂的非线性函数逼近。深度神经网络由参数层和非线性激活函数层交替组成,这种结构使其具有强大的表达能力。自20世纪80年代LeCun等人成功训练卷积神经网络识别手写邮政编码以来,神经网络以现代形式存在。2012年起,深度学习成功应用于众多问题,在计算机视觉、机器翻译、自然语言理解和语音合成等领域取得了最先进的成果。目前,深度学习是我们可用的最强大的函数逼近技术。

1991年,Gerald Tesauro首次将神经网络与强化学习结合,用强化学习训练神经网络玩达到大师水平的西洋双陆棋。直到2015年,DeepMind在许多雅达利游戏中达到人类水平,神经网络才作为基础函数逼近技术在该领域得到广泛应用。此后,强化学习的所有重大突破都使用神经网络来逼近函数。

神经网络学习的函数是输入到输出的映射,对输入进行顺序计算以产生输出,这个过程称为前向传播。函数由网络参数θ的特定值集表示,即“函数由θ参数化”,不同的参数值对应不同的函数。

学习函数需要获取或生成具有代表性的输入数据集,并评估网络产生的输出。评估输出有两种方式:
- 为每个输入生成“正确”输出或目标值,并定义损失函数来衡量目标与网络预测输出之间的误差,应最小化该损失。
- 以标量值(如奖励或回报)的形式直接为每个输入提供反馈,该标量表示网络输出的好坏,应最大化(为了良好性),取负时也可视为要最小化的损失函数。

给定评估网络输出的损失函数,可以更改网络参数的值以最小化损失并提高性能,这称为梯度下降,因为我们在损失表面上沿最陡下降方向更改参数以寻找全局最小值。更改网络参数以最小化损失也称为训练神经网络。训

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值