4、深度强化学习:原理、挑战与REINFORCE算法

深度强化学习:原理、挑战与REINFORCE算法

1. 深度学习在强化学习中的应用

深度学习在复杂非线性函数逼近方面表现卓越。深度神经网络由参数层和非线性激活函数层交替构成,这种结构使其具有强大的表达能力。自20世纪80年代LeCun等人成功训练卷积神经网络识别手写邮政编码以来,深度学习不断发展。2012年之后,它在计算机视觉、机器翻译、自然语言理解和语音合成等众多领域取得了最先进的成果,是目前最强大的函数逼近技术。

早在1991年,Gerald Tesauro就将神经网络与强化学习结合,训练神经网络玩达到大师水平的西洋双陆棋。但直到2015年DeepMind在许多雅达利游戏中达到人类水平,神经网络才作为基础函数逼近技术在强化学习领域得到广泛应用。此后,强化学习的重大突破都依赖于神经网络进行函数逼近。

1.1 神经网络的学习机制

神经网络学习的是从输入到输出的映射函数。它对输入进行顺序计算以产生输出,这个过程称为前向传播。一个函数由网络的一组特定参数值θ表示,即“函数由θ参数化”,不同的参数值对应不同的函数。

要学习一个函数,需要获取或生成具有代表性的输入数据集,并评估网络的输出。评估输出有两种方式:一是为每个输入生成“正确”的输出(目标值),并定义一个损失函数来衡量目标值与网络预测输出之间的误差,目标是最小化该损失;二是直接以标量值(如奖励或回报)的形式为每个输入提供反馈,该标量表示网络输出的好坏,应最大化其值(代表好的程度),取负后也可视为要最小化的损失函数。

1.2 梯度下降与网络训练

给定一个评估网络输出的损失函数,可以通过改变网络参数的值来最小化损失并提高性能,这就是梯度下降。在损失

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值