深度强化学习:原理、挑战与REINFORCE算法
1. 深度学习在强化学习中的应用
深度学习在复杂非线性函数逼近方面表现卓越。深度神经网络由参数层和非线性激活函数层交替构成,这种结构使其具有强大的表达能力。自20世纪80年代LeCun等人成功训练卷积神经网络识别手写邮政编码以来,深度学习不断发展。2012年之后,它在计算机视觉、机器翻译、自然语言理解和语音合成等众多领域取得了最先进的成果,是目前最强大的函数逼近技术。
早在1991年,Gerald Tesauro就将神经网络与强化学习结合,训练神经网络玩达到大师水平的西洋双陆棋。但直到2015年DeepMind在许多雅达利游戏中达到人类水平,神经网络才作为基础函数逼近技术在强化学习领域得到广泛应用。此后,强化学习的重大突破都依赖于神经网络进行函数逼近。
1.1 神经网络的学习机制
神经网络学习的是从输入到输出的映射函数。它对输入进行顺序计算以产生输出,这个过程称为前向传播。一个函数由网络的一组特定参数值θ表示,即“函数由θ参数化”,不同的参数值对应不同的函数。
要学习一个函数,需要获取或生成具有代表性的输入数据集,并评估网络的输出。评估输出有两种方式:一是为每个输入生成“正确”的输出(目标值),并定义一个损失函数来衡量目标值与网络预测输出之间的误差,目标是最小化该损失;二是直接以标量值(如奖励或回报)的形式为每个输入提供反馈,该标量表示网络输出的好坏,应最大化其值(代表好的程度),取负后也可视为要最小化的损失函数。
1.2 梯度下降与网络训练
给定一个评估网络输出的损失函数,可以通过改变网络参数的值来最小化损失并提高性能,这就是梯度下降。在损失
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



