8、深度Q网络:预测最佳状态与行动

深度Q网络:预测最佳状态与行动

1. Q函数相关概念

在强化学习的研究中,我们会使用一个简单的Gridworld引擎,你可以从http://mng.bz/JzKp 的相关文件夹下载。Gridworld游戏有简单版本,后续会逐步挑战更难的变体。我们的初始目标是训练一个深度强化学习(DRL)智能体,使其每次都能沿着最有效的路线在Gridworld棋盘上导航至目标位置。

在深入之前,先回顾几个关键概念:
- 状态(State) :智能体接收并用于决策采取何种行动的信息。在Gridworld中,状态是一个表示网格上所有对象位置的张量;在电子游戏里可能是原始像素,在自动驾驶车辆中则可能是传感器数据。
- 策略(Policy) :用π表示,是智能体在给定状态下遵循的策略。例如在21点游戏中,一种糟糕的策略可能是随机决定要牌或停牌;而更好的策略是在手牌总和达到19之前一直要牌。
- 奖励(Reward) :智能体采取行动并进入新状态后得到的反馈。以国际象棋为例,若行动导致将死对方,奖励为 +1;若自己被将死,奖励为 -1;其他状态奖励为 0。

智能体基于策略π采取一系列行动,重复此过程直到回合结束,从而得到一系列状态、行动和相应的奖励。

我们将从起始状态S1开始遵循策略时奖励的加权和称为该状态的值,即状态值,用值函数Vπ(s)表示,它接受初始状态并返回预期总奖励。系数w1、w2等是在求和前应用于奖励的权重,通常我们希望近期奖励的权重高于远期奖励。这个加权和是一个期望值,常用E[R ⏐π,s]表示,读作“给定策略π和起始状态s的预期奖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值