Reinforcement Learning易忘知识点总结

本文介绍了强化学习的基本概念,包括值函数、状态值函数和动作值函数等,并探讨了策略估计、策略改进及迭代的方法。此外还讲解了蒙特卡罗方法、时间差分学习及其在Q-learning和Sarsa算法中的应用。

值函数(value function)

在这里插入图片描述
在这里插入图片描述
常用的公式:

  • 表示可以对未来的期望打出一定的折扣,着重考虑一些固定的reward。
  • γ \gamma γ的值为0时为只考虑立即不考虑长期;当值为1时立即和长期考虑同等重要。

状态值函数(state value function)和动作值函数(action value function Q函数)是不同的
在这里插入图片描述
其中的a是给定的,而不是像动作值函数中a是由 π ( s ) \pi(s) π(s)计算得来的
强化学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的 V π ( s ) V^\pi(s) Vπ(s)
在这里插入图片描述因为V和Q的关系,所以显而易见在这里插入图片描述从所有的可选动作选择的Value值中选择最大的一个Value值
在这里插入图片描述


策略估计(Policy Evaluation)

拓展到一般情况,在某个策略 π \pi π下,有可能可采取的动作不止一种。例如在之前的走迷宫例子中,可以在某一格选择走不同方向,利用如下的公式进行更新Value function
在这里插入图片描述
总体来说更新的过程是通过对未来的状态下的Value function值进行折扣,从而对现在的value function进行更新
从而更新的方式有两种:

  1. 先将第k次迭代的V值存储到一个数组中,在第k+1次迭代中使用这一个数组中的数据,将k+1次迭代的内容存到另一个数组中在这里插入图片描述
  2. 另一种方法是不断更新这个数组,在第k+1次迭代中,将使用最新的数据在这里插入图片描述能够及时获取新值,能更快的收敛

策略改进(Policy Improvement)

策略改进定理:对于一个 π ∗ \pi^* π,如果其所有的状态s,都有 Q π ( s , π ∗ ( s ) ) ≥ V π ( s ) Q^\pi(s,\pi^*(s))≥V^\pi(s) Qπ(s,π(s))Vπ(s),那么则有策略 π ∗ \pi^* π必然比 π \pi π
使用贪心进行不断迭代,从而得到策略改进


策略迭代(Policy Iteration)

在这里插入图片描述


值迭代(Value Iteration)

值迭代是通过直接从可选的动作空间中选择最大的V值,而不需要通过策略 π \pi π来得到最大的V值
在获得最大的V值之后,从而利用value function得到最后的最优 π ∗ \pi^* π
在这里插入图片描述


蒙特卡罗方法

蒙特卡罗方法就是依靠样本的平均回报来解决增强学习问题的

蒙特卡罗策略估计(Monte Carlo Policy evalution)

有两种方法,first-visit MC methods和every-visit MC methods

  1. 用来计算平均回报的样本仅为一个回合中第一次访问状态s的样本
  2. 为一个回合中所有访问状态s的样本

持续探索(Maintaining Exploration)

如果在计算Q值函数的时候,前两个动作已经有了大小区分,那么在结果上将会执行前两个action的动作,而不会更新后面两个动作的Q值函数了,所以需要一个ε-greedy policy,即在所有的状态下,用1-ε的概率来执行当前的最优动作,ε的概率来执行其他动作
最终通过减小ε来收敛


时间差分学习(Temporal-Difference learning, TD learning)

在这里插入图片描述

TD Learing思想

本质上是将迭代的函数发生了变化,用实际值和估计值的差来当作学习的内容
在这里插入图片描述
在这里插入图片描述

Q-learning和Sarsa比较

Sarsa算法更新的时候是通过Q值函数,而不是通过Value function,利用的思想就是TD思想,on-policy表示在决定 Q ( s t + 1 , a t + 1 ) Q(s_{t+1},a_{t+1}) Q(st+1,at+1)时需要根据 π \pi π策略决策
在这里插入图片描述
Q-learning算法更新的时候是通过直接取所有action中的max来实现off-policy
在这里插入图片描述


总结来自------Kintoki

<think>嗯,用户问的是如何在MATLAB的强化学习工具箱中使用AC函数。首先,我需要回忆一下AC函数的用途和基本语法。AC代表Actor-Critic,是一种强化学习算法,结合了策略梯度(Actor)和价值函数(Critic)的方法。 首先,我应该检查用户提供的引用内容,看看是否有相关的信息。引用[3]提到了MATLAB强化学习工具箱中的随机数种子设置,但并没有直接涉及AC函数的使用。不过用户的问题主要集中在AC函数的使用上,所以可能需要从其他资源或已有的知识来回答。 接下来,我需要考虑用户可能的背景。他们可能已经对强化学习有一定的了解,但需要具体的操作步骤和示例。因此,回答应该包括AC函数的参数说明、示例代码以及可能的注意事项,比如环境创建、网络结构定义等。 然后,我应该确保回答符合用户提供的系统级指令,比如使用正确的LaTeX格式,生成相关问题,并且结构清晰。例如,在解释AC函数时,使用行内数学公式如$Q(s,a)$,以及独立公式块展示算法中的关键公式。 另外,用户可能需要示例代码来说明如何使用AC函数。根据MATLAB的文档,创建AC智能体通常需要定义Actor和Critic网络,然后使用这些网络初始化智能体。代码示例应该包括这些步骤,并确保语法正确,比如使用rlACAgent函数。 还需要注意引用标识的添加。虽然用户提供的引用中没有直接相关的信息,但如果有必要的话,可能需要引用相关文档或资料,但根据现有引用,可能暂时无法添加,所以需要检查是否遗漏了可能的引用点。 最后,生成的相关问题应该围绕AC函数展开,比如与其他算法的对比、参数调优、收敛性分析等,帮助用户进一步探索该主题。 总结一下,回答的结构应该是先介绍AC函数的基本用法,然后分步骤说明如何创建环境、定义网络、初始化智能体、配置训练参数,并提供示例代码。同时,注意使用正确的格式和生成相关问题,确保回答清晰且符合用户的要求。</think>以下是关于MATLAB强化学习工具箱中`AC`函数(Actor-Critic算法)的用法说明: --- ### 1. **AC函数的基本用法** AC(Actor-Critic)算法结合了策略梯度(Actor)与值函数近似(Critic),适用于连续或离散动作空间的任务。在MATLAB中,通过`rlACAgent`类实现。 #### 关键步骤: 1. **定义环境**:需创建强化学习环境对象(如`rlPredefinedEnv`或自定义环境)。 2. **构建Actor和Critic网络**: - Actor网络输出动作概率分布(离散)或均值/方差(连续)。 - Critic网络评估状态值函数$V(s)$。 3. **初始化AC智能体**: ```matlab actorNetwork = createActorNetwork(); % 自定义Actor网络 criticNetwork = createCriticNetwork(); % 自定义Critic网络 agent = rlACAgent(actorNetwork, criticNetwork); ``` 4. **配置训练参数**: ```matlab trainOpts = rlTrainingOptions(... 'MaxEpisodes', 1000, ... 'StopTrainingCriteria', 'AverageReward', ... 'StopTrainingValue', 200); ``` --- ### 2. **示例代码** 以Cart-Pole平衡问题为例: ```matlab % 创建预定义环境 env = rlPredefinedEnv('CartPole-Discrete'); % 定义Actor网络(离散动作) actorNetwork = [ featureInputLayer(4, 'Normalization', 'none') fullyConnectedLayer(24, 'WeightsInitializer', 'he') reluLayer() fullyConnectedLayer(2, 'WeightsInitializer', 'he') softmaxLayer() ]; % 定义Critic网络 criticNetwork = [ featureInputLayer(4, 'Normalization', 'none') fullyConnectedLayer(24, 'WeightsInitializer', 'he') reluLayer() fullyConnectedLayer(1) ]; % 创建AC智能体 agent = rlACAgent(actorNetwork, criticNetwork); % 训练智能体 trainingStats = train(agent, env, trainOpts); ``` --- ### 3. **关键参数说明** - **Actor网络**:需包含`softmaxLayer`(离散动作)或输出均值/方差(连续动作)。 - **Critic网络**:输出标量值函数$V(s)$,用于计算优势函数$A(s,a) = Q(s,a) - V(s)$[^3]。 - **训练选项**:需设置最大训练轮次(`MaxEpisodes`)、奖励阈值(`StopTrainingValue`)等。 --- ### 4. **注意事项** - **网络初始化**:建议使用`He`或`Glorot`初始化,避免梯度消失。 - **探索策略**:可通过设置`ExplorationOptions`调整动作噪声(如高斯噪声)。 - **随机种子**:使用`rng(seed)`确保实验可复现性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值