
简简单单强化学习
文章平均质量分 85
强化学习学习笔记
见见大魔王
我很懒
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文阅读】DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
来用强化学习斗地主吧原创 2022-10-12 14:59:37 · 2246 阅读 · 1 评论 -
【深度强化学习】MAPPO 代码学习
MAPPO 的开源代码库:https://github.com/marlbenchmark/on-policy。MAPPO 的主要实现在 onpolicy 中实现,接下来逐一对 MAPPO 算法代码文件进行解读。最后是用来计算损失,更新 actor 和 critic 网络,的训练类,实现在。首先是基本的 actor-critic 架构,在文件。随后是 MAPPO 的策略类,其实现在。...原创 2022-08-04 17:07:27 · 6064 阅读 · 5 评论 -
蒙特卡洛树搜索(MCTS)详解
蒙特卡洛树搜索是一种经典的树搜索算法原创 2022-07-21 16:44:22 · 43365 阅读 · 4 评论 -
【论文阅读】Deep Transformer Q-Networks for Partially Observable Reinforcement Learning
并且,作者。原创 2022-07-15 17:15:53 · 2006 阅读 · 0 评论 -
【持续更新】MARL 算法汇总
MARL 算法汇总0 Preliminaries在多智能体强化学习算法中,两个主要的技术指标为合理性与收敛性。1.合理性(rationality):在对手使用一个恒定策略的情况下,当前智能体能够学习并收敛到一个相对于对手策略的最优策略。2.收敛性(convergence):在其他智能体也使用学习算法时,当前智能体能够学习并收敛到一个稳定的策略。通常情况下,收敛性针对系...原创 2022-04-24 23:15:02 · 3069 阅读 · 2 评论 -
【深度强化学习】多智能体算法汇总
本文收纳了常见的多智能体强化学习方法,并简单介绍各个算法。原创 2022-04-24 23:06:06 · 15920 阅读 · 0 评论 -
北京智源人工智能研究院(BAAI)前沿报告——强化学习领域
北京智源人工智能研究院(BAAI)前沿报告——强化学习领域本文参考于2021-2022年度智源人工智能研究员前沿报告中的强化学习领域篇。1 提升训练效率成为强化学习领域的研究重点近来,许多研究者期望能够探索出更为高效的强化学习算法,一是具有较好泛化能力,适用于多种场景;二是在输入数据较少或较为简单,类似真实环境的情形下,智能体依然能够取得较好的表现。目前已有 MuZero 等实现了这一目标。然而,强化学习也面临样本效率的挑战。从零开始训练智能体,往往需要通过成百上千万的步骤才能达到预期的性能表现,这原创 2022-04-13 17:30:42 · 2184 阅读 · 0 评论 -
【深度强化学习】GAIL 与 IRL 的理解
本文主要介绍模仿学习中的两种主流方法,逆强化学习(IRL)和生成对抗模仿学习(GAIL)原创 2022-03-21 19:51:21 · 6058 阅读 · 0 评论 -
【深度强化学习】Advantage Actor-Critic
Advantage Actor-Critic0 Actor and CriticPolicy network 被称之为 Actor,是对策略函数 π(a∣s)\pi(a|s)π(a∣s) 的近似,用来控制 agent 的动作,记为 π(a∣s;θ)\pi(a \mid s ; \boldsymbol{\theta})π(a∣s;θ);Value network 被称之为 Critic,是对状态价值函数 Vπ(st)V_\pi(s_t)Vπ(st) 的近似,用来评估当前状态的好坏,记为 v(s;w)原创 2021-12-15 11:03:44 · 2792 阅读 · 0 评论 -
【深度强化学习】REINFORCE with Baseline
强化学习中的REINFORCE方法,对期望进行近似原创 2021-12-13 15:57:39 · 3761 阅读 · 0 评论 -
【深度强化学习】Policy Gradient with Baseline
Policy Gradient with Baseline0 Policy Gradient先来回顾一下策略梯度,策略梯度是关于策略网络的参数求的。策略网络 π(a∣s;θ)\pi(a \mid s ; \theta)π(a∣s;θ) 用于控制 agent 的动作,其中 θ\thetaθ 为网络参数。状态价值函数是动作价值函数的期望,动作 AAA 的概率密度函数是 π\piπ:Vπ(s)=EA∼π[Qπ(s,A)]=∑aπ(a∣s;θ)⋅Qπ(s,a)\begin{aligned}V_{\pi原创 2021-12-12 21:11:02 · 2291 阅读 · 0 评论 -
【深度强化学习】DQN高级技巧
DQN高级技巧0 Revisiting DQN and TD LearningQ⋆(s,a)Q^{\star}(s,a)Q⋆(s,a) 为最优动作价值函数,DQN 就是使用神经网络 Q⋆(s,a;w)Q^{\star}(s,a;w)Q⋆(s,a;w) 来近似 Q⋆(s,a)Q^{\star}(s,a)Q⋆(s,a),训练好 DQN 后,可以用 DQN 来控制 agent。把状态 sss 输入 DQN,DQN 中有卷积层和全连接层,其参数记为 www,DQN 的输出是所有动作的评分。TD Learni原创 2021-12-06 00:27:39 · 1511 阅读 · 0 评论 -
【深度强化学习】Mult-Step TD Target
Mult-Step TD Target1 Sarsa vs Q-learningSarsa 训练的是动作价值函数 Qπ(s,a)Q_{\pi}(s,a)Qπ(s,a),其 TD Target 为 yt=rt+γ⋅Qπ(st+1,at+1)y_{t}=r_{t}+\gamma \cdot Q_{\pi}\left(s_{t+1}, a_{t+1}\right)yt=rt+γ⋅Qπ(st+1,at+1);Q-learning 训练的是最优动作价值函数 Q⋆(st+1,at+1)Q^{\sta原创 2021-12-01 18:39:35 · 759 阅读 · 0 评论 -
【深度强化学习】Q-learning
Q-learning1 Sarsa vs Q-learningSarsa 和 Q-learning 都是 TD 算法,但是解决的问题不同。Sarsa 用于训练 动作价值函数 Qπ(s,a)Q_{\pi(s,a)}Qπ(s,a),其 TD target 为 yt=rt+γ⋅Qπ(st+1,at+1)y_t = r_t + \gamma \cdot Q_{\pi}(s_{t+1},a_{t+1})yt=rt+γ⋅Qπ(st+1,at+1)。常使用 Sarsa 来更新 Actor-Critic原创 2021-12-01 14:46:02 · 920 阅读 · 0 评论 -
【深度强化学习】Sarsa
Sarsa正如其名,SARSA 即是使用 (st,at,rt,st+1,at+1)(s_t,a_t,r_t,s_{t+1},a_{t+1})(st,at,rt,st+1,at+1) 来更新 QπQ_\piQπ,也就是 State-Action-Reward-State-Action。1 TD target首先,我们回顾一下 discounted return\text{discounted return}discounted return:Ut=Rt+γ⋅Rt+1+γ原创 2021-11-30 21:47:33 · 954 阅读 · 0 评论 -
【深度强化学习】Deterministic Policy Gradient Algorithms
Deterministic Policy Gradient Algorithms1 FrameworkDeterministic Policy Gradient Algorithms(DPG)是一种 Actor-Critic 算法,适用于 连续动作空间。Deterministic policy network:根据状态 sss,输出的结果不是一个关于 action 的分布,而是一个确定的 action。Value network:根据当前状态 sss 以及策略网络给出的动作 aaa,给出对原创 2021-11-30 15:48:35 · 788 阅读 · 0 评论 -
【深度强化学习】Actor-Critic Method
Actor-Critic1 解决了什么问题?在 Actor-Critic 算法提出之前,大多数的 RL 算法大致分为以下两类:Actor-only 方法:直接使用参数化的 policy 学习,目标是 maxJ(θ)\text{max}J(\theta)maxJ(θ),通过计算策略梯度来迭代更新策略。优点在于能够适用于连续的动作空间,但缺点是 policy gradient 具有较大的方差,因此收敛较慢。Critic-only 方法:完全依赖于值函数的近似,目标是学习 Bellman functio原创 2021-11-30 11:42:58 · 1560 阅读 · 0 评论 -
【深度强化学习】OpenAI Gym
OpenAI Gym1 安装$ pip install gym #minimal installor$ pip install gym[all] #full install, fetch gym as a package安装成功后即可跑一下简单的demo看看:import gymenv = gym.make('CartPole-v0')env.reset()for _ in range(1000): env.render() env.step(env.action_spa原创 2021-11-29 11:05:02 · 667 阅读 · 0 评论 -
【深度强化学习】《强化学习》Monte-Carlo 算法代码实现
《强化学习》中的案例是扑克游戏“21点”。游戏规则:扑克牌的点数之和在不超过21的情况下越大越好。所有的人头牌(J, Q, K)的点数都为10,A 既可以当作 1,也可以当作 11。假设每一个玩家都独立地与庄家进行比赛。游戏开始时会给各玩家与庄家发两张牌。庄家地牌一张正面朝上一张背面朝上。玩家直接获得21点(天和),则玩家直接获胜,除非庄家也是天和,那就是平局。如果玩家不是天和,那么他可以一张一张地继续要牌,直到他主动停止或者手牌点数超过21点(爆牌)。如果玩家爆牌了就算输掉比赛。如果玩家选择停牌,就原创 2021-10-25 11:31:55 · 1919 阅读 · 0 评论 -
【深度强化学习】知识汇总(持续更新)
1 基于值函数的方法动态规划是 model-based 方法,MC 和 TD 都是 model-free 方法。Dynamic Programming (动态规划)Temporal-Difference Learning (时序差分学习)Monte-Carlo Reinforcement Learning (蒙特卡洛方法)sarsaq-learning2 基于策略梯度的方法又称 直接策略搜索方法。TRPOProximal Policy Optimization ...原创 2021-10-11 20:38:41 · 217 阅读 · 0 评论 -
【强化学习】小知识点汇总
1 On-policy and Off-policyOn-policy:The agent learned and the agent interacting with the environment is the same. Off-policy:The agent learned and the agent interacting with the environment is the different.原创 2021-10-07 17:16:01 · 369 阅读 · 0 评论 -
【深度强化学习】《强化学习》第二章代码分析与实现
案例来源:《强化学习》第三版1 导包2 初始化 K-臂赌博机这里跟书上一样选取 K = 10。输出结果如下:目前已经完成了一个 10-臂赌博机的十个行为的价值初始化。3 创建 Bandit 类Bandit 类也就是我们的 Agent 类,具有以下多个属性以及方法,分析如下:...原创 2021-08-12 18:51:26 · 843 阅读 · 0 评论 -
【深度强化学习】不基于模型的预测(Model-Free Prediction)
本文讲解不基于模型(Model-Free)的预测,在给定的策略同时不清楚MDP细节的情况下,估计 Agent 会得到怎样的最终奖励。主要分为两种算法:Monte-Carlo Learning 和 Temporal-Difference Learning。1 Introduction上一个 lecture 讲解了动态规划相关的算法,其特点是完全了解 MDP 的所有细节。本次 lecture 学习的是 不基于模型的预测(Model-Free Prediction),其特点是对 MDP 的细节是未知的,这原创 2021-07-29 22:01:43 · 1044 阅读 · 0 评论 -
【深度强化学习】动态规划(Dynamic Programming)
动态规划需要明确 MDP 的所有信息。在实际应用中,很少使用动态规划来解决大规模强化学习问题。动态规划分为两个算法,一个是值迭代,另一个是策略迭代。原创 2021-07-26 19:17:07 · 1542 阅读 · 0 评论 -
【深度强化学习】马尔可夫决策过程(Markov Decision Process, MDP)
1. Markov Process我们一步一步来讲解 Markov Decision Process。按顺序,从Markov Process 到Markov Reward Process,再到 Markov Decision Process。1.1 Markov Property马尔可夫过程(Markov process)的集合就是具有马尔可夫性质(Markov property)的 state 的集合。马尔可夫性质:某一 state 信息包含了所有相关的 history。只要当前 ...原创 2021-07-15 17:50:54 · 2310 阅读 · 2 评论 -
【深度强化学习】基本介绍与基础概念
1. 什么是强化学习?在众多学科领域中都存在一个研究“决策”的分支。比如在计算机科学领域中的机器学习,在工程领域中的最优控制,神经科学领域中的反馈系统等,他们的交集就是 Reinforcement Learning。强化学习的本质是科学决策。2. 强化学习的特点在强化学习中并没有监督数据,只能通过 reward 信号去优化 reward 不一定是实时的,有可能延后,甚至延后很多 时间对强化学习非常重要(因为数据是具有时间序列性质的,并不是独立同分布的) agent 的行为会对接下来原创 2021-07-14 15:38:36 · 2529 阅读 · 0 评论 -
【深度强化学习】Policy Gradient
Basic Components在强化学习中有三个基本组成:Actor 是行为 action 的发起者,具有有限个可供选择的行为;Environment 是 game 的所处环境,提供 Actor 可看到的画面等;Reward Function 是在 game 中完成某种action 后可以得到的回报。举个例子,你打开游戏网站4399打单机小游戏,游戏中可用 键盘上的 w,a,s,d 来控制角色上下左右的移动,空格键来开火,游戏规定每击杀一个怪物奖励5分。那么此时,Actor 就是键.原创 2021-06-28 17:23:31 · 733 阅读 · 1 评论