
强化学习
文章平均质量分 96
强化学习相关方法,主要参考书《Reinforce Learning》—— Richard S.Sutton
云端FFF
not because they are easy, but because they are hard
展开
-
RL 实践(7)—— CartPole【TRPO & PPO】
本文介绍 PPO 这个 online RL 的经典算法,并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的,因此也会在原理部分介绍 TRPO原创 2023-08-15 11:51:47 · 1249 阅读 · 2 评论 -
RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】
本文介绍 REINFORCE with baseline 和 A2C 这两个带 baseline 的策略梯度方法,并在 CartPole-V0 上验证它们和无 baseline 的原始方法 REINFORCE & Actor-Critic 的优势原创 2023-07-28 20:17:56 · 816 阅读 · 2 评论 -
RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】
本文介绍如何用 REINFORCE 和 Actor-Critic 这两个策略梯度方法解二维滚球问题原创 2023-07-26 17:22:23 · 450 阅读 · 3 评论 -
RL 实践(4)—— 二维滚球环境【DQN & Double DQN & Dueling DQN】
本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题原创 2023-07-22 15:25:33 · 547 阅读 · 3 评论 -
RL 实践(3)—— 悬崖漫步【QLearning & Sarsa & 各种变体】
介绍 Sarsa、Expected Sarsa、N-Step Sarsa、N-Step Tree Backup、Q-Learning、Double Q-Learning 等六种经典表格型 TD Learning 算法,给出完整代码,并在自定义的经典悬崖漫步环境中进行性能对比原创 2022-12-17 20:30:34 · 4056 阅读 · 12 评论 -
RL 实践(2)—— 杰克租车问题【策略迭代 & 价值迭代】
使用策略迭代和价值迭代这两个经典的 model-based RL 方法解杰克租车问题原创 2022-10-10 12:17:30 · 2403 阅读 · 0 评论 -
RL 实践(1)—— 多臂赌博机
在多臂赌博机环境编程对比 ϵ-贪心,Decaying ϵ-贪心,UCB,汤普森采样等平衡探索和利用的方法原创 2022-09-29 13:03:58 · 752 阅读 · 0 评论 -
RL 实践(0)—— 及第平台辛丑年冬赛季【Rule-based policy】
RLChina 智能体挑战赛 - 辛丑年冬赛季的冠军代码复现报告原创 2022-06-24 07:53:44 · 1836 阅读 · 3 评论 -
个人强化学习论文导航
强化学习论文总结原创 2022-09-07 21:11:21 · 733 阅读 · 0 评论 -
强化学习拾遗 —— Off-policy 方法中的重要性采样比
考虑一个问题:为何基于 DQN 的 PER 需要重要度采样比,而基于 Q-learning 的优先级 Dyna-Q 则不用原创 2022-05-21 18:57:06 · 1018 阅读 · 0 评论 -
强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析
本文考察表格型 model-based evaluation 方法中,使用 Bellman 算子进行迭代的收敛性:首先补充一些测度论中的定义,然后介绍压缩映射原理和不动点,最后证明收敛性原创 2022-04-17 11:45:19 · 885 阅读 · 0 评论 -
强化学习拾遗 —— 强化学习的样本效率
总所周知,样本效率低下是强化学习的一个重要问题,本文试图从本质上分析造成这一问题的原因,并简单介绍一些改进措施原创 2021-10-30 03:32:35 · 4450 阅读 · 8 评论 -
强化学习拾遗 —— 再看奖励函数
本文介绍设计奖励函数的一般思路及面临的困境,对奖励函数的本质进行分析,从更高的角度建立对奖励函数的深刻认识原创 2021-10-14 06:57:36 · 17725 阅读 · 18 评论 -
Offline/Batch RL简介
简单介绍 Offline/Batch RL 的问题范式、常见方法和 D4RL 这个Benchmark原创 2022-01-14 04:25:43 · 3034 阅读 · 10 评论 -
图解 RL/IL 问题范式(On-Policy、Off-policy、Offline/Batch、IL...)
图解常见强化学习、模仿学习框架原创 2021-12-12 13:05:21 · 4808 阅读 · 2 评论 -
强化学习笔记(6)—— 无模型(model-free)control问题
详细分析几种针对 RL control 任务的经典 MC & TD 方法原创 2021-01-26 04:24:04 · 1088 阅读 · 1 评论 -
强化学习笔记(5)—— 无模型(model-free)prediction问题 (α-MC方法、TD方法)
本文详细讨论 MDP 未知情况下的 prediction 方法,包括 α-MC 和 TD 方法原创 2020-12-08 21:16:21 · 1010 阅读 · 0 评论 -
强化学习笔记(4)—— 有模型(model-based)prediction 和 control问题(DP方法)
本文主讨论MDP中的两个核心问题 —— 预测和控制,并介绍一些经典的 model-based 方法原创 2020-12-03 22:52:10 · 1945 阅读 · 2 评论 -
强化学习笔记(3)—— 有限马尔可夫决策过程(finite MDP)
本文详细介绍强化学习的形式化框架 —— 马尔可夫决策过程(MDP),并推导了 Bellman 公式原创 2021-08-14 18:04:17 · 1445 阅读 · 3 评论 -
强化学习笔记(2)—— 多臂赌博机
本文在只有一个状态的简化情况下讨论强化学习中评估与反馈的诸多性质,在 RL 研究早期,很多关于评估性反馈的研究都是在这种 “非关联性的简化情况” 下进行的原创 2021-07-13 03:40:19 · 731 阅读 · 4 评论 -
强化学习笔记(1)—— 概括与基础
详细说明强化学习的基础概念,建立整体性认识原创 2020-11-29 20:15:49 · 1067 阅读 · 1 评论