
Reinforcement learning
文章平均质量分 50
张博208
知识搬运工
展开
-
RLHF知识
然而,对生成结果的评估是主观和依赖上下文的,这些结果难以用现有的基于规则的文本生成指标 (如 BLUE 和 ROUGE) 来衡量。除了评估指标,现有的模型通常以预测下一个单词的方式和简单的损失函数 (如交叉熵) 来建模,没有显式地引入人的偏好和主观意见。因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。:即使用强化学习的方法,利用人类反馈信号直接优化语言模型。原创 2023-03-24 11:39:07 · 1177 阅读 · 0 评论 -
Conservative Q-Learning for Offline Reinforcement Learning
Conservative Q-Learning for Offline Reinforcement Learning_石磅溪涧的博客-优快云博客(CQL)Conservative Q-Learning for Offline Reinforcement Learning_yxh的博客-优快云博客原创 2022-01-07 20:21:32 · 442 阅读 · 0 评论 -
DRN 模型
https://zhuanlan.zhihu.com/p/58280384https://zhuanlan.zhihu.com/p/38875317原创 2020-12-18 12:03:44 · 519 阅读 · 0 评论 -
AlphaGo Zero强化学习原理
在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。 本篇主要参考了AlphaGo Zero的论文,AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。1.AlphaGo Zero模型基础 AlphaGo Zero不需要学习人类的棋谱,通过自我对弈完成棋力提高。主要使用了两个模型,第一个就是我们上一..原创 2020-10-26 10:16:49 · 470 阅读 · 0 评论 -
Offline (Batch) Reinforcement Learning: A Review of Literature and Applications
https://danieltakeshi.github.io/2020/06/28/offline-rl/https://bair.berkeley.edu/blog/2019/12/05/bear/原创 2020-10-12 15:59:18 · 290 阅读 · 0 评论 -
Batch Constrained Deep Reinforcement Learning
https://danieltakeshi.github.io/2019/02/09/batch-constrained-deep-rl/An interesting paper that I am reading isOff-Policy Deep Reinforcement Learning without Exploration. You can findthe latest version on arXiv, where it clearly appears to be under revi..转载 2020-10-12 14:59:42 · 469 阅读 · 0 评论 -
Batch-Constrained deep Q- Learning(BCQ)
论文全称:Off-Policy Deep Reinforcement Learning Without Exploration (Scott Fujimoto, David Meger, Doina Precup)原文传送门https://arxiv.org/pdf/1812.02900arxiv.org简介本文其实不算是一篇Exploration的文章,但文章题目中的Without Exploration还是吸引到我了。本文解决的问题是Batch Reinforcement L.转载 2020-10-11 16:05:38 · 2001 阅读 · 1 评论 -
通过减小Bootstrapping Error Reduction来进行离线RL学习
最近尝试了一些offline数据的off-policy算法,发现value function的overestimation问题非常严重,在正常学习估计收敛在400左右的价值函数在离线数据下竟然会一直累积到几十万,高的离谱。正好近期offline RL领域就有一篇工作讲这件事,所以值得仔细读一读。论文全称:Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (Aviral Kumar, Justin Fu, Georg转载 2020-10-11 15:33:03 · 947 阅读 · 1 评论 -
Temporal Difference Learning ,Dynamic Programming, Monte Carlo
https://baijiahao.baidu.com/s?id=1664700631856186765&wfr=spider&for=pchttps://www.jianshu.com/p/0bfeb09b7d5fhttps://zhuanlan.zhihu.com/p/73083240https://zhuanlan.zhihu.com/p/57836142原创 2020-10-09 09:39:35 · 132 阅读 · 0 评论 -
Evolution Strategies
https://lilianweng.github.io/lil-log/2019/09/05/evolution-strategies.html文章列表:https://lilianweng.github.io/lil-log/archive.html原创 2020-09-30 10:28:56 · 224 阅读 · 0 评论 -
看懂AlphaGo Zero
https://blog.youkuaiyun.com/sinat_31428707/article/details/82218575https://www.cnblogs.com/pinard/p/10609228.html原创 2020-08-01 16:38:27 · 187 阅读 · 0 评论 -
GAE(Generalized Advantage Estimation) PPO
https://blog.youkuaiyun.com/zhkmxx930xperia/article/details/88257891原创 2020-06-28 14:26:18 · 4386 阅读 · 0 评论 -
强化学习笔记之浅谈ACKTR
https://zhuanlan.zhihu.com/p/1229973702017年NIPS上的文章"Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation"提出了一种Actor Critic using Kronecker-Factored Trust Region(ACKTR)的方法,笔者发现这个方法被普遍引用,但关于论文中的一些细节问题,网上讲解...转载 2020-06-27 16:13:48 · 2083 阅读 · 1 评论 -
深度解读Soft Actor-Critic 算法
1 前言机器人学习Robot Learning正在快速的发展,其中深度强化学习deep reinforcement learning(DRL),特别是面向连续控制continous control的DRL算法起着重要的作用。在这一领域中,目前可以说有三类行之有效的modle free DRL算法:TRPO,PPO DDPG及其拓展(D4PG,TD3等) Soft Q-Learning, Soft Actor-CriticPPO算法是目前最主流的DRL算法,同时面向离散控制和连续控制,在Open转载 2020-06-27 13:27:30 · 3157 阅读 · 0 评论 -
Natural Gradient Descent
https://zhuanlan.zhihu.com/p/142786862原创 2020-06-26 18:33:12 · 271 阅读 · 0 评论 -
TRPO、PPO
https://blog.youkuaiyun.com/weixin_41679411/article/details/82421121https://zhuanlan.zhihu.com/p/48293363https://zhuanlan.zhihu.com/p/29918825https://zhuanlan.zhihu.com/p/30138538https://zhuanlan.zhihu.com/p/26308073原创 2020-06-25 18:19:01 · 411 阅读 · 0 评论 -
读论文Trust Region Policy Optimization
这篇论文的作者星光闪耀,都是大牛级人物,而且是最顶尖的那种。第一作者是Schulman(cs294课程的主讲人)、Levine和Abbeel也在作者名单里面。论文首先通过一些surrogate目标函数来保证较大的步长来进行策略优化和提升,然后通过一系列的近似来推出理论公式和实际工程可行的算法,这就是鼎鼎大名的TRPO算法论文通过一系列测试说明TRPO算法能够学到复杂的策略比如游泳,跳和走,以及通过图像学习Atari游戏。下面这个公式就是我们的目标函数,表明的是一个策略代表的累积收益。我们的任务是转载 2020-06-25 17:55:38 · 351 阅读 · 0 评论 -
TRPO
https://zhuanlan.zhihu.com/p/26308073转载 2020-06-25 17:39:09 · 239 阅读 · 0 评论 -
强化学习---TRPO/DPPO/PPO/PPO2
时间线:OpenAI 发表的Trust Region Policy Optimization,Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号,抢在 OpenAI 前面 把Distributed PPO给先发布了.OpenAI 还是在 2017年7月20号 发表了一份拿得出手的PPO 论文。(ppo+ppo2)Proximal Policy OptimizationPPO是off-policy的方法。跟环境互动的agent与用来...转载 2020-06-25 17:05:46 · 1298 阅读 · 3 评论 -
【确定性策略梯度类】 DPG,DDPG,TD3,D4PG
https://zhkmxx9302013.github.io/post/dad17569.html原创 2020-05-31 18:14:24 · 2004 阅读 · 0 评论 -
DDPG(Deep Deterministic Policy Gradient)算法详解
https://blog.youkuaiyun.com/qq_30615903/article/details/80776715转载 2020-05-28 10:24:13 · 1261 阅读 · 0 评论 -
Self-critical Sequence Training
Self-critical Sequence Training for Image Captioning是IBM研究团队在CVPR 2017上发表的一篇论文,主要介绍了一种基于self-critical思想的强化学习方法来训练序列生成模型。论文背景该论文的背景与上周介绍的Sequence Level Training with Recurrent Neural Networks一文相似,后...转载 2020-05-06 10:05:59 · 1392 阅读 · 1 评论 -
Self-critical Sequence Training for Image Captioning
https://blog.youkuaiyun.com/sinat_26253653/article/details/78458894转载 2020-05-06 09:48:54 · 281 阅读 · 0 评论 -
Self-critical Sequence Training
Self-critical Sequence Training for Image Captioning是IBM研究团队在CVPR 2017上发表的一篇论文,主要介绍了一种基于self-critical思想的强化学习方法来训练序列生成模型。论文背景该论文的背景与上周介绍的Sequence Level Training with Recurrent Neural Networks一文相似,后...转载 2020-05-06 09:47:37 · 429 阅读 · 0 评论 -
强化学习AC、A2C、A3C算法原理与实现
策略梯度与A2C算法https://blog.youkuaiyun.com/u013298300/article/details/100060817强化学习(十三 )--AC、A2C、A3C算法https://zhuanlan.zhihu.com/p/62100741强化学习AC、A2C、A3C算法原理与实现!https://www.jianshu.com/p/428b640046aa...原创 2020-04-18 18:39:06 · 2601 阅读 · 0 评论 -
上置信界算法(the-upper-confidence-bound-algorithm,UCB)
https://blog.youkuaiyun.com/u010510549/article/details/86476151原创 2020-01-17 17:55:42 · 1576 阅读 · 0 评论 -
马尔科夫决策过程之Bellman Equation(贝尔曼方程)
本文总结一下马尔科夫决策过程之Bellman Equation(贝尔曼方程)1Bellman Equation for MRPs首先我们从value function的角度进行理解,value function可以分为两部分:见下面的推导公式:我们直接从第一行到最后一行是比较好理解的,因为从状态s到状态s+1,是不确定,还是之前的例子。比如掷骰子游...转载 2019-12-03 09:51:37 · 1821 阅读 · 0 评论 -
贝尔曼方程(Bellman Equation)
https://blog.youkuaiyun.com/hhy_csdn/article/details/89105908原创 2019-12-03 09:50:34 · 1384 阅读 · 0 评论 -
强化学习系列之三:模型无关的策略评价
文章目录 [隐藏]1. 蒙特卡罗算法2. 时差学习算法3. 一个例子4. 总结强化学习系列系列文章 上一章我们介绍了模型相关 (Model-based) 的强化学习。从现在开始我们要介绍模型无关 (Model-free) 的强化学习。 由于模型无关的强化学习比较复杂,今天先介绍其中一部分——模型无关的策略评价。模型无关的策略评价是转载 2018-01-16 10:17:01 · 1463 阅读 · 0 评论 -
强化学习系列之二:模型相关的强化学习
文章目录 [隐藏]1. 策略迭代1.1 策略评估1.2 策略改进2. 价值迭代3. 总结性结尾(好魔性的标题)强化学习系列系列文章 上一章我们介绍了强化学习的基本假设——马尔科夫决策过程 (Markov Decision Process)。本文将介绍模型相关的强化学习算法。 有的时候,我们完全知转载 2018-01-16 09:51:17 · 1487 阅读 · 0 评论 -
强化学习系列之一:马尔科夫决策过程
文章目录 [隐藏]1. 马尔科夫决策过程2. 策略和价值3. 最优策略存在性和贝尔曼等式强化学习系列系列文章 机器学习一共有三个分支,有监督学习、无监督学习和强化学习。强化学习是系统从环境学习以使得奖励最大的机器学习。强化学习和有监督学习的不同在于教师信号。强化学习的教师信号是动作的奖励,有监督学习的教师信号是正确的动作。转载 2018-01-15 17:19:37 · 1914 阅读 · 0 评论 -
增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)
增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性:需要环境模型,即状态转移概率PsaPsa状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。相对的,蒙特卡罗方法的特点则有:转载 2018-01-15 10:33:23 · 964 阅读 · 0 评论 -
增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规则转载 2018-01-15 10:32:34 · 352 阅读 · 0 评论 -
增强学习(三)----- MDP的动态规划解法
增强学习(三)----- MDP的动态规划解法上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢?基本的解法有三种:动态规划法(dynamic programming methods)蒙特卡罗转载 2018-01-15 10:32:02 · 299 阅读 · 0 评论 -
强化学习系列之四:模型无关的策略学习
文章目录 [隐藏]1. 一些前置话题2. MC Control3. SARSA4. Q Learning5. 做点实验5.1. 算法稳定性5.2. 贪婪策略的影响5.3. 不同算法的效果对比6. 总结强化学习系列系列文章 模型无关的策略学习,是在不知道马尔科夫决策过程的情况下学习到最优策略。模型无关的策略学习主要有三转载 2018-01-16 10:27:54 · 929 阅读 · 0 评论 -
强化学习系列之五:价值函数近似
目前,我们已经介绍了一些强化学习的算法,但是我们无法在实际问题中运用这些算法。 为什么呢?因为算法估算价值函数 (v(s)) 或者 (q(s,a)),保存这些价值函数意味着保存所有状态。而实际问题中,状态的数目非常巨大,遍历一遍的事情就别想了。比如,围棋的状态总数是(3^{19}),听说比宇宙的总原子数还多,23333。解决这个问题的方法是抽特征。对于一个状态 s, 我们抽取一些转载 2018-01-16 10:31:37 · 2108 阅读 · 0 评论 -
强化学习系列之六:策略梯度
文章目录 [隐藏]1. 策略参数化2. 策略梯度算法2.1 MC Policy Gradient2.2 Actor-Critic3. 为什么要有策略梯度4. 总结强化学习系列系列文章 上一篇文章介绍价值函数近似,用模型拟合价值函数。这篇文章我们介绍梯度策略,用模型直接拟合策略。 1. 策略参数化转载 2018-01-16 10:35:16 · 1920 阅读 · 0 评论 -
强化学习系列之九:Deep Q Network (DQN)
文章目录 [隐藏]1. 强化学习和深度学习结合2. Deep Q Network (DQN) 算法3. 后续发展3.1 Double DQN3.2 Prioritized Replay3.3 Dueling Network4. 总结强化学习系列系列文章 我们终于来到了深度强化学习。1. 强化学习和深度学习结合转载 2018-01-16 10:45:34 · 3710 阅读 · 0 评论 -
Deep Q-Network 学习笔记(一)
一、思路 图 1.1 这里,先自己对那个例子的理解总结一下。要解决的问题是:如上图 1.1 中有 5 个房间,分别被标记成 0-4,房间外可以看成是一个大的房间,被标记成 5,现在智能程序 Agent 被随机丢在 0-4 号 5 个房间中的任意 1 个,目标是让它寻找到离开房间的路(即转载 2018-01-17 08:59:20 · 4910 阅读 · 0 评论 -
Deep Q-Network 学习笔记(二)
一、思路Q-Learning与神经网络结合使用就是 Deep Q-Network,简称 DQN。在现实中,状态的数量极多,并且需要人工去设计特征,而且一旦特征设计不好,则得不到想要的结果。神经网络正是能处理解决这个问题,取代原来 Q 表的功能。当神经网络与Q-Learning结合使用的时候,又会碰到几个问题:1.loss 要怎么计算?增强学习是试错学习(Tr转载 2018-01-17 09:20:36 · 5020 阅读 · 7 评论