
强化学习
Reinforcement Learning
_沧海桑田_
ACL/NAACL/EMNLP/COLING审稿人,
MOD大侠梦/MOD禾下霸业作者。
github.com/guotong1988
展开
-
DQN(Deep Q-Network)代码实现
https://github.com/pytorch/rl/tree/main/sota-implementations/dqn核心部分:原创 2025-02-25 11:20:05 · 195 阅读 · 0 评论 -
torchrl报错,Supported version of ‘torchrl.envs.libs.gym.GymEnv._set_gym_args‘ has not been found
【代码】Supported version of ‘torchrl.envs.libs.gym.GymEnv._set_gym_args‘ has not been found。原创 2025-02-24 09:32:02 · 103 阅读 · 0 评论 -
从 Supervised Learning 到 Policy Gradients
http://karpathy.github.io/2016/05/31/rl/ 的翻译。原创 2023-03-24 15:24:34 · 284 阅读 · 0 评论 -
论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读
https://github.com/openai/lm-human-preferences原创 2023-02-01 09:28:09 · 371 阅读 · 0 评论 -
ChatGPT的Reward具体是如何指导Policy的
用KL-loss如图应该就是计算Reward Model生成的句子和Policy Model生成的句子的差值,然后优化这个差值。原创 2023-01-27 18:41:39 · 184 阅读 · 0 评论 -
Reinforce算法 通俗讲解。梯度不可导 是什么
梯度不可导的情况出现:一般为强化学习中select_action这步,比如从输出的action_prob里比如argmax出一个action,argmax这步是 梯度不可导 的(对比 可导的猫狗分类任务),这时要训练有select_action这步的网络的方法就是reinforce算法,即每个action的监督label是用这个action的reward来出loss的,即loss = 0.0for reward, log_prob in zip(reward_memory, log_prob_memo原创 2022-05-21 21:14:01 · 538 阅读 · 0 评论 -
Bootstrap Your Own Latent 划重点
引言BYOL uses two neural networks, referred to as online and target networks, that interact and learn from each other.Starting from an augmented view of an image, BYOL trains its online network to predict the target network’s representation of another augm原创 2021-12-07 17:52:56 · 434 阅读 · 0 评论 -
deep Q learning 里的 训练的ground-truth 的初步理解
由前文https://blog.youkuaiyun.com/guotong1988/article/details/120774481bellman equation 的释义是time1-action 加 time0-reward 作为 time0-action 的 ground-truth具体代码:原创 2021-11-03 21:35:02 · 222 阅读 · 0 评论 -
理解AlphaGo的蒙特卡洛树的作用
首先要先想象出两个 robot/agent 对弈 为一个树形的样子,具体,黑子下一步,会影响下一步白子的位置,如此下去,其实就是一棵树在延伸,想象出一个树形来记录对弈的全程,才能进一步理解蒙特卡洛树的缩小搜索空间的作用。...原创 2021-10-26 15:53:13 · 215 阅读 · 0 评论 -
deep Q learning 里的 Q 的初步理解
根据OpenAI的代码注释Q_function 就是一个 输入observation 输出action 的模型原创 2021-10-14 22:49:55 · 156 阅读 · 0 评论 -
《Reward is enough》 论文阅读
摘要本文提出假说,Reward is enough for AGI引言举了松鼠找松子吃的例子,确实,最终吃了松子reward就为1,没吃到松子reward就为0背景知识:强化学习把世界和生活的所有事reward化:讨论尝试用强化学习解释世界的一切robot结论如果Reward-is-enough这个猜想是正确的, 就能实现AGI。...原创 2021-09-26 19:48:26 · 362 阅读 · 0 评论 -
REINFORCE算法 代码实现
https://github.com/yrlu/reinforcement_learning/tree/master/policy_gradient原创 2019-06-11 17:50:27 · 2156 阅读 · 0 评论 -
rollout的意思
SeqGAN和LeakGAN里都提到这个东西,感觉就是 用上一个词的输出作为下一个要生成的词的输入 一个一个生成一句话 的意思原创 2019-03-13 11:45:33 · 2985 阅读 · 0 评论 -
劳逆讲Neural Symbolic Machines的视频,以及他的其他工作
Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision以及Memory Augmented Policy Optimization for Program Synthesis with Generalizationhttps://www.bilibili.com/video/a...转载 2019-01-04 14:36:00 · 791 阅读 · 0 评论 -
pytorch的reinforce算法 官方文档
http://pytorch.org/docs/0.3.0/distributions.htmlprobs = policy_network(state)m = Categorical(probs)action = m.sample() # 抽样一个actionnext_state, reward = env.step(action) # 得到一个rewardloss = -m.l原创 2018-01-05 11:16:05 · 3044 阅读 · 0 评论 -
IRGAN里REINFORCE算法 的推导过程 的理解方式
IRGAN里的上面这个推导用了policy gradient based reinforcement learning (REINFORCE)算法,看了这个博客才看懂每步推导过程 http://karpathy.github.io/2016/05/31/rl/ 上面是从karpathy的博客摘的另外theta可以理解为神经网络的参数原创 2017-07-09 15:38:44 · 4001 阅读 · 0 评论 -
Playing Atari with Deep Reinforcement Learning
实践中,因为action-value公式对于每个序列是被分别估计的。所以作为替换,在强化学习,通常用一个 函数拟合器 来估计action-value函数,典型的是一个线性拟合器,但是有时候是一个非线性的函数拟合器比如神经网络。这个神经网络是一个权重为θ的Q-network,这个Q-network可以被最小化 一个序列的损失函数 的方法训练。其中Q是action-value公式 其中 是每次迭代翻译 2016-12-07 09:48:08 · 731 阅读 · 0 评论