
RL到DRL
文章平均质量分 92
Vulcan_Q
Am here waiting
展开
-
【从RL到DRL】深度强化学习基础(五)离散控制与连续控制——确定策略梯度方法(DPG)、使用随机策略进行连续控制
本文为深度强化学习基础的第五篇,介绍了从离散控制进阶到连续控制,分别介绍了确定策略梯度方法进行连续控制,以及使用随机策略进行连续控制原创 2022-10-22 11:29:49 · 1174 阅读 · 0 评论 -
【从RL到DRL】深度强化学习基础(四)——策略梯度中的Baseline,Reinforce与A2C的对比
本文Hi胜读强化学习基础的第四篇博客,主要学习记录了策略梯度中使用Baseline方法来降低动作价值函数的方差,提高收敛速度;并介绍了A2C方法,分析了其与Reinforce的联系与差别。原创 2022-10-22 00:16:55 · 956 阅读 · 0 评论 -
【从RL到DRL】深度强化学习基础(三)——蒙特卡洛算法、TD算法改进:经验回放与高估问题的优化——Target网络与Double DQN,DQN结构改进——Dueling网络
本文为深度强化学习的第三篇,承接上篇介绍了蒙特卡洛算法的应用,并结合TD算法的具体缺点,从两个角度介绍了两个改进方案——经验回放与高估问题优化,最后介绍了对DQN网络结构的优化——Dueling Network 结构原创 2022-10-19 19:25:34 · 1386 阅读 · 0 评论 -
【从RL到DRL】深度强化学习基础(二)——Actor-Critic Methods中策略与价值网络机构以及算法迭代过程、实例分析——AlphaGo的训练过程、蒙特卡洛树初步
本文是深度强化学习基础的第二篇,从AC算法的角度接入,并介绍了AlphaGo的训练流程以及其中涉及到的相关知识。原创 2022-10-15 10:28:51 · 1328 阅读 · 0 评论 -
【从RL到DRL】深度强化学习基础(一)——基本概念、价值学习(DQN与TD算法)、策略学习与策略梯度
本篇为深度强化学习基础的第一篇,回顾并介绍了强化学习中的一些基本概念,并初步阐释了神经网络在策略学习与价值学习中的应用。原创 2022-10-14 00:09:38 · 1512 阅读 · 0 评论 -
【从RL到DRL】强化学习基础(三)——动态规划、小型网格世界中的随机策略评估
本文为强化学习基础的第三篇内容,主要记录了基于动态规划方法求解贝尔曼期望方程的迭代算法,以及相应的迭代策略评估、策略迭代、价值迭代内容原创 2022-10-08 00:05:41 · 1066 阅读 · 0 评论 -
【从RL到DRL】强化学习基础(二)——马尔可夫决策过程与相关贝尔曼方程
本文为强化学习基础的第二篇内容,主要围绕马尔可夫性质与马尔可夫奖励、决策过程展开,并通过回溯图等形式深入分析了贝尔曼方程与贝尔曼最优方程的组成与意义原创 2022-10-04 16:47:42 · 1859 阅读 · 0 评论 -
【从RL到DRL】强化学习基础(一)——强化学习基本介绍、基本的智能体概念
本文开始入门学习强化学习,主要介绍了强化学习本身的一些特点以及与智能体分类、基本组成相关的一些基本概念原创 2022-10-01 09:40:46 · 1576 阅读 · 0 评论