- 博客(10)
- 收藏
- 关注
原创 第8章 DQN改进算法
DQN算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在DQN之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和Dueling DQN,这两个算法的实现非常简单,只需要在DQN的基础上稍加修改,他们能在一定程度上改善DQN的效果。如果读者想要了解更多、更详细的DQN改进方法,可以阅读Rainbow模型的论文机器引用文献。
2024-09-06 10:47:37
1096
1
原创 第7章 DQN算法
Q-learning算法,是以矩阵的方式建立一张存储每个状态下所有动作Q值的表格。表格中的每一个动作Q(s,a)表示在状态s下选择动作a然后继续遵循某一策略预期能够得到的期望回报。但是,这种用表格存储动作价值的做法只在环境的状态和动作都是离散,且空间比较小的情况下适用,我们之前进行代码施展的几个环境都是如此(如悬崖漫步)。当状态或者动作数量非常巨大的时候,这种做法就不适用。例如,当状态是一张RGB图像时,假设图像大小为,此时一共有种状态,在计算机中存储这个数量级的Q值表格是不现实的。更甚者,当状态或者动作连
2024-08-23 09:48:17
1480
原创 第6章 Dyna-Q算法
在强化学习中,“模型”通常指与智能体交互的环境模型,即对环境的状态转移概率和奖励函数进行建模。根据是否具有环境模型,强化学习分为两种:基于模型的强化学习和无模型的强化学习。无模型的强化学习根据智能体与环境交互采样得到的数据直接进行策略提升或者价值估计。前面提到的Sarsa和Q-learning算法都是无模型的强化学习方法,后续这个系列主要讨论的也都是无模型的强化学习方法。第四章讨论的策略迭代和价值迭代就是基于模型的强化学习方法,在这两个算法里面环境模型是已知的,这章介绍的Dyna-Q也是基础的基于模型的强化
2024-08-19 09:19:56
1402
原创 第5章 时序差分算法
我们在第四章介绍的动态规划算法要求是的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。在这个条件下,智能体不需要和环境真正交互来采样数据,直接使用动态规划方法就可以解除最优价值或策略。这就好比对于有监督学习任务,如果直接显式给出了数据的分布公式,那么也可以通过在期望层面上直接最小化模型的泛化误差来更新参数,并不需要采样任何数据点。但是这在大部分场景下是无法实现的,机器学习的主要方法都是在数据分布未知的情况下针对具体的数据对模型做出更新的。
2024-08-15 15:29:25
878
原创 强化学习-动态规划
动态规划(dynamic programming)是程序设计算法中非常重要的内容,能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案,在求解目标问题的过程中,需要这些子问题答案时就可以直接利用,避免重复计算。本章介绍如何用动态规划的思想来求解在马尔可夫决策过程中的最优策略。
2024-07-16 16:03:48
1745
原创 马尔可夫决策过程 (2)
这两节(1章)从零开始介绍了马尔可夫决策过程的基础概念知识,并讲解了如何通过求解贝尔曼方程得到状态价值的解析解以及如何用蒙特卡洛方法估计各个状态的价值。马尔可夫决策过程是强化学习中的基础概念,强化学习中的环境就是一个马尔可夫决策过程。我们接下来将要介绍的强化学习算法通常都是在求解马尔可夫决策过程中的最优策略。
2024-07-09 17:35:58
1501
原创 马尔可夫决策过程 (1)
马尔可夫决策过程(Markov decision process, MDP)是强化学习的重要概念。前面两章所讲的环境其实就是一个马尔可夫决策过程。我们之前讲到的老虎机问题不算一个MDP问题,是因为MDP还包括状态信息以及状态信息之间的转移。MDP是强化学习问题在数学上的理想化形式,他其实就是一种通过交互式学习来实现目标的理论框架。
2024-07-08 19:27:38
862
原创 强化学习 --K臂老虎机(2)
在前一节我们提出了一个强化学习经典问题“K臂老虎机”,并将这个问题数学形式化,并将求解“最大奖励概率分布”变换为求解“”问题。之后又给出了K臂老虎机的环境生成问题,以及解决K臂老虎机算法的框架。在这节中,我们将会实现几个策略来解决K臂老虎机问题。
2024-07-07 12:09:56
873
原创 K臂赌博机(1)
对强化学习经典问题"多臂老虎机"进行了分析,并将其问题进行数据公式化.提出如何构建多臂老虎机环境以及多臂老虎机算法框架,为后续策略做基础工作。
2024-07-06 12:25:21
996
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人