
动手学强化学习
文章平均质量分 95
误伤这又何妨
你应该认识我
展开
-
【动手学深度学习】05时序差分算法
对于大部分强化学习现实场景(例如电子游戏或者一些复杂物理环境),其马尔可夫决策过程的状态转移概率是无法写出来的,也就无法直接进行动态规划。在这种情况下,智能体只能和环境进行交互,通过采样到的数据来学习,这类学习方法统称为。不同于动态规划算法,无模型的强化学习算法不需要事先知道环境的奖励函数和状态转移函数,而是直接使用和环境交互的过程中采样到的数据来学习。无模型强化学习算法中最经典的两大算法是 Sarsa 和 Q-learning,它们都是基于时序差分的强化学习算法。原创 2025-02-21 15:20:58 · 1007 阅读 · 0 评论 -
【动手学深度学习】04动态规划算法
一个智能体从起点出发,避开悬崖行走,最终走到终点。如图所示,智能体的起点是左下角,终点是左上角,我们的目标是避开悬崖走到中断。智能体可以采取的行动有4种:上、下、左、右。如果智能体采取动作后触碰到边界墙壁则状态不发生改变,否则就会相应到达下一个状态。智能体每走一步的奖励是 −1,掉入悬崖的奖励是 −100。""" 悬崖漫步环境"""self.ncol = ncol # 定义网格世界的列self.nrow = nrow # 定义网格世界的行。原创 2025-02-18 12:26:04 · 892 阅读 · 0 评论 -
【动手学强化学习】03马尔可夫决策过程
马尔可夫决策过程始终贯穿强化学习,要学好强化学习,必须掌握马尔可夫决策过程的基础知识。与多臂老虎机不同,马尔可夫决策过程包含状态信息以及状态转移机制。原创 2025-02-15 22:34:46 · 1102 阅读 · 0 评论 -
【动手学强化学习】02多臂老虎机
强化学习关注的是在于环境交互中学习,是一种试错学习的范式。在正式进入强化学习之前,我们先来了解多臂老虎机问题。该问题也被看作简化版的强化学习,帮助我们更快地过度到强化学习阶段。有一个拥有K根拉杆的老虎机,拉动每根拉杆都有着对应奖励R,且这些奖励可以进行累加。在各根拉杆的奖励分布未知的情况下,从头开始尝试,在进行T步操作次数后,得到尽可能高的累计奖励。对于每个动作a,我们定义其期望奖励是Qa。是,至少存在一根拉杆,它的期望奖励不小于拉动其他任意一根拉杆,我们将该最优期望奖励表示为Q∗a。原创 2025-02-15 14:44:26 · 900 阅读 · 0 评论 -
【动手学强化学习】01初探强化学习
强化学习是机器通过与环境交互来实现目标的计算方法。智能体与环境的交互方式如图所示,在每一轮交互中,智能体根据感知状态经过自身计算给出本轮动作,将其作用于环境;环境得到智能体动作后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,以此类推。环境:与有监督学习不同,强化学习中的环境是动态的随机过程,受当前环境状态及智能体决策动作影响。目标:即决策目标,智能体与环境进行交互时,环境会产生相应的奖励信号。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号。原创 2025-02-14 17:22:28 · 1063 阅读 · 0 评论