Reinforcement Learning
文章平均质量分 95
强化学习
zzzyzh
一个不会踢足球的棋手不是好程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RL【10-2】:Actor - Critic
本文介绍了强化学习中off-policy actor-critic方法的核心理论——重要性采样(importance sampling)。通过引入行为策略(behavior policy)β生成样本,利用重要性权重w(x)=p0(x)/p1(x)修正分布偏差,使得目标策略(target policy)π的期望估计保持无偏。文章详细推导了重要性采样的数学原理,包括期望转换、方差分析及其在强化学习中的应用,特别强调了当直接计算p0(x)期望困难时,该方法能有效利用易采样的p1分布进行近似估计。最后指出该理论为o原创 2025-09-14 15:42:01 · 695 阅读 · 1 评论 -
RL【10-1】:Actor - Critic
本文介绍了强化学习中的Actor-Critic方法,它是策略梯度方法的一种改进形式。文章首先解释了Actor和Critic的角色:Actor负责根据当前状态选择动作(策略更新),Critic则评估策略的好坏(价值估计)。随后回顾了策略梯度方法的基本原理,指出可以通过函数逼近和时序差分(TD)来估计动作值函数,从而形成Actor-Critic算法。最简单的QAC算法展示了这一过程:Critic通过TD误差更新价值函数参数,Actor则利用Critic提供的信号调整策略参数。这种方法结合了策略梯度和价值函数的优原创 2025-09-14 15:41:04 · 552 阅读 · 0 评论 -
RL【9】:Policy Gradient
强化学习策略梯度方法概述 本系列文章系统性地介绍了强化学习中的策略梯度方法。主要内容包括: 策略参数化:用参数化函数π(a|s,θ)表示策略,取代传统的表格表示法,特别适用于大规模状态空间问题 三种对比: 最优策略定义方式不同:表格法需最大化每个状态值,函数法只需优化全局标量指标 动作概率获取方式不同:表格法直接查表,函数法需计算π(a|s,θ) 策略更新方式不同:表格法直接修改表项,函数法通过调整参数θ间接更新 策略梯度核心思想: 定义目标函数J(θ)衡量策略性能 采用梯度上升法优化:θ←θ+α∇J(θ)原创 2025-09-12 15:00:00 · 763 阅读 · 2 评论 -
RL【8】:Value Function Approximation
该系列文章是B站赵世钰老师《强化学习的数学原理》课程的学习笔记,涵盖强化学习的基础概念、核心方程和算法实现。重点内容包括贝尔曼方程、最优性方程、值迭代与策略迭代、蒙特卡洛学习、随机近似与随机梯度下降,以及时序差分学习等关键方法。文章特别探讨了状态价值估计的算法,提出了两种目标函数定义方式:均匀分布(所有状态同等重要)和稳态分布(考虑状态长期出现的频率)。后者通过加权平方误差更贴合实际场景,优先优化高频访问状态的价值估计。这些数学工具为后续策略评估和改进奠定了理论基础。原创 2025-09-11 15:30:39 · 1223 阅读 · 1 评论 -
RL【7-2】:Temporal-difference Learning
本文介绍了Q-learning算法的核心原理及其与Sarsa算法的区别。Q-learning是一种off-policy强化学习算法,其更新规则为:$q_{t+1}(s_t,a_t)=(1-\alpha_t)q_t(s_t,a_t)+\alpha_t[r_{t+1}+\gamma\max_a q_t(s_{t+1},a)]$。与on-policy的Sarsa不同,Q-learning在更新时不依赖当前策略采样的动作,而是直接采用下一状态的最优动作估计。数学上,Q-learning求解的是Bellman最优方程原创 2025-09-10 16:26:57 · 339 阅读 · 0 评论 -
RL【7-1】:Temporal-difference Learning
摘要 本文介绍了基于随机逼近(Stochastic Approximation)的三种算法,用于解决不同复杂度的问题: 简单均值估计:通过迭代更新公式 $w_{k+1} = w_k - \alpha_k (w_k - x_k)$ 估计随机变量 $X$ 的期望 $\mathbb{E}[X]$,利用样本逐步修正估计值。 函数期望估计:扩展至估计函数 $v(X)$ 的期望 $\mathbb{E}[v(X)]$,更新公式为 $w_{k+1} = w_k - \alpha_k [w_k - v(x_k)]$,通过样本原创 2025-09-10 16:26:39 · 910 阅读 · 0 评论 -
RL【6】:Stochastic Approximation and Stochastic Gradient Descent
摘要 本文介绍了Robbins-Monro算法和随机梯度下降法。Robbins-Monro算法用于求解方程g(w)=0的根,通过迭代公式w_{k+1}=w_k-a_k\tilde{g}(w_k,η_k)实现,在满足单调性、步长条件等假设下保证收敛。该算法可转化为优化问题,如最小化目标函数J(w)。随机梯度下降法用于优化E[f(w,X)],相比梯度下降和批量梯度下降,它通过单样本或小批量样本来估计梯度,计算效率更高但需要满足适当收敛条件。两种方法都采用了随机近似思想,在强化学习中具有重要应用价值。原创 2025-09-09 14:54:00 · 522 阅读 · 1 评论 -
RL【5】:Monte Carlo Learning
本文基于赵世钰老师的强化学习课程,介绍如何利用Monte Carlo方法实现无模型(model-free)强化学习。传统策略迭代算法依赖环境模型(状态转移和奖励分布),而MC Basic通过采样轨迹数据直接估计动作价值函数$q_{\pi_k}(s,a)$,无需已知模型。具体步骤包括:1) 策略评估阶段,通过多次采样轨迹求回报平均值来近似$q_{\pi_k}$;2) 策略改进阶段,采用贪婪策略选择最优动作。该方法通过数据替代模型,适用于真实场景中环境动态未知的情况(如游戏、机器人控制等)。核心思想是利用原创 2025-09-09 11:18:47 · 1134 阅读 · 0 评论 -
RL【4】:Value Iteration and Policy Iteration
摘要 本文介绍了强化学习中的值迭代算法(Value Iteration Algorithm),用于求解Bellman最优方程。该算法基于压缩映射定理,通过迭代计算逐步逼近最优值函数和最优策略。值迭代分为两个步骤:1) 策略更新,基于当前值函数选择贪心策略;2) 值更新,根据新策略更新状态值。算法核心思路是:计算动作值函数→选择最大Q值动作作为策略→更新状态值为最大Q值→重复直至收敛。这种方法能保证最终找到最优状态值和最优策略,适用于已知环境概率模型的情况。原创 2025-09-08 15:00:00 · 958 阅读 · 1 评论 -
RL【3】:Bellman Optimality Equation
强化学习数学原理笔记:最优策略与贝尔曼最优性方程 本文总结了强化学习中关于最优策略和贝尔曼最优性方程的关键数学原理: 最优策略定义:策略π是最优的当且仅当对所有状态s和所有其他策略π,都有v_π(s) ≥ v_π(s)。 贝尔曼最优性方程: 元素形式:v(s) = max_π Σπ(a|s)[Σp(r|s,a)r + γΣp(s'|s,a)v(s')] 矩阵形式:v = max_π(r_π + γP_πv) 关键洞见: 普通贝尔曼方程用于评估固定策略 最优性方程通过max_π操作在所有可能策略中寻找最优解原创 2025-09-05 15:30:00 · 1061 阅读 · 1 评论 -
RL【2】:Bellman Equation
本笔记系统梳理了强化学习中 状态价值函数 (State Value) 与 动作价值函数 (Action Value) 的定义、推导与关系,说明了它们如何通过 Bellman 方程 建立递归联系,其中状态价值刻画“状态好坏的长期期望回报”,而动作价值进一步细化到“在状态下采取某动作的期望回报”,二者互为桥梁,共同构成强化学习理论的核心基础。原创 2025-09-03 15:30:00 · 1871 阅读 · 0 评论 -
RL【1】:Basic Concepts
本系列文章整理自赵世钰老师的强化学习数学原理课程笔记,系统介绍了强化学习的基础概念和马尔可夫决策过程。主要内容包括:状态与状态空间、动作空间、策略、奖励函数、轨迹与回报、折扣率、分幕式与连续任务等核心概念;并详细阐述了马尔可夫决策过程(MDP)的数学形式化定义,包括状态转移概率、奖励概率、策略函数和马尔可夫性质。这些概念为后续强化学习算法的理解奠定了理论基础。原创 2025-09-02 14:00:00 · 721 阅读 · 0 评论
分享