cs285
文章平均质量分 95
Caleb Cheng
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
cs285 lecture13
本文摘要:文章系统介绍了强化学习中的探索策略。首先将问题分类为多臂老虎机、上下文老虎机、小规模有限MDP和大规模MDP/深度RL,并分析了各自的理论可解性。接着详细阐述了三种主要探索方法:1) UCB算法基于置信上界平衡探索与利用;2) Thompson采样通过后验分布概率匹配选择动作;3) 基于信息增益的方法优化学习效率。最后讨论了计数型探索在MDP中的扩展,提出伪计数方法解决大型状态空间问题。这些方法的核心都是量化并利用不确定性来指导探索,从而提高学习效率并获得最优策略。原创 2025-08-03 14:39:11 · 928 阅读 · 0 评论 -
cs285 lecture12
摘要 本文探讨了基于模型的强化学习(MBRL)方法,重点比较了open-loop和closed-loop策略的差异。传统规划方法多为open-loop,无法适应中途反馈,而closed-loop策略能根据环境状态调整行动。文章介绍了两种梯度计算方法:策略梯度法通过估计动作价值函数进行优化,而路径导数法通过可微环境模型进行反向传播,但后者面临梯度不稳定问题。为解决模型误差累积问题,提出了短步采样与离策略学习结合的MBRL v3.0方法,类似Dyna架构,用真实数据训练模型后生成模拟数据来增强学习。这种方法通过原创 2025-08-02 16:02:32 · 1097 阅读 · 0 评论 -
cs285 lecture11
文章摘要: 本文介绍基于模型的强化学习(MBRL)方法,重点讨论如何通过环境模型学习实现规划控制。主要内容包括:1) 基本MBRL框架,即收集数据、训练动态模型、进行规划;2) 分布偏移问题及其解决方案(如DAGGER方法);3) 模型偏差导致的过度利用问题及不确定性估计方法;4) 区分内在不确定性和模型不确定性的重要性。文章还讨论了参数后验分布对模型不确定性的表征作用,并指出传统神经网络点估计的局限性。核心观点是:有效的MBRL需要合理处理模型不确定性,避免规划器被不准确的模型预测误导。原创 2025-08-01 18:27:43 · 892 阅读 · 0 评论 -
cs285 lecture10
本文介绍了基于模型的强化学习(Model-Based RL)框架及其关键技术。主要内容包括:1)模型学习与规划的三步流程;2)确定性/随机环境下的数学建模及开环/闭环控制策略对比;3)黑盒优化方法(随机采样、CEM)和MCTS算法流程;4)轨迹优化问题表述及求解方法(反向传播、二阶优化、shooting method)。重点阐述了LQR线性反馈控制、CEM迭代优化、MCTS的UCT策略等核心算法,并比较了不同方法的适用场景和优缺点。这些技术为复杂系统的控制优化提供了有效的解决方案。原创 2025-07-30 18:08:10 · 950 阅读 · 0 评论 -
cs285 hw3
本文分析了多步Q学习(Multistep Q-learning)的理论性质与实现方法。主要内容包括:1) 讨论了TD学习中的最大化偏差问题(Maximization bias)及其解决方案;2) 分析了表格型学习在不同步数N下的收敛性,包括on-policy和off-policy情况;3) 探讨了函数逼近下的收敛条件;4) 介绍了多步重要性采样方法及其方差问题;5) 提供了实现中的关键技巧,包括ε-greedy探索调度、学习率调度和梯度裁剪。结果表明,在无限数据和迭代条件下,多步Q学习能收敛到最优Q函数,但原创 2025-07-29 21:41:14 · 1655 阅读 · 0 评论 -
cs285 lecture9
本文探讨了策略梯度方法与策略迭代的关系,提出策略梯度可视为"软化版"的策略迭代。通过理论推导证明,策略改进的目标函数差值可转化为新策略下旧策略优势函数的期望。在策略更新时,策略梯度通过小幅调整参数而非直接跳转到贪心策略,使得在优势函数估计不准确时能更稳定地优化。文章还分析了当策略更新幅度较小时(ε足够小),新旧策略的状态分布差异有限(差异上界为2εt)。这一性质为策略梯度方法的有效性提供了理论支持,表明其适用于策略参数小幅调整的场景。原创 2025-07-27 09:42:51 · 1288 阅读 · 0 评论 -
cs285 Lecture8
摘要 本文系统分析了深度Q学习(DQN)的核心问题与优化方案。首先指出在线Q学习存在两大关键问题:非梯度下降更新(导致数值不稳定)和样本相关性(违反IID假设)。针对后者提出两种解决方案:并行化数据收集和使用经验回放缓冲区(含新旧样本混合的环形缓冲策略)。其次重点探讨移动目标问题,引入目标网络机制,比较了硬更新与Polyak平均两种参数同步方式的优劣。进一步提出三进程架构(数据收集、目标更新、模型训练),通过差异化频率(数据收集>训练>目标更新)缓解非平稳性问题。最后通过算法演化路径(从Q迭代到原创 2025-07-26 12:56:10 · 1249 阅读 · 0 评论 -
cs285 Lecture7
🔗 GitHub 持续更新仓库(含代码+课件):👉 github.com/CalebCheng819/cs285相比与以往的policy gradient,我们是否可以omit policy gradient。“既然我们能直接找到每个状态的最优动作,为何还要通过梯度更新策略?”我们直接定义一个策略性的π′\pi^\primeπ′π′(at∣st)={1 if at=argmaxatAπ(st,at)0 otherwise \pi^{\prime}\left(\mathbf{a}_t \mid原创 2025-07-25 10:33:00 · 631 阅读 · 0 评论 -
cs285 hw2
文章摘要: 本文介绍了强化学习中的方差缩减技术,包括reward-to-go、折扣因子、基线函数和广义优势估计(GAE)。reward-to-go通过仅考虑未来奖励减少因果性;折扣因子可应用于完整轨迹或reward-to-go。基线函数使用状态无关的value function降低方差。GAE结合n-step估计和λ加权,平衡偏差与方差,提供递归计算形式。在代码实现部分,解决了环境配置中的Box2D和numpy版本冲突问题,并介绍了MLPPolicy中离散和连续动作分布的实现,分别使用Categorical原创 2025-07-24 16:38:25 · 1045 阅读 · 0 评论 -
cs285 lecture 6
本文介绍了强化学习课程CS285 Lecture 6的核心内容,主要聚焦于actor-critic算法框架。首先定义了state-action价值函数Qπ、状态价值函数Vπ和优势函数Aπ,并推导了它们之间的关系。随后讨论了两种价值函数估计方法:蒙特卡洛采样(高方差但无偏)和自举法(低方差但有偏),并引入折扣因子γ解决无限时域问题。 文章详细阐述了actor-critic算法的实现,比较了批量式与在线式的优缺点,并分析了网络架构设计(独立网络vs共享网络)和并行化策略(同步与异步)。原创 2025-07-20 16:02:01 · 794 阅读 · 0 评论 -
cs285 hw1
CS285模仿学习摘要(HW1) 行为克隆(Behavior Cloning)是一种监督学习方法,直接利用专家数据进行训练。关键问题在于训练数据分布$p_{data}(o_t)$与测试分布$p_{\pi_\theta}(o_t)$不匹配。研究表明误差会随决策步数T呈$O(ϵT^2)$增长。存在两个主要问题:(1)非马尔可夫行为:人类决策依赖历史信息;(2)多模态行为:同一状态存在多个可行解,可通过混合高斯、隐变量模型等方法解决。作业分析表明:(1)状态分布差异上界为$2Tϵ$;(2)在仅依赖最终状态和所有状原创 2025-07-16 12:01:06 · 885 阅读 · 0 评论 -
cs285 lec4_and_lec5
CS285课程笔记摘要: 本文整理了CS285课程第4讲的内容,主要介绍强化学习中的马尔可夫决策过程(MDP)及其扩展。首先讲解了马尔可夫链的基本组成(状态空间和转移算子),然后扩展到包含动作和奖励的MDP框架,以及部分可观测MDP(POMDP)中的观测概率。 重点讨论了强化学习的目标:通过策略参数θ最大化期望累积奖励,并推导了无限时域下的平稳分布条件。文章还解释了使用期望值的原因(使目标函数平滑可优化)。最后介绍了Q函数的概念及其在奖励计算中的递归展开形式,这是后续强化学习算法的重要基础。原创 2025-07-18 18:25:28 · 1265 阅读 · 0 评论
分享