
强化学习
文章平均质量分 94
强化学习数学基础与实践案例分享
镰刀韭菜
视野,意志,品格;目标,坚持,实践
展开
-
【强化学习】动手学强化学习:多臂老虎机问题
强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习()范式。在正式学习强化学习之前,我们需要先了解多臂老虎机问题,它可以被看作简化版的强化学习问题。与强化学习不同,多臂老虎机不存在状态信息,只有动作和奖励,算是最简单的“和环境交互中的学习”的一种形式。多臂老虎机中的探索与利用(vs.)问题一直以来都是一个特别经典的问题,理解它能够帮助我们学习强化学习。执行能够获得已知最优收益的决策尝试更多可能的决策,不一定会是最优收益形式化序列决策问题如下:探索:可能发现更好的策略。原创 2023-06-22 08:00:00 · 1037 阅读 · 0 评论 -
【强化学习】强化学习数学基础:Actor-Critic方法
方法是一个非常重要的policy gradient methods。这一类方法强调的一种整合策略梯度和value-based方法的结构。什么是“actor”和“critic。原创 2023-03-15 23:30:00 · 1221 阅读 · 0 评论 -
【强化学习】强化学习数学基础:策略梯度方法(Policy Function Approximation)
策略梯度方法是一种强化学习算法,用于寻找最优策略。其思想是直接优化策略参数,使其最大化长期奖励。该方法使用梯度下降来更新策略参数,通过采样一组动作序列,计算出每个动作对应的概率,然后利用梯度信息来调整这些概率,使得累积奖励更高。策略梯度方法具有良好的收敛性和可扩展性,并且在处理高维状态和连续动作空间等实际问题上具有很好的适用性,因此得到了广泛的应用。原创 2023-03-13 23:30:00 · 888 阅读 · 1 评论 -
【强化学习】强化学习数学基础:值函数近似
值函数近似方法是一种强化学习算法,用于估计最优价值函数。其基本思想是利用函数逼近的方法,通过一些参数化的函数来估计状态或状态动作对的价值函数。这些函数通常是线性的或非线性的神经网络,通过观察环境的状态和奖励信号,学习如何预测长期奖励。值函数近似方法可以用来解决高维状态空间和连续动作空间问题,同时可以实现基于经验的学习,允许代理从交互中学习并优化策略。原创 2023-03-10 20:01:11 · 1304 阅读 · 0 评论 -
【强化学习】强化学习数学基础:时序差分方法
强化学习的数学基础:时序差分方法,介绍TD learning方法、Sarsa算法,Expected Sarsa算法,n-step Sarsa算法,并最终介绍Q-learning算法。原创 2023-03-08 23:45:00 · 708 阅读 · 0 评论 -
【强化学习】强化学习数学基础:随机近似理论与随机梯度下降
强化学习数学基础:随机近似理论与随机梯度下降:SGD, BGD, MBGD RM算法原创 2023-03-06 22:08:25 · 1376 阅读 · 3 评论 -
【强化学习】强化学习数学基础:蒙特卡洛方法
强化学习数学基础:蒙特卡洛方法,包括最优性和探索性的内容原创 2023-03-03 21:38:06 · 2272 阅读 · 3 评论 -
【强化学习】强化学习数学基础:值迭代与策略迭代
强化学习数学基础:值迭代与策略迭代原创 2023-02-28 23:45:00 · 2347 阅读 · 1 评论 -
【强化学习】强化学习数学基础:贝尔曼最优公式
强化学习数学基础:贝尔曼最优公式原创 2023-02-27 23:45:00 · 1514 阅读 · 0 评论 -
【强化学习】强化学习数学基础:贝尔曼公式
强化学习数学原理,state value和action value,贝尔曼公式原创 2023-02-24 23:45:00 · 2279 阅读 · 2 评论 -
【强化学习】强化学习数学基础:基本概念
强化学习是机器通过与环境交互来实现目标的一种计算方法。机器与环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。原创 2023-02-22 23:45:00 · 1183 阅读 · 0 评论