运动规划实战进阶:深度强化学习篇
文章平均质量分 97
🔥附DRL运动规划Python代码和权重文件🔥(不含训练框架)主要包含经典强化学习理论(环境与回报、贝尔曼最优等)和深度强化学习模型(DQN、PG、TD3等)🔥订阅后私信博主或在文章底部/博客主页添加博主微信进入技术交流群
余额抵扣
助学金抵扣
还需支付
¥299.90
¥399.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
Mr.Winter`
同济大学控制科学与工程硕士,机器人算法工程师,主攻机器人运动规划方向,业余丰富各种技术栈。优快云原力计划作者、官方内容合伙人;2023新星计划Pytorch赛道导师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
通用人工智能之路:什么是强化学习?如何结合深度学习?
【专栏订阅必读】ChatGPT强大魔力的关键因素之一是应用了强化学习模型,本文系统梳理强化学习中环境、智能体、奖赏、动作、状态等关键概念,并给出深度强化学习框架。原创 2023-07-03 08:46:57 · 8553 阅读 · 29 评论 -
环境搭建 | Gym安装与环境搭建教程(附基本指令表)
强化学习是在潜在的不确定复杂环境中,训练一个最优决策指导一系列行动实现目标最优化的机器学习方法。自从AlphaGo的横空出世之后,确定了强化学习在人工智能领域的重要地位,越来越多的人加入到强化学习的研究和学习中。OpenAI Gym是一个研究和比较强化学习相关算法的开源工具包,包含了许多经典的仿真环境(各种游戏),兼容常见的数值运算库,使用户无需过多了解游戏的内部实现,通过简单地调用就可以用来测试和仿真。OpenAI GymGym开源库:测试仿真环境,这些环境有一个公共的接口且允许用户设计通用的算法。原创 2023-04-20 09:33:37 · 31413 阅读 · 41 评论 -
ONNXRuntime(CUDA版本)源码编译安装与C++部署Pytorch模型教程
ONNXRuntime是一个跨平台的机器学习推理引擎,支持将不同框架训练的模型部署到多种硬件设备。文章首详细说明了编译安装步骤,并以SAC算法为例讲解Pytorch导出模型,并用C++部署调用的案例。原创 2025-10-15 15:14:53 · 5310 阅读 · 1 评论 -
经典强化学习 | 详解K摇臂赌博机模型和ϵ-贪心算法
本文详解单步强化学习的理论模型K摇臂赌博机,引出强化学习中仅利用和仅探索的思想。最后介绍ϵ-贪心算法和softmax算法并给出Python实现,以及各个算法间的对比原创 2023-06-29 09:54:19 · 3929 阅读 · 0 评论 -
经典强化学习 | 策略评估与贝尔曼期望方程详细推导
策略评估是给定一个策略计算策略评估函数的过程,用于衡量策略的好坏。本文从一个例子引出回报与奖赏的概念,并由浅入深推导贝尔曼期望方程,最后给出了收敛性证明,为强化学习的策略评估提供理论保证原创 2023-07-06 08:16:15 · 3763 阅读 · 0 评论 -
经典强化学习 | 策略改进定理与贝尔曼最优方程详细推导
贝尔曼期望方程用于策略评估,那么我们如何借助贝尔曼方程改进策略呢?本节从理论层面推导贝尔曼最优方程和策略改进定理,介绍策略迭代和价值迭代两种算法流程原创 2023-08-03 19:11:01 · 6420 阅读 · 0 评论 -
经典强化学习 | 详细推导蒙特卡洛强化学习原理
在现实的强化学习任务中,转移概率、奖赏函数甚至环境中存在哪些状态往往很难得知,因此引入免模型学习。蒙特卡洛强化学习是免模型学习中的一种,本文介绍蒙特卡洛强化学习中的策略评估原理,以及同轨和离轨策略改进原理,给出详细的公式推导原创 2023-12-04 10:17:43 · 4082 阅读 · 0 评论 -
经典强化学习 | 详解时序差分强化学习(SARSA、Q-Learning算法)
本文介绍另一种免模型学习技术——时序差分强化学习,结合策略评估原理以及常见的SARSA和Q-Learning算法,给出详细的公式推导加深理解原创 2023-12-11 12:21:34 · 3688 阅读 · 0 评论 -
深度强化学习 | 详解基于价值的强化学习DQN算法(附Pytorch实现)
深度Q网络DQN的核心原理是通过经验回放池和目标网络技术拟合高维状态空间,是Q-Learning算法的深度学习版本,本文分析DQN的基本算法,并给出训练实例和实际案例原创 2023-12-26 10:13:22 · 4473 阅读 · 0 评论 -
深度强化学习 | 详解过估计现象与Double DQN算法(附Pytorch实现)
无论Q-Learning还是DQN都存在过估计(overestimation)现象,过估计会导致智能体倾向于选择被高估的动作,可能陷入局部最优策略,降低学习效率和最终性能。本文通过一个案例和公式推导详细阐述了过估计现象产生的原因,并介绍了缓解过估计现象的DQN改进版本DDQN算法,提供了Pytorch实现以及在CartPole-v1任务的训练表现加深理解原创 2025-03-03 11:33:00 · 4582 阅读 · 9 评论 -
深度强化学习 | 基于Double DQN算法的移动机器人路径跟踪(附Pytorch实现)
本文介绍了基于Double DQN(DDQN)的机器人路径跟踪算法。该算法通过互监督机制缓解DQN的过估计问题,并设计了离散动作空间和混合奖励函数,包含时间惩罚、距离引导及碰撞惩罚等要素。最终,通过pytorch进行算法实现加深理解原创 2025-06-16 09:24:33 · 4419 阅读 · 6 评论 -
深度强化学习 | 详细推导随机/确定性策略梯度定理
本文详细推导随机性策略梯度定理和确定性策略梯度定理,为后续基于策略的深度强化学习算法设计奠定理论基础原创 2025-06-11 10:51:54 · 3135 阅读 · 10 评论 -
深度强化学习 | 详解从信赖域策略优化(TRPO)到近端策略优化(PPO)算法原理
本文详细探讨了深度强化学习中经典的信赖域策略优化(TRPO)算法原理——目标函数、约束条件与优化策略,并引出近端策略优化(PPO)算法,详细公式推导加深理解原创 2025-10-27 10:15:44 · 2916 阅读 · 7 评论 -
深度强化学习 | 基于PPO算法的移动机器人路径跟踪(附Pytorch实现)
本文介绍了基于近端策略优化(PPO)算法的机器人路径跟踪方法,阐述了PPO的网络设计、动作空间构建和奖励函数设计,并基于Pytorch实现了移动机器人路径跟踪,为DRL在机器人运动规划中的应用提供了实践参考。原创 2025-12-01 09:16:40 · 2248 阅读 · 11 评论 -
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法
本文系统解析了演员-评论家(Actor-Critic)架构的双网络设计原理:其中Actor网络负责输出确定性动作策略,Critic网络评估动作价值,二者协同优化;接着讲解了基于AC架构的深度确定性策略梯度DDPG算法,提供了网络架构图和算法流程图加深理解原创 2025-07-15 09:09:03 · 3589 阅读 · 4 评论 -
深度强化学习 | 基于DDPG算法的移动机器人路径跟踪(附Pytorch实现)
本文介绍了基于深度确定性策略梯度(DDPG)算法的机器人路径跟踪方法。DDPG算法通过Actor网络建模确定性策略,Critic网络评估动作-价值函数,适用于连续动作空间。文章详细阐述了DDPG的网络设计、动作空间构建和奖励函数设计,并基于Pytorch实现了移动机器人路径跟踪,为DRL在机器人运动规划中的应用提供了实践参考。原创 2025-09-08 09:29:51 · 3240 阅读 · 18 评论 -
深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理
软性演员-评论家(Soft Actor-Critic, SAC)算法是基于最大熵原理的离线策略方法,具有高效的采样效率和泛化能力。本文从最大熵贝尔曼方程的引入动机出发,介绍SAC算法的三个核心参数化步骤与算法流程原创 2025-05-14 14:04:07 · 4231 阅读 · 10 评论 -
深度强化学习 | 基于SAC算法的移动机器人路径跟踪(附Pytorch实现)
软性演员-评论家(Soft Actor-Critic, SAC)算法是基于最大熵原理的离线策略方法,本节将基于深度强化学习中的SAC算法实现移动机器人的路径跟踪,介绍网络设计、动作空间设计和奖励函数设计,并提供Pytorch实现加深理解原创 2025-05-19 10:38:14 · 5208 阅读 · 10 评论 -
深度强化学习 | 基于SAC算法的动态避障(ROS C++仿真)
本文介绍了基于SAC(软性演员-评论家)算法的机器人运动规划方法,通过PyTorch框架实现了端到端训练,并部署到Python和ROS C++中。实验结果显示,基于SAC算法的智能体在动态避障任务中表现良好,能实现从起点到终点的无碰撞导航。原创 2025-10-13 09:14:58 · 6428 阅读 · 11 评论 -
深度强化学习 | 基于DQN实现Flappy Bird游戏与分析
在Flappy Bird中,玩家需要通过控制小鸟安全穿过随机长度的水管来得分。本文基于深度Q网络DQN来实现Flappy Bird游戏的自主探索与学习原创 2023-01-28 08:00:00 · 5598 阅读 · 0 评论 -
经典强化学习 | 基于Q-Learning的机器人走迷宫
在机器人走迷宫中,机器人需要避开所有障碍从起点到达终点。本文基于Q-Learning来实现机器人走迷宫游戏的自主探索与学习原创 2023-12-19 09:46:34 · 6583 阅读 · 22 评论
分享