
DRL
文章平均质量分 92
CODE_RabbitV
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【深度强化学习 DRL 快速实践】稀疏奖励问题 sparse reward
比如,你要用强化学习让一个机械手臂学会开门,训练过程中只有开门成功后才能获得对应的奖励 【sparse reward】:想办法设计一些辅助的 reward 来引导 agent 实现你想要的目标:例如手臂朝门移动就给一点 reward。:增加一个 Curiosity 奖励项,鼓励冒险 (偏向导致难以预测的。:从宏观大任务,再拆解完成小任务 (如下图,粉红色的标识就是高层的规划):任务由简单开始,逐渐增加难度。原创 2025-04-26 18:21:02 · 384 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】Deep Q-learning
Q-learning 快速实践:model-free, off-policy, Value-based原创 2025-04-26 14:08:55 · 1025 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】近端策略优化 (PPO)
一种基于信赖域优化的强化学习算法,旨在克服传统策略梯度方法在更新时不稳定的问题,采用简单易实现的目标函数来保证学习过程的稳定性。原创 2025-04-25 23:05:55 · 1402 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】逆向强化学习算法 (IRL)
在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励我们不知道奖励函数缺失的但是我们有专家的示范轨迹(比如专家怎么开车、怎么走路):τs0a0s1a1sTτs0a0s1a1sT推断出奖励函数,使得专家行为在该奖励下是最优的简单来说,IRL 是"从专家行为中推断动机"TheactorDefine aactorTheactorOutput the。原创 2025-04-25 22:29:21 · 1467 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】异步优势演员评论员算法 (A3C)
A3C 快速实践:model-free, on-policy, actor-critic, stochastic 策略原创 2025-04-25 19:03:56 · 1002 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】Value-based 方法总结
方法是否无偏方差水平特点是高基于完整回合真实回报进行无偏估计,适合无模型环境否低只看一步,收敛速度快、稳定,但引入了偏差在实际应用中,TD 方法(如 SARSA、Q-learning)最为广泛使用,因为它无需完整轨迹,学习效率更高。原创 2025-04-25 17:59:51 · 997 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】策略梯度算法 (PG)
PG 快速实践:model-free, on-policy, PG, stochastic 策略原创 2025-04-25 17:16:24 · 1274 阅读 · 0 评论 -
【深度强化学习 DRL 快速实践】深度确定性策略梯度算法 (DDPG)
DDPG 快速实践:model-free, off policy, actor-critic, deterministic 策略原创 2025-04-25 12:53:56 · 1079 阅读 · 0 评论