
强化学习
文章平均质量分 93
贝塔西塔
专注人工智能在电商新零售领域的应用
展开
-
强化学习分层强化学习Option-Critic模型
Option-Critic模型是分层强化学习HRL的一种算法,采用Options框架。通过Temporal Abstraction和分层结构,缓解了sparse reward和long range decision making sequence 问题。同时Options采用端到端学习,不需要人工设计。原创 2025-04-04 09:15:00 · 697 阅读 · 0 评论 -
强化学习DDPG算法
DDPG在连续动作空间训练强化学习模型,给出DDPG的代码,同时对比随机策略梯度和确定策略梯度的区别原创 2025-04-03 15:58:41 · 519 阅读 · 0 评论 -
强化学习-分层强化学习Options框架
Options Framework 通过分层抽象,将复杂任务分解为可管理的子任务,显著提升了强化学习在长周期、稀疏奖励场景下的性能。它是分层强化学习(HRL)的核心方法之一,也是解决复杂决策问题的重要工具。它的核心思想是将复杂的任务分解为多个子任务(称为。),每个 Option 可以看作一个可重用的“技能”或“子策略”,允许智能体在不同时间尺度上进行决策。,让智能体在更高层次上规划(选择 Option),在低层次上执行具体动作,从而简化学习过程。原创 2025-04-02 11:16:11 · 589 阅读 · 0 评论 -
强化学习GAE优势函数
强化学习优势函数广义优势估计GAE原理和代码原创 2025-04-01 22:58:52 · 842 阅读 · 0 评论 -
强化学习PPO算法
PPO的提出是为了解决传统策略梯度方法的。,在保证训练稳定性的同时简化了实现,成为目前最主流的强化学习算法之一。其核心思想是限制策略更新的幅度,避免因单次更新过大导致策略性能崩溃。(Importance Sampling),在保证训练稳定性的同时简化了实现。是优势函数(Advantage Function),衡量动作的好坏。通过梯度上升更新参数 (\theta),确保策略更新在可控范围内。同时给出PPO的代码原创 2025-04-01 22:45:49 · 915 阅读 · 0 评论