
强化学习
文章平均质量分 77
chenjinxu2003
简单写点
展开
-
强化学习数学原理学习(六)
QAC通过结合Actor的策略更新和Critic的价值更新,引入一种更高效的强化学习机制,使策略能够更快速和更准确地适应环境变化,非常适合于需要快速反馈和实时响应的复杂任务。原创 2024-11-20 11:41:18 · 799 阅读 · 0 评论 -
强学学习数学原理学习(五)
状态值函数V(s): 表示从状态 s 开始并持续遵循策略 π 所能获得的期望总回报。动作值函数Q(s,a): 表示在状态 s 执行动作 a,然后继续遵循策略 π 所能获得的期望总回报。值近似通常涉及使用参数化函数 fθ(s) 或fθ(s,a),其中 θ 是参数向量,估计值函数或策略。原创 2024-11-19 15:36:56 · 411 阅读 · 0 评论 -
强化学习数学原理学习(四)
今天是时序差分学习。原创 2024-11-19 15:23:02 · 928 阅读 · 0 评论 -
强化学习数学原理学习(二)
要来到贝尔曼公式啦。原创 2024-10-28 22:45:42 · 451 阅读 · 0 评论 -
强化学习数学基础学习(三)
这次是蒙特卡洛方法。原创 2024-10-29 21:37:06 · 1150 阅读 · 0 评论 -
强化学习数学原理学习(一)
总之开始学!原创 2024-10-26 22:16:19 · 348 阅读 · 0 评论