
强化学习
文章平均质量分 91
找不到服务器zhn
Talk is cheap. Show me the code
展开
-
强化学习复现笔记(3)Robbins-Monro算法证明
都没证完,感觉都有问题。原创 2023-06-22 11:09:44 · 1038 阅读 · 0 评论 -
[翻译]一种基于学习的脉冲机动轨道追逃博弈的高效算法
本文利用基于人工智能的方法全面研究了脉冲轨道追逃博弈(Orbital Pursuit-Evasion Games, OPEGs)的问题。首先,构建了追逐者和逃避者都通过施加脉冲速度增量来执行轨道机动的脉冲OPEG数学模型。其次,将脉冲OPEG问题转化为在终端时间方面具有最小-最大优化指数和机动性、总燃料消耗、任务时间等多重约束的双边优化问题。为了确定双方的最优脉冲动作,在多智能体强化学习框架中设计了一种PRD-MADDPG(预测-奖励-检测多智能体深度确定性策略梯度)算法。翻译 2023-06-15 23:22:56 · 3499 阅读 · 15 评论 -
强化学习复现笔记(2)策略迭代
上一节的压缩映射在实际迭代时可以分成两种方法,分别称作值迭代和策略迭代。本文用走迷宫的例子(将1维迷宫扩展到2维)讲这两种迭代。对应第一节参考链接[2]的前4章。原创 2023-06-14 11:01:58 · 761 阅读 · 0 评论 -
强化学习复现笔记(1)基本概念
一条线上包含起点和终点共有6个格子,起点在左终点在右。假设智能体已经学到了最优的策略,并且在每一步行动时,以 $0.9$ 的概率选择最优策略(也就是往右),以 $0.1$ 的概率选择随机策略。各个概念的定义见文末参考链接,本文举实际的数值例子帮助理解。原创 2023-05-26 18:42:37 · 1058 阅读 · 0 评论 -
使用深度Q网络(Deep Q Network)学习控制倒立摆
我们将尝试使用Deep Q网络(通常称为DQN)来解决单摆向上的问题,该网络结合了Q学习(一种强化学习方法)和深度神经网络。{我完全不会日语,很多表达可能跟原文完全不一样。}翻译 2023-05-05 23:14:50 · 488 阅读 · 0 评论