强化学习
文章平均质量分 80
patrickpdx
目前为研究生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习数学基础(3)
Reinforcement Learning原创 2025-03-09 15:20:01 · 1046 阅读 · 0 评论 -
强化学习的数学基础(2)
强化学习的数学基础(2)原创 2025-03-05 13:02:32 · 632 阅读 · 0 评论 -
强化学习的数学基础(1)
参考书籍:1.Reinforcement Learning State-of-the-Art, Marco Wiering2.Reinforcement learning: An introduction, RS SuttonSuppose that there is an interactive system as follows which consists of an environment and an agent.Its running process is described as fo原创 2025-03-04 16:32:18 · 480 阅读 · 0 评论 -
Soft Actor-Critic (SAC)算法
假设对随机变量ξ,存在两个概率分布PQ。如果ξ为离散随机变量,定义从P到QDKLP∣∣Qi∑PilnQiPi如果ξ为连续随机变量,定义从P到QDKLP∣∣Q∫−∞∞pxlnqxpxdx。原创 2025-02-19 17:56:41 · 952 阅读 · 0 评论 -
多智能体强化学习论文导读
Adaptive Value Decomposition with Greedy Marginal Contribution Computation for Cooperative Multi-Agent Reinforcement Learning原创 2023-04-12 11:04:14 · 1190 阅读 · 0 评论 -
Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition论文导读
coach agent 能够观测到global state, 并可以根据global state产生信息发送给agent, 信息是定长的, 文中称为strategy, 是一个vector, 记作。. agent采取策略的时候将会参考coach agent发送的strategy信息. coach agent并不是每个step都给agent发送信息, 而是每。的目标. 此目标函数第1项表示: 完成这项任务的agent中能力最大的agent的评分, 第2项表示: 1-被派去的agent的数量.原创 2023-04-10 16:09:13 · 516 阅读 · 0 评论 -
强化学习论文中的算法框图
摘自 Ding, R., Xu, Y., Gao, F., & Shen, X.(. (2022). Trajectory Design and Access Control for Air–Ground Coordinated Communications System With Multiagent Deep Reinforcement Learning. IEEE Internet of Things Journal, 9, 5785-5798.摘自 Zhang, W., Wang, Q., Liu原创 2022-06-03 11:13:29 · 1299 阅读 · 1 评论 -
强化学习 reward 曲线的绘制
每隔一段取一个均值,然后把均值曲线绘制出来,包含全部点的曲线淡化处理摘自 Z. Mou, Y. Zhang, F. Gao, H. Wang, T. Zhang and Z. Han, “Deep Reinforcement Learning based Three-Dimensional Area Coverage with UAV Swarm,” in IEEE Journal on Selected Areas in Communications, doi: 10.1109/JSAC.2021.3.原创 2022-05-21 17:56:15 · 11234 阅读 · 2 评论 -
强化学习重点文献汇总
强化学习重点文献总结原创 2022-03-13 20:42:35 · 6719 阅读 · 0 评论 -
如何给python环境安装OpenAI的Multi-Agent Particle Environment库
完整克隆整个代码包记下地址,例如 C:\Users\ABC\Downloads\multiagent-particle-envs-master打开 Anaconda Promptactivate + 你创建的环境的名称输入pip install -e C:\Users\ABC\Downloads\multiagent-particle-envs-master安装完成参考博客......原创 2022-02-22 23:01:48 · 3741 阅读 · 0 评论 -
Policy Gradient Algorithm
Policy Gradient Algorithms连续动作空间我们可以把待求的π∗(s)\pi^{*}(s)π∗(s)看作是一个stochastic policy:π∗(a∣s)={1a=π∗(s)0a≠π∗(s)\pi^{*}(a|s)=\left\{\begin{array}{rcl}1 & & {a=\pi^{*}(s)}\\0 & & {a\neq \pi^{*}(s)}\end{array} \right.π∗(a∣s)={10a=π∗(s)原创 2021-11-13 23:26:44 · 1131 阅读 · 0 评论
分享