强化学习
文章平均质量分 94
rockray21
我只是知识的搬运工
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MADRL(多智能体深度强化学习)
MADRL(多智能体深度强化学习)《多Agent深度强化学习综述》《多Agent深度强化学习综述》从多 agent 深度强化学习中通信过程的角度对现有的多 agent 深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策三种主流形式。当前 DRL 的两个主要方向 – 深度 Q 网络和深度策略梯度。一种是用神经网络函数近似Q网络,另一种是将状态空间映射到动作空间的函数或者分布,策略优化的目标是寻找最优的策略映射。两者针对的过程不同连续动作空间的策略梯度算法分为随机策原创 2021-01-23 09:52:00 · 15025 阅读 · 2 评论 -
procgen
如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。参考链接:http://www.atyun.com/47688.html官网:https://openai.com/blog/procgen-benchmark/github:https://github.com/openai/procgen论文:https://cdn.openai.com/procgen.pdf比赛网站:https://www.aicrowd.com/challenges原创 2020-12-23 21:45:16 · 1304 阅读 · 1 评论 -
Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving
如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。论文没有给源代码原文地址:https://arxiv.org/pdf/1610.03295.pdf参考链接:https://zhuanlan.zhihu.com/p/25673276Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving自动驾驶过程实际上是多智能体决策的问题本文把机器学习的方法应用于高级驾驶策略的选择原创 2020-12-20 20:12:35 · 714 阅读 · 0 评论 -
Constrained Policy Optimization——UC Berkeley
如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。约束型策略优化算法Joshua Achiam(UC Berkeley)原为链接:https://arxiv.org/pdf/1705.10528.pdf参考链接:https://www.sohu.com/a/155588306_465975我们的方法——约束型策略优化(Constrained Policy Optimization——CPO),可以确保智能体在学习过程中的每一步都满足约束条件原创 2020-12-17 16:58:47 · 2347 阅读 · 0 评论 -
PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning
PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning如有错误,欢迎指正摘要介绍如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。摘要最先进的计算机视觉算法通常通过对下一步要探索的假设进行离散选择来获得效率。这允许将计算资源分配给有希望的候选者,然而,这样的决定是不可微的。因此,这些算法很难进行端到端的训练。在这项工作中,我们提出学习一原创 2020-10-07 21:06:49 · 562 阅读 · 0 评论 -
ICLR 2020 多智能体强化学习论文总结
ICLR 2020 多智能体强化学习论文总结如有错误,欢迎指正所引用内容链接Multi-Agent RL1.Multi-agent Reinforcement Learning For Networked System Control2.Intrinsic Motivation For Encouraging Synergistic Behavior3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies4原创 2020-09-29 11:23:04 · 5845 阅读 · 0 评论 -
Intrinsic Motivation For Encouraging Synergistic Behavior
Intrinsic Motivation For Encouraging Synergistic Behavior如有错误,欢迎指正摘要1 introduction3 approach3.1 COMPOSITIONAL PREDICTION ERROR AS AN INTRINSIC REWARD3.2 PREDICTION DISPARITY AS A DIFFERENTIABLE INTRINSIC REWARD3.3 LEARNING SPARSE-REWARD SYNERGISTIC TASKS4原创 2020-09-28 10:48:09 · 540 阅读 · 0 评论 -
Meta-Q-Learning
Meta-Q-Learning如有错误,欢迎指正摘要Introductionbackground如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.如有侵权,请私信本人。参考链接:https://zhuanlan.zhihu.com/p/109064006.摘要介绍了元强化学习(Meta-Q-Learning,MQL)的一种新的off-policy算法Meta-RL。MQL建原创 2020-09-27 16:38:57 · 1547 阅读 · 0 评论 -
AAAI 2020多智能体强化论文
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接Multi-Agent RL1. Partner Selection for the Emergence of Cooperation in Multi‐Agent Systems using Reinforcement Learning2. Neighborhood Cognition Consistent Multi‐Agent Reinforcement Learning3. SMIX( ): Enhancing Centralized Value原创 2020-09-23 15:54:51 · 1132 阅读 · 1 评论 -
2020ICML多智能体强化学习论文简介
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接强化学习论文汇总2020如有错误,欢迎指正本篇为自我学习过程中的要点记录,仅作学习使用。所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。所引用内容链接强化学习论文汇总2020...原创 2020-09-22 10:10:48 · 3453 阅读 · 0 评论 -
元强化学习初步
元强化学习如有错误,欢迎指正所引用内容链接元学习元学习方法HyperNetwork 生成参数Conditional Neural Network 条件神经网络MAML 基于梯度的做法优缺点元强化学习概念元强化学习背景元强化学习内容元参数未来方向个人感想如有错误,欢迎指正本篇为自我学习过程中的要点记录,仅作学习使用。所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。所引用内容链接让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法: https://www.leiphone.c原创 2020-09-19 18:31:47 · 2069 阅读 · 0 评论 -
Deep Reinforcement Learning amidst Lifelong Non-Stationarity
Deep Reinforcement Learning amidst Lifelong Non-Stationarity)摘要introductionDPMDPPreliminaries: RL as InferenceA Probabilistic Graphical Model for RLVariational InferenceOff-Policy Reinforcement Learning in Non-Stationary EnvironmentsNon-stationarity as a P原创 2020-09-18 14:54:47 · 670 阅读 · 2 评论
分享