深度增强学习方向论文整理

最新推荐文章于 2025-05-28 15:31:44 发布

qunnie_yi

最新推荐文章于 2025-05-28 15:31:44 发布

阅读量2.7k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能深度增强学习论文 DQN DRL

本文链接：https://blog.youkuaiyun.com/qunnie_yi/article/details/80127048

本文详细梳理了深度增强学习领域的经典论文，包括开山鼻祖DQN及其算法与模型改进，如 Dueling Network、Prioritized Experience Replay 等。还探讨了策略梯度、分层DRL、多任务学习、探索与利用问题，以及在机器人控制、机器翻译、游戏等多个应用场景的进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文为知乎专栏作者Alex-zhai原创，已授权优快云转载。
责编：王艺

一. 开山鼻祖DQN

Playing Atari with Deep Reinforcement Learning，V. Mnih et al., NIPS Workshop, 2013.
Human-level control through deep reinforcement learning, V. Mnih et al., Nature, 2015.

二. DQN的各种改进版本（侧重于算法上的改进）

Dueling Network Architectures for Deep Reinforcement Learning. Z. Wang et al., arXiv, 2015.
Prioritized Experience Replay, T. Schaul et al., ICLR, 2016.
Deep Reinforcement Learning with Double Q-learning, H. van Hasselt et al., arXiv, 2015.
Increasing the Action Gap: New Operators for Reinforcement Learning, M. G. Bellemare et al., AAAI, 2016.
Dynamic Frame skip Deep Q Network, A. S. Lakshminarayanan et al., IJCAI Deep RL Workshop, 2016.
Deep Exploration via Bootstrapped DQN, I. Osband et al., arXiv, 2016.
How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies, V. François-Lavet et al., NIPS Workshop, 2015.
Learning functions across many orders of magnitudes，H Van Hasselt，A Guez，M Hessel，D Silver
Massively Parallel Methods for Deep Reinforcement Learning, A. Nair et al., ICML Workshop, 2015.
State of the Art Control of Atari Games using shallow reinforcement learning
Learning to Play in a Day: Faster Deep Reinforcement Learning by Optimality Tightening（11.13更新）
Deep Reinforcement Learning with Averaged Target DQN（11.14更新）

三. DQN的各种改进版本（侧重于模型的改进）

Deep Recurrent Q-Learning for Partially Observable MDPs, M. Hausknecht and P. Stone, arXiv, 2015.
Deep Attention Recurrent Q-Network
Control of Memory, Active Perception, and Action in Minecraft, J. Oh et al., ICML, 2016.
Progressive Neural Networks
Language Understanding for Text-based Games Using Deep Reinforcement Learning
Learning to Communicate to Solve Riddles with Deep Distributed Recurrent Q-Networks
Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
Recurrent Reinforcement Learning: A Hybrid Approach

四. 基于策略梯度的深度强化学习

深度策略梯度：

End-to-End Training of Deep Visuomotor Policies
Learning Deep Control Policies for Autonomous Aerial Vehicles with MPC-Guided Policy Search
Trust Region Policy Optimization

深度行动者评论家算法：

Deterministic Policy Gradient Algorithms
Continuous control with deep reinforcement learning
High-Dimensional Continuous Control Using Using Generalized Advantage Estimation

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qunnie_yi

关注关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度强化学习 DQN系列论文

01-31

深度强化学习系列论文，包括最基础的DQN，DQN模型改进，DQN算法改进，分层DRL，基于策略梯度的深度强化学习等等，论文基本源自顶会

超全！深度强化学习领域值得一读的论文列表

超级超级小天才的博客

06-15

2718

参考自：https://spinningup.openai.com/en/latest/spinningup/keypapers.html 强烈建议直接去看原文，每一篇文献都有链接以下是深度强化学习（Deep Reinforcement Learning）中值得一读的论文，实际上，这些远远不够全面，但应该能为希望在该领域上进行研究的人提供一个有用的起点。 Model-Free RL Deep Q-Learning [1] Playing Atari with Deep Reinforcement Le.

参与评论您还未登录，请先登录后发表或查看评论

【论文阅读】Asynchronous Methods for Deep Reinforcement Learning

m0_53883779的博客

05-28

958

（1）优势：异步并行：多线程探索覆盖环境的不同区域，数据多样性替代了经验回放。优势函数：通过Critic的价值评估，策略更新更稳定，方差更低。熵正则化：平衡探索与利用，避免策略过早僵化。（2）局限性：数据效率仍低于经验回放方法（如DQN）。未来可结合分布式计算框架（如多机训练）或改进优势估计方法（如GAE）。

深度强化学习用于对话生成（论文笔记）

渣渣宇不懂NLP

12-28

3659

一、如何定义一个好的对话尽管SEQ2SEQ模式在对话生成方面取得了成功，但仍出现了两个问题（图1）：通过使用最大似然估计(MLE)目标函数预测给定会话上下文中的下一个对话转角来训练SEQ2SEQ模型。SEQ2SEQ模型倾向于生成概率较大、高度通用的回答，比如“我不知道”，而不管输入是什么。然而，“我不知道”显然不是一个好的行动，因为它结束了谈话。系统被困在一个无限循环的重复...

必看！52篇深度强化学习收录论文汇总 | AAAI 2020

AI科技大本营

01-19

6854

所有参与投票的优快云用户都参加抽奖活动群内公布奖项，还有更多福利赠送来源 |深度强化学习实验室（ID:Deep-RL）作者 |DeepRLAAAI 2020 共收到的有效论文投...

增强学习论文记录

qxin的专栏

02-05

2255

< HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION > John Schulman, Philipp Moritz, Sergey Levine, Michael I. Jordan and Pieter Abbeel Department of Electrical Engineerin

整理的计算机视觉/深度学习/机器学习相关方向的论文

05-29

计算机视觉、深度学习和机器学习是当今信息技术领域最活跃的研究方向之一，它们在人工智能的发展中起着核心作用。这些技术已经广泛应用于图像识别、自动驾驶、医疗影像分析、虚拟现实、增强现实等多个领域。本压缩包...

每日整理搜集 3D 视觉相关论文：聚焦 VSLAM、计算机视觉与深度学习方向

最新发布

08-13

为方便研究者和工程师们更好地跟踪和学习3D视觉领域的最新发展，提供了相关的论文和研究成果的整理与搜集，特别是聚焦在VSLAM、计算机视觉和深度学习这些关键方向。这些材料的整理工作不仅为专业人士提供了宝贵的...

精品--年以来基于深度学习方法的事件抽取论文整理.zip

02-05

【标题】中的“年以来基于深度学习方法的事件抽取论文整理”表明这个压缩包包含的是一系列关于深度学习在事件抽取领域的研究论文集合。事件抽取是自然语言处理（NLP）中的一个重要子领域，旨在从非结构化的文本中...

深度学习纯小白如何从零开始写第一篇论文？看完这篇豁然开朗！_计算机深度学习如何写出一篇论文

2401_84248681的博客

05-02

1467

论文摘要就是整篇文章和浓缩预览，它被排放在论文的首要位置，也是审稿人首先看的地方。公式：研究的目的和重要性**+研究的方法+得到的研究结果****+结论**⚡️摘要是一整段不要在摘要里出现感情色彩的评价一般在200-300字左右，具体看期刊。

Deep Reinforcement Learning Papers 强化学习论文集

suluoyuqing的博客

03-20

4646

Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. The papers are organized based on manually-defined bookmarks. They are sorted by time to see th

必看，61篇NeurIPS深度强化学习论文解读都这里了

AI科技大本营

09-12

2068

作者 |DeepRL来源 |深度强化学习实验室（ID: Deep-RL）NeurIPS可谓人工智能年度最大盛会。每年全球的人工智能爱好者和科学家都会在这里聚集，发布最...

深度强化学习的未来趋势与发展方向

AI天才研究院

12-27

629

1.背景介绍深度强化学习(Deep Reinforcement Learning, DRL)是一种结合了深度学习和强化学习的人工智能技术，它具有很强的学习能力和泛化能力，已经在许多复杂的应用场景中取得了显著的成果，例如游戏、机器人、自动驾驶、人工智能等。随着数据量的增加、计算能力的提升和算法的不断发展，深度强化学习的应用范围和深度也在不断扩大。在这篇文章中，我们将从以下几个方面进行深入探讨...

论文阅读 |【Robotics】Monte Carlo tree search with spectral expansion for planning with dynamical systems

m0_61750953的博客

12-18

1770

与其他方法相比，SETS通过利用系统局部线性化的谱信息来构造一个低复杂度且近似等效的离散问题表示，从而实现了对连续动态系统的高效规划。通过一系列实验验证，包括无人机在复杂风场中的路径规划、地面车辆与人类协同驾驶以及空间探测器编队捕获目标等，展示了SETS在解决实际问题上的有效性和普适性。总的来说，SETS提供了一种有效的解决方案，使得机器人能够在高维连续动力学系统中进行实时的最优决策制定，有望推动自主机器人技术的发展并拓展其应用领域。

逆向强化学习：从专家行为中推断奖励函数

AI架构师小马

04-25

1221

1. 背景介绍强化学习 (Reinforcement Learning, RL) 已成为人工智能领域研究的热点之一，其核心思想是通过与环境的交互学习最优策略。传统的强化学习方法通常需要预先定义奖励函数，用于衡量智能体在环境中的表现。然而，在许多实际应用中，奖励函数难以定义或难以准确描述任务目标。逆向强化学习 (Inverse Rei

【论文笔记】强化学习DQN专题经典论文6篇

Xixoqw的博客

09-23

8109

论文列表详见：openAI spinning-up key paper list

强化学习进阶【逆强化学习】

小小何先生的学习之旅

08-28

7163

最早的模仿学习是行为克隆，行为克隆的方法只能模仿轨迹，无法进行泛化。而逆向强化学习是从专家（人为）示例中学到背后的回报函数，能泛化到其他情况，因此属于模仿到了精髓。 [1] Apprenticeship learning via inverse reinforcement learning （2004年学徒学习） [2] Maximum Margin Planning (2006年最大边际规划) [3] Inverse reinforcement learning through structur

<纯干货-5>Deep Reinforcement Learning深度强化学习_论文大集合