RL论文

https://zhuanlan.zhihu.com/p/21378532?refer=intelligentunit

通用解决框架DQN:

DQN:Playing Atari with Deep Reinforcement Learning

Nature DQNHuman-levelcontrol through deep reinforcement learning

Nature DQN:Human-level Control Through Deep Reinforcement Learning

 

简介文:

RL:reinforcement learningan introduction

POMDP方向:Partially Observable Markov Decision Processes

 

数据集上的改进:

优先经验回放方法:PrioritizedExperience Replay

 

训练上的改进:

异步训练(A3C):AsynchronousMethods for Deep Reinforcement Learning

 

网络结构上的改进:

增加RNN:DeepRecurrent Q-Learning for Partially Observable MDP

增加TL:Actor-Mimic:Deep Multitask and Transfer Reinforcement Learning

评估单独动作价值:DuelingNetwork Architectures for Deep Reinforcement Learning

增加LSTM的DRQN:Deep Recurrent Q-Learning for Partially Observable MDPs

 

基于最优解计算结构的改进:

Target Q的改进:DeepReinforcement Learning with Double Q-learning

置信域策略优化(TRPO):Trust Region Policy Optimization

 

基于Actor的PG方向:

基础:Policy Gradient Methods for Reinforcement Learning with FunctionApproximation

对数似然项解读:Why we consider log likelihood instead of Likelihood in GaussianDistribution

DPG算法:Deterministic Policy Gradient Algorithms

DDPG算法:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

 

扩展应用领域的改进:

解决高难度游戏:UnifyingCount-Based Exploration and Intrinsic Motivation

连续控制上面:ContinuousDeep Q-Learning with Model-based Acceleration

 

 

平台:

SC2:StarCraft II: A New Challenge for Reinforcement Learning

elf:ELF: An Extensive, Lightweight and Flexible Research Platformfor Real-time Strategy Games


### PINNs与强化学习的结合及其应用 #### 背景介绍 Physics-Informed Neural Networks (PINNs) 是一种将物理约束嵌入神经网络训练过程的方法,其核心在于通过偏微分方程(PDEs)或其他物理规律来指导模型的学习行为[^1]。这种方法能够显著提升数据驱动模型在物理学相关任务中的表现,尤其是在缺乏大量标注数据的情况下。 另一方面,强化学习(Reinforcement Learning, RL)是一种基于试错机制的学习方法,在动态环境中寻找最优策略。RL 的目标通常是对环境状态进行建模并最大化累积奖励函数。然而,传统的 RL 方法可能面临样本效率低下的问题,特别是在连续控制场景下[^3]。 当 PINNs 和 RL 结合时,可以通过引入物理先验知识改善 RL 中的状态空间探索能力以及收敛速度。这种组合特别适合于涉及复杂动力学系统的应用场景,例如机器人运动规划、自动驾驶车辆路径优化等领域。 #### 应用案例分析 ##### 1. 动力学系统模拟与控制 在一个典型的机械臂控制系统设计过程中,如果采用纯经验型的数据拟合法,则很难满足实际工程需求;但如果借助 PINN 来构建精确的动力学模型,并将其融入到 actor-critic 架构之中,则不仅可以提高动作预测精度,还能减少实验次数从而降低成本[^4]。 ```python import torch from torch import nn class PhysicsInformedNN(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(PhysicsInformedNN, self).__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.fc2 = nn.Linear(hidden_dim, hidden_dim) self.out_layer = nn.Linear(hidden_dim, output_dim) def forward(self, x): out = torch.tanh(self.fc1(x)) out = torch.tanh(self.fc2(out)) return self.out_layer(out) # Example usage within a reinforcement learning framework. def compute_loss(model, states, actions, rewards, next_states): predicted_next_state = model(torch.cat([states, actions], dim=1)) # Use PINN here physics_constraint_loss = ... # Define based on known PDE or ODE system reward_estimation_error = ... total_loss = physics_constraint_loss + reward_estimation_error return total_loss ``` ##### 2. 流体力学中的决策支持 对于某些高维非线性的流场问题来说,单纯依靠数值求解器难以快速响应实时变化条件的要求。此时可考虑把 PINN 设计成价值函数近似器的一部分,用于辅助评估不同操作方案的效果,进而引导智能体做出合理的选择[^2]。 --- #### 教程资源推荐 - **官方文档**: PyTorch 提供了一个关于如何实现自定义损失项的例子,这正是创建 PINN 所需的基础技能之一。 - **学术论文**: 参考文献中提到的研究成果展示了多种具体实例,比如利用 PINN 改善马尔科夫决策过程(Markov Decision Process)[^4]。 - **在线课程**: Coursera 上开设有专门讲解机器学习应用于金融交易方面的系列讲座,其中部分内容涉及到类似技术的应用思路。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值