Representation RL : DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototyp

ICML 2022
paper
code

Intro

Dreamer系列的model-based的方法需要通过解码器,将状态 z t = [ h t , s t ] z_{t}=[h_{t},s_{t}] zt=[ht,st]重构为观测状态进而优化世界模型。这导致面对高位图像输入时计算复杂度高。
J D R E A M E R = ∑ t = 1 T E q [ log ⁡ p ( o t ∣ h t , s t ) ⏟ J o t + log ⁡ p ( r t ∣ h t , s t ) ⏟ J R t − D K L ( q ( s t ∣ h t , o t ) ∥ p ( s t ∣ h t ) ) ⏟ J K L t ] \mathcal{J}_{\mathrm{DREAMER}}=\sum_{t=1}^{T}\mathbb{E}_{q}[\underbrace{\log p(o_{t}\mid h_{t},s_{t})}_{\mathcal{J}_{\mathrm{o}}^{t}}+\underbrace{\log p(r_{t}\mid h_{t},s_{t})}_{\mathcal{J}_{\mathrm{R}}^{t}}-\underbrace{D_{\mathrm{KL}}(q(s_{t}\mid h_{t},o_{t})\parallel p(s_{t}\mid h_{t}))}_{\mathcal{J}_{\mathrm{KL}}^{t}}] JDREAMER=t=1TEq[Jot logp(otht,st)+JRt logp(rtht,st)J

### 关于深度强化学习中的状态-动作表示学习 在深度强化学习(DRL)领域,状态-动作表示学习是一个核心主题。该过程旨在使代理能够有效地从环境中提取有用特征并构建有意义的状态和动作表征。 #### 表示学习的重要性 有效的状态-动作表示对于提高策略性能至关重要。当代理能够在高维输入空间中识别出重要的模式时,可以更高效地探索环境,并更快收敛至最优解。这种能力尤其体现在视觉输入的任务上,例如游戏或机器人导航,在这些场景下原始像素数据通常作为观测的一部分[^1]。 #### 方法论概述 为了实现高质量的状态-动作表示,研究者们提出了多种方法: - **自监督预训练**:利用未标记的数据预先训练模型以捕捉潜在结构,之后再针对特定任务微调参数。 - **对比学习**:通过最大化正样本对之间的一致性和最小化负样本间的相似度来增强区分不同情境的能力。 - **基于预测的方法**:鼓励网络学会对未来事件做出准确预报,从而间接促进良好内部表达的发展。 ```python import torch.nn as nn class StateActionRepresentation(nn.Module): def __init__(self, input_dim, hidden_dims, output_dim): super(StateActionRepresentation, self).__init__() layers = [] dims = [input_dim] + hidden_dims for i in range(len(dims)-1): layers.append(nn.Linear(dims[i], dims[i+1])) layers.append(nn.ReLU()) layers.append(nn.Linear(hidden_dims[-1], output_dim)) self.model = nn.Sequential(*layers) def forward(self, x): return self.model(x) ``` 此代码片段展示了一个简单的神经网络架构用于创建状态-动作表示的例子。实际应用中可能会更加复杂,涉及卷积层或其他类型的模块取决于具体的应用需求。 #### 结合速率失真理论优化表示质量 考虑到有限的信息传递能力和存储资源,速率失真理论为理解如何平衡信息量与决策准确性提供了框架。这有助于设计更好的算法来获得既紧凑又具有表现力的状态-动作编码方案[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值