Learning Latent Dynamics for Planning from Pixels

介绍了一种名为PlaNet的纯model-based代理,它能从图像中学习环境动力学并在线规划,解决了部分观测空间、连续控制和离散奖励问题,效果优于model-free方法。使用MPC进行适应性规划,RSSM预测潜在空间,CEM搜索最佳行动序列。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

  1. The Deep Planning Network (PlaNet), a purely model-based agent that learns the environment dynamics from images and chooses actions through fast online planning in latent space.
  2. PlaNet一个纯的model-based的agent,可以基于图片进行动态规划
  3. 为了有比较好的表现效果,需要精确预测多个时间片后的reward
  4. 同时使用确定性和随机转移分量
  5. 仅使用像素作为输入,解决了连续控制问题的动态规划,部分观测空间和离散reward的问题,并且比model-free的效果好很多

Introduction

  1. 解决了许多DeepMind的控制场景,效果远超过A3C和一些情况的D4PG
  2. 同时拥有确定性和随即转移分量对于高规划性是至关重要的
  3. 包含多步预测的标准变化边界:仅在潜在空间中使用term,就可以得到一个快速正则化器,它可以改进长期预测,并与任何潜在序列模型兼容

Latent Space Planning

Problem setup

为了解决观测空间不全的问题,考虑使用partially observable Markov decision process (POMDP)
在这里插入图片描述

Model-based planning

We use model-predictive control (MPC; Richards, 2005) to allow the agent to adapt its plan based on new observations, meaning we replan at each step. In contrast to model-free and hybrid reinforcement learning algorithms, we do not use a policy or value network.

  1. 使用model-predictive control (MPC)方式允许agent基于新的observation来进行计划,也就是说可以在每一步重新规划。
  2. 和model-free的方法不同,不适用policy或者value网络。

Experience collection

Starting from a small amount of S seed episodes collected under random actions, we train the model and add one additional episode to the data set every C update steps.

Planning algorithm

  1. 使用cross entropy method方法来搜索模型下的最佳的action序列
  2. 重要的是,在接收到下一个观察结果后,对动作序列的belief再次从零均值和单位方差开始,以避免局部最优。
  3. Because the reward is modeled as a function of the latent state, the planner can operate purely in latent space without generating images, which allows for fast evaluation of large batches of action sequences.
    规划者可以纯粹在latent state中进行动作序列的评估,所以使得快速评估成为可能

Recurrent State Space Model

Therefore, we use a recurrent state-space model (RSSM) that can predict forward purely in latent space, similar to recently proposed models.(类似于非线性的卡尔曼滤波和VAE(VAE类似于GAN,但是相比GAN的暴力提取特征,VAE先对特征进行建模,的到其分布))

Latent dynamics

一个典型的state-space model
在这里插入图片描述
在这里插入图片描述

Variational encoder

在这里插入图片描述
在这里插入图片描述

Deterministic path

因为纯随机转移的方法不能很好的记住多个步长的时间信息的内容,虽然在理论上能把方差降为0,但是实际可能找不到这个解。
从而利用一个确定的激活向量序列来解决。(允许模型访问不仅仅是目前的状态还有先前的所有状态)
在这里插入图片描述

Latent Overshooting

在这里插入图片描述

Limited capacity

由于when using a model with limited capacity and restricted distributional family,一步完美的预测并不能巧合的在多部完美预测中发生

Multi-step prediction

需要设定一个distance来进行多步预测

Latent overshooting

需要设计一个目标方程来生成distance为1≤d≤D的多步预测,而不仅仅是一个限定的distance

Experiments

Evaluate PlaNet on six continuous control tasks from pixels
多个设计轴:

  1. 确定性和随机的路线都存在于动态规划模型里;
  2. 迭代计划计算;
  3. 在线经验收集。
    除了action重复,我们对于所有的任务使用相同的一套超参数

和model-free的方法比较:

在这里插入图片描述
在这里插入图片描述

模型设计

The deterministic part allows the model to remember information over many time steps.
The stochastic component is even more important – the agent does not learn without it.

One agent all tasks

  1. a single agent trained on all six tasks
  2. 提前并没有告知agent是哪个环境,需要agent自己从observation上确定
  3. 与单独训练的智能体相比,该智能体在学习速度较慢的情况下解决所有任务。
  4. 这表明该模型可以学习预测多个领域,而不考虑概念上不同的视觉效果。

Discuss

  1. 未来的工作方向包括学习时间抽象,而不是使用固定的动作重复(可能通过层次模型)。
  2. 为了进一步提高最终的效果,可以学习一个价值函数来近似超出计划范围的奖励总和。
  3. 此外,基于梯度的规划可以提高agent的计算效率,无需重构的学习表示可以帮助解决具有较高视觉多样性的任务。
  4. 通过共享动态模型为多任务控制提供了一个起点。
<think>好的,用户想了解关于StyleGenes的研究,尤其是与GANs相关的离散高效潜在分布。首先,我需要回忆一下这方面的知识。StyleGenes听起来像是结合了风格迁移和基因算法的概念,但可能更具体。用户提到的“离散高效潜在分布”可能与GAN的潜在空间优化有关,可能涉及将连续潜在变量离散化,以提高生成效率或控制生成结果的多样性。 接下来,我应该确认是否有相关的论文或实现。记得之前有研究在GAN的潜在空间中使用离散表示,比如VQ-VAE中的向量量化,或者某些改进的GAN模型。可能StyleGenes是某个特定研究中的术语,需要查找相关文献。 然后,用户引用了两篇资料,其中第二篇提到了CGAN、DCGAN、WGAN等改进,但StyleGenes可能不在其中。可能需要通过学术搜索引擎查找“StyleGenes GANs discrete latent distributions”之类的关键词。另外,离散潜在分布可能涉及分类变量或哈希编码,用来提高生成效果和解释性。 如果找不到直接匹配的论文,可能需要考虑相近的研究方向,比如潜在空间的离散化方法、高效表示学习等。同时,用户可能需要了解如何实现这种离散潜在分布,是否有开源代码或框架支持。 最后,需要组织回答,明确说明目前是否有该名称的研究,或可能相关的领域,并提供一些建议的检索方向,帮助用户进一步探索。如果有相关论文或项目,给出标题和简介;如果没有,则解释可能关联的技术,并推荐进一步的研究途径。</think>关于StyleGenes与GANs的离散高效潜在分布研究,目前学术界尚未形成统一的理论框架。根据现有文献分析,该方向可能涉及以下三个核心技术路径: ### 一、离散潜在空间构建方法 1. **向量量化技术**:通过VQ-VAE(Vector Quantized Variational Autoencoder)实现潜在空间的离散化编码,其数学表达为: $$ z_q = \text{VQ}(z_e) = \arg\min_{k} \| z_e - e_k \|^2 $$ 其中$e_k$为码本向量,该方法通过建立离散码本提升特征解耦能力[^1] 2. **类别感知编码**:通过引入可训练的类别原型矩阵$P \in \mathbb{R}^{K×d}$,将连续潜在向量投影到离散语义空间: $$ c = \arg\max(\sigma(zP^T)) $$ 其中$\sigma$为softmax函数,该方法在FaceStyle等生成任务中已取得应用 ### 二、高效分布建模 1. **混合分布策略**:结合Gumbel-Softmax技巧实现可微分的离散采样: $$ y_i = \frac{\exp((\log(\pi_i)+g_i)/\tau)}{\sum_{j=1}^k \exp((\log(\pi_j)+g_j)/\tau)} $$ 其中$g_i$为Gumbel噪声,$\tau$为温度参数 2. **分层哈希编码**:通过多级哈希函数构建紧凑的潜在表示: $$ H(z) = \bigoplus_{i=1}^L h_i(z) $$ $\bigoplus$表示级联操作,$h_i$为局部敏感哈希函数 ### 三、工程实现参考 在PyTorch框架下可参考以下伪代码结构: ```python class DiscreteLatent(nn.Module): def __init__(self, num_embeddings, embedding_dim): super().__init__() self.codebook = nn.Embedding(num_embeddings, embedding_dim) def forward(self, z): distances = torch.cdist(z, self.codebook.weight) indices = torch.argmin(distances, dim=-1) quantized = self.codebook(indices) return quantized + (z - z.detach()) # 直通估计器 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值