Representation RL:HarmonyDream: Task Harmonization Inside World Models

ICML2024
paper
code

Intro

基于状态表征的model-based强化学习方法一般需要学习状态转移模型以及奖励模型。现有方法都是将二者联合训练但普遍缺乏对如何平衡二者之间的比重进行研究。本文提出的HarmonyDream便是通过自动调整损失系数来维持任务间的和谐,即在世界模型学习过程中保持观测状态建模和奖励建模之间的动态平衡。

Method

算法基于DreamV2的世界模型架构:

  1. Representation model: z t ∼ q θ ( z t ∣ z t − 1 , a t − 1 , o t ) z_{t}\sim q_{\theta }( z_{t}\mid z_{t- 1}, a_{t- 1}, o_{t}) ztqθ(ztzt1,at1,ot)
  2. Observation model: o ^ t ∼ p θ ( o ^ t ∣ z t ) \hat{o}_t\sim p_\theta(\hat{o}_t\mid z_t) o^tpθ(o^tzt)
  3. Transition model: z ^ t ∼ p θ ( z ^ t ∣ z t − 1 , a t − 1 ) \hat{z} _t\sim p_\theta ( \hat{z} _t\mid z_{t- 1}, a_{t- 1}) z^tpθ(
### 大型视觉模型在步态表示学习中的应用 #### BigGait:利用大型视觉模型进行步态表示的学习与实现 近年来,随着计算机视觉技术的发展,基于深度学习的大规模视觉模型逐渐被应用于各种生物特征识别领域,其中包括步态识别。这些大规模视觉模型能够捕捉到更复杂的空间结构和时间动态特性。 为了提高跨视角下的步态识别性能,研究人员探索了多种方法来增强模型对于不同角度下人体运动模式的理解能力。一种有效的方式是采用多任务生成对抗网络(MTGAN),该架构不仅可以在单个框架内完成多个子任务的同时优化,还能够在不同的视图之间共享有用的表征信息[^1]。 此外,在构建高质量的数据输入方面也进行了创新尝试。例如引入周期能量图像(PEI)作为改进版的步态模板形式,相较于传统的灰度编码图像(GEI)和其他同类方案,它能更好地保留时空维度的信息量。 具体来说,BigGait项目旨在开发一套完整的解决方案用于高效地提取并分析个体行走姿态特征: - **数据预处理**:收集来自不同环境条件下的视频片段,并将其转换成适合喂入神经网络的形式; - **模型设计**:选用先进的卷积神经网络(CNN)或Transformer变体作为骨干网路部分; - **训练策略**:实施迁移学习机制以便充分利用已有的大规模通用物体检测/分类数据集资源; - **评估体系**:建立严格的测试流程以验证算法的有效性和鲁棒性。 ```python import torch from torchvision import transforms, datasets from biggait.models import BigGaitModel transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), ]) dataset = datasets.ImageFolder(root='path/to/dataset', transform=transform) model = BigGaitModel(pretrained=True).cuda() for images, labels in dataset: outputs = model(images.cuda()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值