Learning to See before Learning to Act: Visual Pre-training for Manipulation

1.解决的问题

这篇文章采用迁移学习,将学习到的知识从一个被动的视觉任务(数据分布独立于智能体的决策)迁移到主动的机器人任务(数据分布依赖于智能体的决策)。

在视觉任务上预训练能显著提高学习操作物体时的泛化性和采样效率

迁移模型的哪部分能带来提升呢?

标准视觉模型的输出与操作任务中的affordance maps高度相关,直接从视觉网络迁移模型参数到affordance预测网络,使用少量经验训练微调affordance模型就可以达到更好的效果。

作者发现直接从ImageNet上预训练的模型迁移潜在特征表示不能加速推-抓任务的学习进程或收敛到更好的性能,这是由于迁移后的affordance模型的head部分参数是随机初始化的,仍然是随机探索环境,难以收集有用的监督信号。所以作者直接迁移整个视觉模型,包括backbone和head的参数,来初始化affordance模型。

2.方法介绍

输入表示

采用的输入表示是工作空间的RGB-D高度图,即先将RGB图像投影到三维点云,再正交反投影回重力方向。

视觉模型

遵循Faster R-CNN,使用ConvnNet设计视觉模型,模型输出是2D热力图。
损失函数采用二值交叉熵损失。

affordance模型

包含一个ConvNet和一个动作原语。

ConvNet预测密集的2D热力图,编码了每个像素抓取成功的可能性。

动作原语是一个控制机器人从固定初始位置执行操作任务的函数,是开环的,且通过IK解法执行运动规划。论文中介绍了吸取和抓取两种动作原语,输入参数分别为 ϕ ( p ) \phi(p) ϕ(p) ϕ ( p , θ ) \phi(p,\theta) ϕ(p,θ) ,其中 p = ( p x , p y , p z ) p=(p_x,p_y,p_z) p=(px,py,pz) 分别为吸取位置和平行抓取器中心点3D坐标, θ \theta θ 是围绕重力方向的旋转角度。通过将原始高度图旋转16个角度,送入模型估计每个高度图水平方向抓取的affordance。对所有高度图执行最大池化,以确定最佳抓取位置和方向。

由于学习affordance模型的数据来源于与真实环境交互,不满足独立同分布条件,因此作者采用经验池和优先经验回放的方式构造每次迭代的输入。
损失函数同样采用二值交叉熵损失。

在这里插入图片描述

迁移学习

视觉模型和affordance模型结构相同,视觉模型的backbone和head参数直接用来初始化affdance模型。

3.实验

论文实验从以下三方面进行验证:

  1. 迁移模型的一部分(backbone)而不是全部是否会提升模型性能
  2. benchmark不同视觉模型对操作模型的表现
  3. 确定那个大规模真实场景数据集对操作性能提升最明显

仿真实验

backbone采用7层全卷积残差网络

在仿真中训练了一个前景分割模型,使用它的权重来初始化一个抓取affordance模型,然后通过trial and error微调affordance模型。全部迁移比只迁移backbone性能要好。

在这里插入图片描述
在训练集上通过trail and error微调结果
平面检测(法向估计)提高了吸取动作的采样效率
前景分割和平面检测(法向估计)对于抓取更有帮助
在这里插入图片描述
在未知物体上的测试结果

在这里插入图片描述

真实场景实验

使用的是https://github.com/facebookresearch/detectron的RPN模型,backbone采用ReSNet-50 FPN,P2特征层的预测层作为head模型。

采用仿真实验中表现最好的任务训练视觉模型,和随机初始化的模型进行对比。

考察现成的模型能否作为一个好的初始化结果。现成的预训练模型有:ImageNet,COCO-backbone,COCO(backbone和head), COCO-fix(没有训练)。

  1. 验证仿真结论
  2. 迁移现有视觉模型比直接在目标环境训练泛化性能要好(b,d)
  3. COCO预训练模型比ImageNet好
    在这里插入图片描述
    在这里插入图片描述

4.进一步工作

A future research direction is to apply vision-guided exploration to action model training with reinforcement learning, such as “Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation”, where the data efficiency is the bottleneck of learning.

内容概要:本文详细分析了全球及中国财富管理市场的发展现状与未来趋势。全球财富管理市场起源于欧洲、发展于美国,美国财富管理市场经过百年发展,形成了以商业银行、综合财富管理平台和投资服务平台为代表的三类财富管理体系。中国财富管理市场正处于快速发展期,居民财富快速增长并向金融资产倾斜,资管新规引导市场健康发展。文中还探讨了中国财富管理市场的竞争格局,包括私人银行、银行理财、公募基金、券商资管、信托、第三方财富管理机构和互联网财富管理平台的发展情况。此外,公募基金投顾试点成为财富管理市场转型的重要探索,买方投顾模式逐步取代卖方投顾模式,AI赋能投顾业务,为行业发展带来新机遇。 适合人群:对财富管理行业感兴趣的投资者、金融从业者及研究机构。 使用场景及目标:①了解全球及中国财富管理市场的发展历程与现状;②掌握中国财富管理市场竞争格局及各机构的发展特点;③探索公募基金投顾试点对财富管理市场的转型意义及AI赋能投顾业务的应用前景。 阅读建议:本文内容详实,涵盖了财富管理市场的多个方面,建议读者重点关注中国财富管理市场的现状与发展趋势,特别是私人银行、银行理财、公募基金、券商资管等机构的具体发展情况,以及公募基金投顾试点和AI赋能投顾业务的创新模式。
6.0版更新说明: 1.根据2024年鉴整理,数据更新至2023年 2.新增指标,当前214个指标 5.0版更新说明: 数据更新至2022年 4.2版更新说明: 1.更新2021年部分指标数据 4.0版更新说明: 1.数据更新至2021年 2.调整部分旧指标 3.新增指标,当前190个指标 3.0版更新说明: 1.数据更新至2020年 2.调整部分指标,当前174个指标 2.4版更新说明: 1.更新部分缺失值 2.将数据转为平衡面板 3.填补升级。内含原始版本、线性插值、ARIMA填补三个版本数据 一、数据介绍 数据名称:中国城市数据库 数据来源:中国城市统计年鉴1991-2024年、地方统计局 数据年份:1990-2023年 数据范围:300个地级市(包括直辖市) 样本数量:平衡面板10200条(300*34=10200) 更新时间:2025年2月,当前最新6.0版 二、整理方法 第一,识别年鉴。利用NLP算法识别《中国城市统计年鉴》,并转为面板数据 第二,完善数据。对比主流数据库、地方统计局,进一步完善城市数据 第三,统一地区。匹配民政部编码,统一使用2019年编码和地区名称 第四,统一单位。对不同单位的情况,进行单位换算 第五,人工验证。得到所有指标的面板数据,并人工抽样验证 第六,平衡面板。将非平衡面板转为平衡面板数据 第七,线性插值。利用线性趋势对中间缺失进行填充,得到线性插值版 第八,ARIMA填补。利用时间趋势,对剩余缺失进行预测,得到ARIMA填补版 最终,保留原始版本、线性插值版、ARIMA填补版
内容概要:本文详细介绍了如何在HarmonyOS开发中使用Tabs组件构建底部页签。首先,文章强调了底部页签在提升用户体验和操作便捷性方面的重要性,随后介绍了Tabs组件的基本结构,包括TabBar和TabContent。接着,文章逐步引导读者搭建开发环境,包括安装DevEco Studio和配置项目。在此基础上,文章展示了Tabs组件的基础用法,如简单示例和组件结构解析。接下来,文章深入探讨了属性设置,如导航位置、滑动功能、动画时长等,以实现个性化定制。此外,文章还介绍了高级技巧,如滚动导航栏和自定义导航栏的实现方法。最后,通过一个电商应用的实际案例,展示了如何在实际项目中应用Tabs组件,以及开发过程中需要注意的事项和常见问题的解决方法。 适合人群:具有一定HarmonyOS开发基础的研发人员,尤其是希望提升用户交互体验的应用开发者。 使用场景及目标:①了解如何使用Tabs组件构建美观且实用的底部页签;②掌握底部页签的属性设置和高级技巧,如滚动导航栏和自定义导航栏;③解决开发过程中遇到的兼容性、布局适配和内存优化等问题。 其他说明:本文不仅提供了详细的代码示例和技术指导,还鼓励读者在实际项目中应用所学知识,不断探索HarmonyOS开发的更多可能性。通过学习本文,开发者可以更好地理解HarmonyOS开发的特点和优势,为用户打造更加出色的交互体验。
内容概要:本文深入介绍了鸿蒙HarmonyOS Navigation子页面的开发,涵盖其基本概念、构成元素、开发步骤及应用场景。首先,文章阐述了Navigation组件在HarmonyOS应用中的重要性,它作为路由容器组件,支持多种显示模式(如自适应、单页面和分栏模式),以适应不同设备和用户需求。其次,详细解释了NavDestination(子页面的核心载体)和NavPathStack(掌控子页面路由的关键)的作用及其工作原理。接着,介绍了开发前的准备、项目结构规划、路由信息配置、子页面代码编写等具体开发步骤。此外,文章还探讨了页面跳转、参数传递、返回值处理及路由拦截等高级功能,并通过实际案例(如华为应用市场)展示了其应用效果。最后,总结了常见问题及其解决方法,并展望了Navigation子页面在未来应用场景中的潜力。 适合人群:具备一定编程基础,尤其是对HarmonyOS应用开发感兴趣的开发者,特别是有一定经验的工作1-3年研发人员。 使用场景及目标:①帮助开发者理解如何使用Navigation组件构建高效、便捷且用户体验良好的应用导航系统;②指导开发者掌握页面跳转、参数传递、路由拦截等核心技术,以实现复杂业务逻辑;③通过实际案例分析,为开发者提供应用开发的实战经验。 阅读建议:本文不仅提供了详细的代码示例和技术讲解,还强调了实际开发中的注意事项和常见问题的解决方案,因此在学习过程中,建议结合实际项目进行实践,同时关注官方文档和社区资源,以加深理解和提高开发技能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值