- 博客(68)
- 资源 (1)
- 收藏
- 关注
原创 大模型时代的具身智能系列专题(二十四)
上海交通大学计算机科学与工程系特别研究员,曾任上海期智研究院PI。入选2016年度海外高层次青年引进人才,2018年被《麻省理工科技评论》评选为中国35位35岁以下科技精英(MIT TR35),荣获2019年度“求是杰出青年学者奖”, 2020年获上海市科技进步特等奖(排名第三)。担任《Science》,《Nature Machine Intelligence》审稿人,曾担任CVM 2018程序主席,CVPR 2020,ICCV 2021,IROS 2021领域主席。
2024-12-04 20:00:00
755
原创 大模型时代的具身智能系列专题(二十三)
此外,对于来自网络的新颖物体,我们首先使用 Wonder3D 获得几何一致的法向量和纹理网格,然后利用 GaussianEditor 中基于扩散模型的方法,在 3DGS 中完成物体重建。然而,它缺乏对新场景、视图和物体的演示综合,以及模型学习数据的验证。为实现坐标对齐,我们在 3DGS场景和 Isaac Sim 场景中同时在基座关节上方 1.6 米处放置向下的摄像机,通过比较从 BEV 视图渲染的场景,正面和侧面分割视图中渲染的场景,我们在 Isaac Sim 中调整偏移量以实现布局对齐。
2024-12-03 20:00:00
1180
原创 大模型时代的具身智能系列专题(二十二)
在获得场景描述和选定的视觉资产后,系统首先生成任务定义,如图2的第二项所示。我们提供场景信息、图像和资产描述,以生成符合上下文的机器人任务。为适应多种潜在任务,我们允许任务使用观测到的部分资产。我们专注于生成对机器人系统既实用又具有挑战性的任务,这些任务通常涉及特定方式操作场景中的目标,例如堆叠特定物品或按类别分组目标。例如,系统可能生成如下任务:“将所有红色方块堆叠在蓝色圆柱上”或“按大小顺序从左到右在桌子上排列目标。
2024-12-02 20:00:00
1631
原创 大模型时代的具身智能系列专题(二十一)
DPPO是一种用于微调预训练扩散策略的有效算法框架,它结合了策略梯度方法和扩散模型的优势,在各种机器人学习和连续控制任务中表现出了优异的性能。通过实验验证了DPPO在不同基准环境中的有效性,以及其在模拟到真实迁移任务中的强大能力。未来的工作可以进一步探索DPPO在模拟到真实迁移中的应用,特别是在基于视觉的策略预训练于多种不同任务的情况下。此外,研究DPPO如何与其他决策工具相结合,如基于模型的规划和视频预测辅助的决策,也是一个有前景的研究方向。
2024-12-01 10:30:00
1888
原创 大模型时代的具身智能系列专题(二十)
边江博士是微软研究院的首席研究经理,现担任MSR亚洲产业创新中心(MIIC)主任。他领导机器学习解决方案和服务团队,主要专注于将尖端机器学习算法设计到现实世界的应用场景中,包括金融、医疗保健、供应链和可持续性。边博士毕业于中国北京大学,获学士学位,随后在美国佐治亚理工学院获得计算机科学博士学位。
2024-11-30 10:30:00
635
原创 大模型时代的具身智能系列专题(十九)
文章针对机械手臂操作场景的整体重建,这需要一个可操作的机器人模型,背景和对象的重建,质量和摩擦等物理参数的结合,以及逼真的渲染器。该方法的核心是高斯-网格-像素绑定,它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯被分配一个语义标签和相应的ID,从而能够精确地应用由URDF控制的转换矩阵。这确保了真实世界视频、模拟结果和渲染图像之间轨迹的无缝传输。这种绑定的优点包括在每个表示之间传递端到端的可微分梯度,通过文章最先进的网格重建进行卓越的碰撞检测,以及高渲染质量。
2024-11-29 20:00:00
688
原创 大模型时代的具身智能系列专题(十八)
Jim Fan 是英伟达高级科学家,他和朱玉可一起,在英伟达内部领导一个新研究小组 ——GEAR,通用具身智能体研究。Jim Fan在斯坦福大学视觉实验室获得了博士学位,师从李飞飞教授。他的研究领域十分广泛,包括了多模态基础模型、强化学习以及计算机视觉,曾实习于谷歌云AI、OpenAI、百度硅谷人工智能实验室等知名组织。
2024-11-28 20:00:00
1097
原创 大模型时代的具身智能系列专题(十七)
这篇文章引入了 RoboTwin,它是一个整合了现实世界和合成数据的基准,用于评估双臂机器人,解决了机器人领域专业训练数据严重短缺的问题。数据集是使用 AgileX Robotics 平台开发的,并通过由 Deemos’s Rodin 平台提供支持的生成式数字孪生进行了增强。文章建立了一个便捷的从现实到模拟的管道,只需一张现实世界的 RGB 图像就能生成目标物体和相应场景的 3D 模型。该数据集有效加速了机器人系统的训练,能够使机器人在不同任务中的性能得到提升。
2024-11-27 20:00:00
1747
原创 大模型时代的具身智能系列专题(十六)
朱玉可是德克萨斯大学奥斯汀分校计算机科学系的助理教授,也是机器人感知与学习 (RPL) 实验室的主任。还是 NVIDIA 研究部门的首席研究科学家,在那里朱玉可共同领导了通用具身代理研究 (GEAR) 小组。他于2019年9月在斯坦福大学获得博士学位,与李飞飞教授和西尔维奥·萨瓦雷兹教授一起在斯坦福大学视觉与学习实验室工作。朱教授的目标是为自主机器人和具身代理构建算法和系统,使其能够推理并与现实世界互动。他的研究涉及机器人技术、机器学习和计算机视觉的交叉领域;
2024-11-26 20:00:00
934
原创 大模型时代的具身智能系列专题(十五)
Shubhangi Sinha是康奈尔大学计算机科学系助理教授。在加入康奈尔大学之前,Tapo 是华盛顿大学计算机科学与工程专业的 NIH Ruth L. Kirschstein NRSA 博士后研究员。他在佐治亚理工学院获得了机器人学博士学位。他之前还曾在迪士尼研究中心工作过。Tapo 的研究旨在使机器人能够协助行动不便的人进行日常生活活动。Tapo 感兴趣的基本研究问题是如何在非结构化的人类环境中利用机器人世界的物理和社交互动来智能高效地执行相关的日常生活活动。
2024-11-25 20:00:00
1918
原创 大模型时代的具身智能系列专题(十四)
本文使用大型视觉语言模型(VLMs)解决了从人类演示视频中提取机器人任务计划的挑战,提出的 SeeDo 方法在时间理解、空间关系推理和对象区分方面有显著提升,在不同类别长周期取放任务上性能优于现有视频 VLMs。但现有研究仍有些局限性,具体如下:动作空间有限:当前实验仅限于取放动作,下一步需扩展到更复杂行为逻辑或更多样行为的动作空间。空间智能有限:视觉感知模块虽提高了区分左右空间关系的能力,但在需要更精确空间推理的任务(如木块堆叠)中仍会出错,需要未来 VLMs 有更强的空间智能。
2024-11-22 20:00:00
702
原创 大模型时代的具身智能系列专题(十三)
生成运动模型的最新进展取得了显著成果,使得从文本描述中合成逼真的人体运动成为可能。这些运动学方法虽然在视觉上很有吸引力,但通常会产生不符合物理约束的运动,从而产生阻碍现实世界部署的伪影。为了解决这个问题,我们引入了一种新方法,将运动学生成模型与基于物理的角色控制相结合。我们的方法首先训练一个奖励代理来预测下游不可微分控制任务的性能,提供一个高效且可微分的损失函数。然后,该奖励模型用于微调基线生成模型,确保生成的动作不仅多样化,而且在物理上也适用于现实世界场景。
2024-11-21 20:00:00
1598
原创 大模型时代的具身智能系列专题(一)
从图灵定义看,知识由感知、智能体环境交互获得,具身智能要拥有足够的知识完成机器人任务。从字面上理解就是具有身体的智能,可以从交互中学习并有可能涌现新能力。近期的具身智能更多和大模型和端到端有关,是通过学习的方式涌现的智能。
2024-06-19 20:30:00
3730
原创 大模型时代的具身智能系列专题(十)
该论文提出了一个开源的通用机器人操作策略Octo,论文实验主要评估Octo在零样本多机器人控制和few-shot策略微调中的性能,以及不同设计决策的影响。Octo是一个基于大型transformer的策略预训练,它是迄今为止最大的机器人操作数据集,包含800k个机器人轨迹。Octo可以解决各种开箱即用的任务,Octo的组合设计能够调整新的输入和动作空间,使Octo成为广泛的机器人控制问题的通用初始化。除了模型本身,本方法还发布了完整的训练和微调代码,以及使大型机器人数据集更容易训练的工具。
2024-06-05 20:00:00
1502
原创 大模型时代的具身智能系列专题(九)
Lerrel Pinto是NYU Courant的计算机科学助理教授,也是用机器人和人工智能实验室(CILVR小组)的一员。在加州大学伯克利分校读博士后,在CMU机器人研究所读博士,在印度理工学院古瓦哈蒂读本科。研究目标是让机器人在我们生活的混乱世界中进行归纳和适应。研究方向主要集中在机器人学习和决策上,重点是大规模学习(数据和模型),感官数据的表示学习,开发算法来模拟动作和行为,适应新场景的强化学习,以及构建开源的affordable的机器人。
2024-06-04 22:07:56
1294
原创 大模型时代的具身智能系列专题(八)
Chelsea Finn是Stanford计算机科学与电气工程系的助理教授。她的实验室IRIS通过大规模的机器人互动研究智能,并与SAIL(斯坦福人工智能实验室)和ML Group(机器学习团队)有合作关系。他还在谷歌的Google Brain团队工作。她对机器人和其他智能体通过学习和互动来发展广泛智能行为的能力感兴趣。他在UC Berkely完成了计算机科学博士学位,师从Sergey Levine,本科毕业于MIT。
2024-06-04 20:49:00
951
原创 大模型时代的具身智能系列专题(七)
王鹤,北京大学前沿计算研究中心助理教授,本科毕业于清华大学,博士毕业于斯坦福大学,师从美国三院院士Leonidas. J Guibas教授。他创立并领导了具身感知与交互实验室(EPIC Lab),实验室立足三维视觉感知与机器人学,重点关注具身机器人在三维复杂环境中的感知和交互问题,研究目标是以可扩增地方式发展高泛化性的机器人视觉和控制系统。研究成果覆盖物体抓取、功能性操控、灵巧操作及寻物导航。
2024-06-03 22:14:46
1322
原创 大模型时代的具身智能系列专题(十一)
马萨诸塞大学阿默斯特分校的一名教员,也是麻省理工学院- ibm沃森人工智能实验室的研究经理。在麻省理工学院博士后期间,和Antonio Torralba教授、Daniela Rus教授和Josh Tenenbaum教授一起工作。在此之前,在清华大学以最高荣誉完成了博士学位,导师是姚期志教授。研究涉及计算机视觉、人工智能、认知科学和机器人技术的交叉领域。研究的首要目标是建立一个类似人类的自主代理,能够在物理世界中感知、推理和行动。
2024-06-03 21:09:42
1217
原创 大模型时代的具身智能系列专题(六)
提出了GenSim,一个可扩展的LLM框架,以增强机器人策略的各种仿真任务,其目的是将LLM的基础和编码能力提炼到低级策略中。我们研究了目标导向和探索性方法中的LLM提示、检索增强生成和微调,以生成新的仿真任务代码。我们利用生成的任务来训练多任务策略,这些策略显示了对模拟和现实世界中的新任务的泛化能力。局限性:生成的代码仍然包含基本的语法错误,并且存在幻觉,并且缺乏物理和几何细节的基础。另一个问题是代码生成评估度量是不完美的(例如不一致的语言描述),因此生成的任务可能需要在策略训练之前进行一些手动过滤。
2024-05-31 22:15:17
1427
原创 大模型时代的具身智能系列专题(五)
宋舒然是斯坦福大学的助理教授。在此之前,他曾是哥伦比亚大学的助理教授,是Columbia Artificial Intelligence and Robotics Lab的负责人。他的研究聚焦于计算机视觉和机器人技术。本科毕业于香港科技大学。
2024-05-29 22:07:36
2306
3
原创 大模型时代的具身智能系列专题(四)
做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:• RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义信息,无法学会新的行为• 由于机器人数据集总体量级很少,并且无法搜集机器人没有做过的行为。
2024-05-28 21:35:40
1406
原创 大模型时代的具身智能系列专题(三)
文章提出了VILA框架来做机械臂task planning,通过闭环视觉反馈的机制,可以根据实际任务进展进行replan,有着较好的鲁棒性,可以给相关研究者带来一些启发。VILA在真机上也达到了很好的效果,推进了这一领域的发展。另外,目前文章还有几处可能的局限和问题:1. 结论解释欠缺:CLIPort-Short(只在单步指令上训练,如:拿起黄色方块)比 CLIPort-Long(在high-level指令上训练,如:把字母按字母序排列)效果差,文章似乎没有对这一点做解释。
2024-05-27 22:24:51
2652
原创 大模型时代的具身智能系列专题(二)
自由形式语言指令 L 指定了一个操作问题,例如“打开最顶部的抽屉”。然而,根据 L 生成机器人轨迹是很困难的,因为 L 可能具有任意长度,或者是不明确的(例如,需要上下文语义)。相反,我们专注于问题的各个阶段(子任务)l_i,它们明确地指定了一个操作任务 (例如,“抓住抽屉把手”,“打开抽屉”),其中被分解的子阶段(子任务)L→l1l2lnL→l1l2...ln由高级规划器(例如,一个LLM或一个基于搜索的规划器)给出。
2024-05-27 21:13:06
1646
原创 通往自动机器智能的隐变量能量模型(work in progress)
在AI达到类人水平并带来新的技术革新之前,当前的自动化系统仍然有重大的局限性。最理想的情况下,会出现L5自动驾驶、家用机器人、虚拟助理,这些机器人会学习可靠的世界模型,然后进行推理,对复杂的行动序列做出计划。本文引入了基于能力的潜变量模型分层联合嵌入预测架构(H-JEPA)。
2023-07-03 09:42:00
306
原创 CVPR2023 best paper: Planning-oriented Autonomous Driving 解析
现代自动驾驶系统通常是模块化的序列任务,这种方式很容易造成累积误差和任务协调不足,因此设计一个端到端架构,从全局的视角出发为agent的交互提供互补的特征提取。
2023-06-18 17:37:39
3266
原创 大模型时代的prompt学习(持续更新)
OpenAI 的 CEO Sam Altman 认为 prompt 是个非常高杠杆的技能。学习 prompt 可以让你更好地使用 ChatGPT 等产品, 当然prompt可能 会是个短期过度形态,未来肯定会有更友好的交互形式,或者理解能力更强的 AI 产品。前特斯拉 AI 负责人 Andrej Karpathy(最近二进宫回OpenAI ) 今年 1 月底也说:最热门的新编程语言是英语。
2023-05-25 23:05:17
5502
原创 论智能出现的简约性和自恰性原理(上)
一个理解深度网络的新框架:压缩闭环转录。这个框架包含两个原理:简约性(parsimony)与自洽性/自一致性(self-consistency),分别对应 AI 模型学习过程中的“学习什么”与“如何学习”,被认为是构成人工/自然智能的两大基础。......
2022-08-14 08:08:37
1072
原创 深度神经网络的不确定性(下)
目录不确定性的测量和定性估计分类任务中的不确定性测量分类任务中的数据不确定性测量分类任务中的模型不确定性测量分类任务中的分布不确定性完备数据集性能测量估计回归任务中的不确定性测量回归任务中的数据不确定性测量回归任务中的模型不确定性估计回分割任务中的不确定性校准校准方法正则化方法后处理方法不确定性估计校准方法估计校准质量数据集与baseline不确定性估计的应用总结不确定性的测量和定性顾名思义,我们有了各种建模和估计不确定性的方法,就需要不同的测量来评估他们的好坏。通常情况下这些方法的正确性和可靠性是不能
2022-02-19 09:23:56
4067
原创 深度神经网络的不确定性(中)
目录不确定度估计方法A.Single Deterministic MethodsB.Bayesian Neural NetworksC. Ensemble MethodsD. Test Time AugmentationE. Neural Network Uncertainty Quantification Approaches for Real Life Applications不确定度估计方法A.Single Deterministic MethodsB.Bayesian Neural Netwo
2021-10-22 20:28:28
6567
5
原创 深度神经网络的不确定性(上)
深度神经网络的不确定度摘要深度神经网络的不确定度A.数据获取B.深度神经网络设计与训练欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入摘要基本神经网络没有实现确定性估计,或者会遭遇过置信或欠
2021-10-01 10:12:42
5576
1
转载 神经网络不work的原因
文章目录Neural Network Check List 如何使用这个指南 数据问题 1 检查输入数据 2 试一下随机输入 3 检查数据加载单元 4 确保输入和输出是一一对应的 5 输入和输出之间的关系映射的随机性会不会太强了? 6 数据集中的噪声 7 打乱数据集 8 控制类别不平衡现象 9 会不会是训练数据不足? 10 尽量你的训练批次中的样本标签多样化 11 减小batch size 12 尝试经典数据集(MNI
2021-05-06 22:18:23
296
转载 微积分——外微分形式的微积分
在我们所讨论的三度空间(三维)中,能够出现的微分形式只有四种:零次微分形式——函数 f一次微分形式——线积分中出现的微分dx,dy,dz的一次式 二次微分形式——面积分中出现的微分dx,dy,dz的二次式 三次微分形式——体积分中出现的微分dx,dy,dz的三次式 ...
2020-08-01 23:46:13
4434
转载 随机采样方法
背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。随机模拟中有一个重要...
2018-08-16 16:22:44
2334
转载 深度强化学习路在何方
一、深度强化学习的泡沫2015年,DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现。自此以后,...
2018-07-19 10:55:40
8033
1
翻译 灵长类动物脑中的人脸识别编码
总结灵长类动物识别例如人脸的复杂目标有着难以置信的速度和准确度。这里,我们揭示了人脸识别的大脑编码。猕猴的实验描述了一个人脸和人脸块胞元响应之间的转换。通过将人脸在高维空间形成点,我们发现每一个人脸胞元的发射率正比于即将到来的人脸刺激在这个空间单个坐标轴上的投影,这就允许人脸胞元的集合编码空间中任意脸的位置。用这个编码,我们能精确地从神经入口响应中编码人脸以及预测神经对人脸的发射率。此外,这个编码否
2018-01-11 11:18:21
1380
原创 mxnet代码解析之nnvm
概述nnvm启发于LLVM,它利用operator的高层信息去优化计算图;nnvm是从mxnet的实现中剥离出来一个模块,该模块完成了从symbol描述的网络到graph描述的符号计算图的生成和优化工作,而这样的模块化剥离仿效了unix的哲学,使得mxnet能够在不同的设备应用和场景中自主裁剪各功能模块。nnvm中的graph包含了计算图的结构,并且包含了一个从字符串到任意类型的属性映射map< s
2017-02-12 22:36:28
9011
1
原创 deeplearning中的优化算法
英文原版:http://sebastianruder.com/optimizing-gradient-descent/index.html#batchgradientdescent 翻译:http://blog.youkuaiyun.com/heyongluoyao8/article/details/52478715http://yufeigan.github.io/2014/11/29/Deep-Learn
2016-11-29 15:04:30
1150
原创 c++模板的问题解析-问题2
问题起源class Timer {public: Timer(){}};class TimeKeeper {public: TimeKeeper(const Timer& t){} TimeKeeper(){} std::string time; std::string get_time(){ return time; } friend std:
2016-08-23 21:36:31
1424
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人