
机器人
文章平均质量分 93
视言
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型时代的具身智能系列专题(二十四)
上海交通大学计算机科学与工程系特别研究员,曾任上海期智研究院PI。入选2016年度海外高层次青年引进人才,2018年被《麻省理工科技评论》评选为中国35位35岁以下科技精英(MIT TR35),荣获2019年度“求是杰出青年学者奖”, 2020年获上海市科技进步特等奖(排名第三)。担任《Science》,《Nature Machine Intelligence》审稿人,曾担任CVM 2018程序主席,CVPR 2020,ICCV 2021,IROS 2021领域主席。原创 2024-12-04 20:00:00 · 858 阅读 · 0 评论 -
大模型时代的具身智能系列专题(二十三)
此外,对于来自网络的新颖物体,我们首先使用 Wonder3D 获得几何一致的法向量和纹理网格,然后利用 GaussianEditor 中基于扩散模型的方法,在 3DGS 中完成物体重建。然而,它缺乏对新场景、视图和物体的演示综合,以及模型学习数据的验证。为实现坐标对齐,我们在 3DGS场景和 Isaac Sim 场景中同时在基座关节上方 1.6 米处放置向下的摄像机,通过比较从 BEV 视图渲染的场景,正面和侧面分割视图中渲染的场景,我们在 Isaac Sim 中调整偏移量以实现布局对齐。原创 2024-12-03 20:00:00 · 1319 阅读 · 0 评论 -
大模型时代的具身智能系列专题(二十二)
在获得场景描述和选定的视觉资产后,系统首先生成任务定义,如图2的第二项所示。我们提供场景信息、图像和资产描述,以生成符合上下文的机器人任务。为适应多种潜在任务,我们允许任务使用观测到的部分资产。我们专注于生成对机器人系统既实用又具有挑战性的任务,这些任务通常涉及特定方式操作场景中的目标,例如堆叠特定物品或按类别分组目标。例如,系统可能生成如下任务:“将所有红色方块堆叠在蓝色圆柱上”或“按大小顺序从左到右在桌子上排列目标。原创 2024-12-02 20:00:00 · 1664 阅读 · 0 评论 -
大模型时代的具身智能系列专题(二十一)
DPPO是一种用于微调预训练扩散策略的有效算法框架,它结合了策略梯度方法和扩散模型的优势,在各种机器人学习和连续控制任务中表现出了优异的性能。通过实验验证了DPPO在不同基准环境中的有效性,以及其在模拟到真实迁移任务中的强大能力。未来的工作可以进一步探索DPPO在模拟到真实迁移中的应用,特别是在基于视觉的策略预训练于多种不同任务的情况下。此外,研究DPPO如何与其他决策工具相结合,如基于模型的规划和视频预测辅助的决策,也是一个有前景的研究方向。原创 2024-12-01 10:30:00 · 1908 阅读 · 0 评论 -
大模型时代的具身智能系列专题(二十)
边江博士是微软研究院的首席研究经理,现担任MSR亚洲产业创新中心(MIIC)主任。他领导机器学习解决方案和服务团队,主要专注于将尖端机器学习算法设计到现实世界的应用场景中,包括金融、医疗保健、供应链和可持续性。边博士毕业于中国北京大学,获学士学位,随后在美国佐治亚理工学院获得计算机科学博士学位。原创 2024-11-30 10:30:00 · 666 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十九)
文章针对机械手臂操作场景的整体重建,这需要一个可操作的机器人模型,背景和对象的重建,质量和摩擦等物理参数的结合,以及逼真的渲染器。该方法的核心是高斯-网格-像素绑定,它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯被分配一个语义标签和相应的ID,从而能够精确地应用由URDF控制的转换矩阵。这确保了真实世界视频、模拟结果和渲染图像之间轨迹的无缝传输。这种绑定的优点包括在每个表示之间传递端到端的可微分梯度,通过文章最先进的网格重建进行卓越的碰撞检测,以及高渲染质量。原创 2024-11-29 20:00:00 · 737 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十八)
Jim Fan 是英伟达高级科学家,他和朱玉可一起,在英伟达内部领导一个新研究小组 ——GEAR,通用具身智能体研究。Jim Fan在斯坦福大学视觉实验室获得了博士学位,师从李飞飞教授。他的研究领域十分广泛,包括了多模态基础模型、强化学习以及计算机视觉,曾实习于谷歌云AI、OpenAI、百度硅谷人工智能实验室等知名组织。原创 2024-11-28 20:00:00 · 1147 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十七)
这篇文章引入了 RoboTwin,它是一个整合了现实世界和合成数据的基准,用于评估双臂机器人,解决了机器人领域专业训练数据严重短缺的问题。数据集是使用 AgileX Robotics 平台开发的,并通过由 Deemos’s Rodin 平台提供支持的生成式数字孪生进行了增强。文章建立了一个便捷的从现实到模拟的管道,只需一张现实世界的 RGB 图像就能生成目标物体和相应场景的 3D 模型。该数据集有效加速了机器人系统的训练,能够使机器人在不同任务中的性能得到提升。原创 2024-11-27 20:00:00 · 1870 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十六)
朱玉可是德克萨斯大学奥斯汀分校计算机科学系的助理教授,也是机器人感知与学习 (RPL) 实验室的主任。还是 NVIDIA 研究部门的首席研究科学家,在那里朱玉可共同领导了通用具身代理研究 (GEAR) 小组。他于2019年9月在斯坦福大学获得博士学位,与李飞飞教授和西尔维奥·萨瓦雷兹教授一起在斯坦福大学视觉与学习实验室工作。朱教授的目标是为自主机器人和具身代理构建算法和系统,使其能够推理并与现实世界互动。他的研究涉及机器人技术、机器学习和计算机视觉的交叉领域;原创 2024-11-26 20:00:00 · 999 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十五)
Shubhangi Sinha是康奈尔大学计算机科学系助理教授。在加入康奈尔大学之前,Tapo 是华盛顿大学计算机科学与工程专业的 NIH Ruth L. Kirschstein NRSA 博士后研究员。他在佐治亚理工学院获得了机器人学博士学位。他之前还曾在迪士尼研究中心工作过。Tapo 的研究旨在使机器人能够协助行动不便的人进行日常生活活动。Tapo 感兴趣的基本研究问题是如何在非结构化的人类环境中利用机器人世界的物理和社交互动来智能高效地执行相关的日常生活活动。原创 2024-11-25 20:00:00 · 1954 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十四)
本文使用大型视觉语言模型(VLMs)解决了从人类演示视频中提取机器人任务计划的挑战,提出的 SeeDo 方法在时间理解、空间关系推理和对象区分方面有显著提升,在不同类别长周期取放任务上性能优于现有视频 VLMs。但现有研究仍有些局限性,具体如下:动作空间有限:当前实验仅限于取放动作,下一步需扩展到更复杂行为逻辑或更多样行为的动作空间。空间智能有限:视觉感知模块虽提高了区分左右空间关系的能力,但在需要更精确空间推理的任务(如木块堆叠)中仍会出错,需要未来 VLMs 有更强的空间智能。原创 2024-11-22 20:00:00 · 737 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十三)
生成运动模型的最新进展取得了显著成果,使得从文本描述中合成逼真的人体运动成为可能。这些运动学方法虽然在视觉上很有吸引力,但通常会产生不符合物理约束的运动,从而产生阻碍现实世界部署的伪影。为了解决这个问题,我们引入了一种新方法,将运动学生成模型与基于物理的角色控制相结合。我们的方法首先训练一个奖励代理来预测下游不可微分控制任务的性能,提供一个高效且可微分的损失函数。然后,该奖励模型用于微调基线生成模型,确保生成的动作不仅多样化,而且在物理上也适用于现实世界场景。原创 2024-11-21 20:00:00 · 1630 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十二)
Robert Platt是美国东北大学Helping Hands机器人实验室主任、计算机科学教授。原创 2024-11-20 20:00:00 · 1188 阅读 · 0 评论 -
大模型时代的具身智能系列专题(一)
从图灵定义看,知识由感知、智能体环境交互获得,具身智能要拥有足够的知识完成机器人任务。从字面上理解就是具有身体的智能,可以从交互中学习并有可能涌现新能力。近期的具身智能更多和大模型和端到端有关,是通过学习的方式涌现的智能。原创 2024-06-19 20:30:00 · 4022 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十)
该论文提出了一个开源的通用机器人操作策略Octo,论文实验主要评估Octo在零样本多机器人控制和few-shot策略微调中的性能,以及不同设计决策的影响。Octo是一个基于大型transformer的策略预训练,它是迄今为止最大的机器人操作数据集,包含800k个机器人轨迹。Octo可以解决各种开箱即用的任务,Octo的组合设计能够调整新的输入和动作空间,使Octo成为广泛的机器人控制问题的通用初始化。除了模型本身,本方法还发布了完整的训练和微调代码,以及使大型机器人数据集更容易训练的工具。原创 2024-06-05 20:00:00 · 1567 阅读 · 0 评论 -
大模型时代的具身智能系列专题(九)
Lerrel Pinto是NYU Courant的计算机科学助理教授,也是用机器人和人工智能实验室(CILVR小组)的一员。在加州大学伯克利分校读博士后,在CMU机器人研究所读博士,在印度理工学院古瓦哈蒂读本科。研究目标是让机器人在我们生活的混乱世界中进行归纳和适应。研究方向主要集中在机器人学习和决策上,重点是大规模学习(数据和模型),感官数据的表示学习,开发算法来模拟动作和行为,适应新场景的强化学习,以及构建开源的affordable的机器人。原创 2024-06-04 22:07:56 · 1343 阅读 · 0 评论 -
大模型时代的具身智能系列专题(八)
Chelsea Finn是Stanford计算机科学与电气工程系的助理教授。她的实验室IRIS通过大规模的机器人互动研究智能,并与SAIL(斯坦福人工智能实验室)和ML Group(机器学习团队)有合作关系。他还在谷歌的Google Brain团队工作。她对机器人和其他智能体通过学习和互动来发展广泛智能行为的能力感兴趣。他在UC Berkely完成了计算机科学博士学位,师从Sergey Levine,本科毕业于MIT。原创 2024-06-04 20:49:00 · 1021 阅读 · 0 评论 -
大模型时代的具身智能系列专题(二)
自由形式语言指令 L 指定了一个操作问题,例如“打开最顶部的抽屉”。然而,根据 L 生成机器人轨迹是很困难的,因为 L 可能具有任意长度,或者是不明确的(例如,需要上下文语义)。相反,我们专注于问题的各个阶段(子任务)l_i,它们明确地指定了一个操作任务 (例如,“抓住抽屉把手”,“打开抽屉”),其中被分解的子阶段(子任务)L→l1l2lnL→l1l2...ln由高级规划器(例如,一个LLM或一个基于搜索的规划器)给出。原创 2024-05-27 21:13:06 · 1735 阅读 · 0 评论 -
大模型时代的具身智能系列专题(七)
王鹤,北京大学前沿计算研究中心助理教授,本科毕业于清华大学,博士毕业于斯坦福大学,师从美国三院院士Leonidas. J Guibas教授。他创立并领导了具身感知与交互实验室(EPIC Lab),实验室立足三维视觉感知与机器人学,重点关注具身机器人在三维复杂环境中的感知和交互问题,研究目标是以可扩增地方式发展高泛化性的机器人视觉和控制系统。研究成果覆盖物体抓取、功能性操控、灵巧操作及寻物导航。原创 2024-06-03 22:14:46 · 1447 阅读 · 0 评论 -
大模型时代的具身智能系列专题(十一)
马萨诸塞大学阿默斯特分校的一名教员,也是麻省理工学院- ibm沃森人工智能实验室的研究经理。在麻省理工学院博士后期间,和Antonio Torralba教授、Daniela Rus教授和Josh Tenenbaum教授一起工作。在此之前,在清华大学以最高荣誉完成了博士学位,导师是姚期志教授。研究涉及计算机视觉、人工智能、认知科学和机器人技术的交叉领域。研究的首要目标是建立一个类似人类的自主代理,能够在物理世界中感知、推理和行动。原创 2024-06-03 21:09:42 · 1318 阅读 · 0 评论 -
大模型时代的具身智能系列专题(六)
提出了GenSim,一个可扩展的LLM框架,以增强机器人策略的各种仿真任务,其目的是将LLM的基础和编码能力提炼到低级策略中。我们研究了目标导向和探索性方法中的LLM提示、检索增强生成和微调,以生成新的仿真任务代码。我们利用生成的任务来训练多任务策略,这些策略显示了对模拟和现实世界中的新任务的泛化能力。局限性:生成的代码仍然包含基本的语法错误,并且存在幻觉,并且缺乏物理和几何细节的基础。另一个问题是代码生成评估度量是不完美的(例如不一致的语言描述),因此生成的任务可能需要在策略训练之前进行一些手动过滤。原创 2024-05-31 22:15:17 · 1509 阅读 · 0 评论 -
大模型时代的具身智能系列专题(五)
宋舒然是斯坦福大学的助理教授。在此之前,他曾是哥伦比亚大学的助理教授,是Columbia Artificial Intelligence and Robotics Lab的负责人。他的研究聚焦于计算机视觉和机器人技术。本科毕业于香港科技大学。原创 2024-05-29 22:07:36 · 2461 阅读 · 2 评论 -
大模型时代的具身智能系列专题(四)
做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:• RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义信息,无法学会新的行为• 由于机器人数据集总体量级很少,并且无法搜集机器人没有做过的行为。原创 2024-05-28 21:35:40 · 1563 阅读 · 0 评论 -
大模型时代的具身智能系列专题(三)
文章提出了VILA框架来做机械臂task planning,通过闭环视觉反馈的机制,可以根据实际任务进展进行replan,有着较好的鲁棒性,可以给相关研究者带来一些启发。VILA在真机上也达到了很好的效果,推进了这一领域的发展。另外,目前文章还有几处可能的局限和问题:1. 结论解释欠缺:CLIPort-Short(只在单步指令上训练,如:拿起黄色方块)比 CLIPort-Long(在high-level指令上训练,如:把字母按字母序排列)效果差,文章似乎没有对这一点做解释。原创 2024-05-27 22:24:51 · 2886 阅读 · 0 评论