自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 斯坦福&谷歌丨Physically Grounded Vision-Language Models for Robotic Manipulation论文详解

我们展示了在PHYSOBJECTS上微调VLM可以提高其对物理物体概念的理解,包括对保留概念的泛化,通过从视觉外观捕捉这些概念的人类先验知识。我们将这个物理基础的VLM集成到一个交互式框架中,该框架基于大型语言模型的机器人规划器,并展示了在需要推理物理物体概念的任务上,与不利用物理基础VLMs的基线相比,规划性能有所提高。

2024-03-11 19:30:17 1004 1

原创 论文PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large Multimodal Models解读(加州大学)

我们介绍了PhyGrasp,一个多模态大型模型,它利用来自两个模态的输入:自然语言和3D点云,通过一个桥接模块无缝集成。语言模态展现出对各种物理属性对抓取影响的稳健推理能力,而3D模态则理解物体的形状和部分。凭借这两种能力,PhyGrasp能够准确地评估物体部分的物理属性,并确定最佳的抓取姿势。

2024-03-10 11:48:46 1184 1

原创 论文Decision-Making in Robotic Grasping with Large Language Models解读(浙大)

通过利用大型语言模型中包含的丰富语义知识,机器人在面对复杂且微妙的情况时,可以做出明智且符合上下文的决策,从而最终提高它们的决策能力。因此,有效的提示设计,使得LLMs的决策能够适应特定的机器人任务场景,应该是机器人研究者的主要关注点。与传统方法不同,后者只关注生成稳定的抓取,我们提出的方法可以处理个性化的用户指令,并在家庭场景中更有效地执行任务。我们提出了一个机器人抓取框架,它利用人类的自然语言指令,结合大型语言模型,并整合视觉感知和运动规划模块,使家庭助手机器人能够在杂乱环境中自主决策并抓取目标物体。

2024-03-09 20:51:37 905 1

原创 论文Blind Robotic Grasp Stability Estimation Based on Tactile Measurements and Natural Language Prom解读

我们设计并训练了一种神经网络模块的组合,该组合根据触觉传感器测量值和标识物体的自然语言提示预测机器抓取成功率。我们使用配备了两个DIGIT传感器的Franka Emika Panda机械臂进行抓取,并使用chatGPT生成语言描述。我们的近期目标是利用这种方法提高抓取稳定性估计器的准确性。这项工作的长期目标是利用基于语言的上下文来增强触觉驱动的机器人控制,即可能无法从视觉中可靠推断出的与任务相关的信息。

2024-03-09 20:30:22 868

原创 论文InstructPart: Affordance-based Part Segmentation from Language Instruction解读(卡耐基梅隆大学)

我们引入了一个全面的数据库,该数据库包括图像观察、任务描述以及精确的对象-部分交互注释,并辅以部分分割掩模。我们使用这个基准测试对常见的预训练 VLMs 进行了评估,揭示了这些模型在理解和执行日常情境中的部分级任务方面的性能。

2024-03-09 20:23:07 1265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除