Ming_Chens-优快云博客

原创小样本学习系列工作（持续更新）

有关小样本学习的各类文章通常会将其方法分成几个大类：基于度量学习的小样本方法、基于数据增强的小样本学习方法和基于模型初始化的小样本学习方法。我觉得这样分类并不好，因为三种方法之间并不是各自独立存在的，大多数情况下都是有交集的，比如一篇工作可能既使用了元学习的训练策略，同时又在度量方法上进行了创新。因此在梳理工作的时候，还是按照论文的顺序来梳理比较好，每篇工作都有他的特点，其思考的角度都不尽相同。

2024-01-21 16:43:08 1815

原创 Transformer 可解释性论文整理（超级详细）

前段时间想进一步的了解transformer的工作原理，于是找到了几篇可解释性的文章进行阅读，发现了许多比较有趣的现象和结论，对每篇文章都有自己的深度思考和理解，在此记录，欢迎交流。

2024-01-21 10:00:18 3452

原创小样本跨域（cross-domain）系列工作（超级详细）

本文记录近期阅读过的小样本跨域相关论文，每一篇文章都经过了自己的深入思考和总结，按照：解决什么问题、动机、方法、数据集、结论和启发的顺序进行总结，同时会有部分细节的补充。

2024-01-20 22:12:23 5292 2

当我开始接触“小样本”这个术语的时候，给我的第一感觉就是他的数据集很小（这也是我入坑小样本学习最开始的原因，以为炼丹不需要太久），相信很多人有个同样的感觉，但是事实上并不是这样的，在我将小样本学习这一方向介绍给自己的同门或者其他同学的过程中，我发现很多人也都对小样本有着同样的误解。实际上，小样本的“小”并不是体现在数据集上。相反，小样本的数据集是很大的，比如常用的mini-imagenet有6万张图片，更大的tiered-ImageNet有779165张图片，所以说数据集并不小。

2024-01-04 14:12:36 9830 1

原创小样本学习idea（不断更新）（2024.1.30更新）

同时这个调整的参数站整个网络的很大一部分，占很大一部分的原因是总的网络的参数量很小，所以只需要微调很小的部分参数就能达到不错的效果。匈牙利算法可以用在support 和 query进行特征匹配（多尺度）的过程，这样做的目的是通过匈牙利算法，每个support的能且只能找到与他最匹配的那一个query中的特征，而不会多个相似的特征关注于query中的同一个相似的特征，这样就能不局限于图片的某一个区域，而是同时关注与图片的多个区域，然后再利用多个区域的总和（相当于考虑到各个区域的特征），去进行分类的决策。

2023-12-22 23:14:40 1873 2

原创 AAAI2024

AAAI中稿心得

2023-12-17 16:32:01 1283 9

原创 Any2Policy: Learning Visuomotor Policy with Any-Modality（类似AnyGPT）

为了解决这一限制，我们提出了一个名为 Any-to-Policy Embodied Agents 的端到端通用多模态系统。我们设计了嵌入式对齐模块，旨在同步不同模态之间的特征，以及指令和观察，确保不同输入类型的无缝和有效的集成。：我们的创新方法包括训练一个通用模态网络，该网络适应各种输入，并与策略网络连接以进行有效控制。实验：我们组装了一个包含30个机器人任务的综合真实数据集。

2024-12-12 09:15:58 619

原创 ALOHA Unleashed: A Simple Recipe for Robot Dexterity

论文链接：https://readpaper.com/pdf-annotate/note?：我们表明，ALOHA 2 平台上大规模数据收集的简单配方，结合表达模型，例如扩散策略，可以有效地学习具有挑战性的双手动操作任务，涉及可变形对象和复杂的接触丰富的动态。），而其他方法使用一组模型权重，该权重以语言或目标图像为条件来执行多个任务。然而，这种方法在几个方面受到限制：一次仅针对一项任务训练策略（

2024-12-12 09:15:01 473

原创 The Ingredients for Robotic Diffusion Transformers

最后，请注意 D.P.Transformer 基线无法解决我们的任何任务，因为不稳定的训练会导致嘈杂的/不安全的动作预测。因此，我们得出结论，DiT-Block 策略比基线更稳定地学习扩散策略转换器。实验：我们的第一个任务集考虑了双手动、低成本的 ALOHA 机器人 [8]，这使我们能够研究具有高度灵巧、精确行为的挑战性场景。这个简单的技巧在包含超过 1000 个决策的长范围、灵巧的、真实世界的操作任务上将性能提高了 30%+（牛逼）！此外，我们的观察tokenizer的消融表明，，解码器块利用定制的。

2024-12-12 09:14:07 1129

原创 Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

使用这种联合observation-action表示，它使用学习的扩散过程计算低级机器人动作，该过程迭代更新机器人的虚拟渲染。这种空间统一简化了学习问题，并引入了对样本效率和空间泛化至关重要的归纳偏差。实验：simulation setting：RLBench。与其他的方法相反，我们建议在统一的观察-动作空间中使用扩散模型。该策略消除了学习单独观察和动作空间之间复杂映射的复杂性，简化了学习过程并提高其样本效率和泛化能力。在观察空间中表示低级动作使我们能够简化学习问题并提高学习策略的样本效率和空间泛化能力。

2024-12-10 16:37:35 929

原创 Effective Tuning Strategies for Generalist Robot Manipulation Policies

Octo已经证明，扩散头优于GMPs的朴素线性头，这与预期一致。然而，在微调上下文中，我们的结果与此相矛盾。如III所示，线性头明显优于扩散头，在20个演示设置中实现了近两倍的精度。只微调head 的效果不好，需要全部微调。此外，微调GMP的优势在于few-shot学习场景，而在数据丰富的环境中，其准确性优势可能会降低。首先，与绝对关节位置相比，Delta 关节位置显然与预训练的差距更小，因为两者都使用 delta 动作空间。实验：各种消融实验，设计的都比较合理。，但在足够的数据下变得没有必要。

2024-12-10 16:13:40 859

原创 3D Diffusion Policy

DP3 使用直接高效的 MLP 编码器将稀疏采样的点云编码为紧凑的 3D 表示。随后，DP3 将随机噪声去噪为连贯的动作序列，以这种紧凑的 3D 表示和机器人姿势为条件。：为了解决这个具有挑战性的问题，我们提出了 3D 扩散策略 (DP3)，这是一种新的视觉模仿学习方法，它将 3D 视觉表示的力量整合到扩散策略中，这是一种条件动作生成模型。这些消融研究强调，DP3 的成功不仅仅是由于使用了 3D 视觉表示，而且还因为它精心设计了(与其他3d的方法进行对比，发表时间：Sep 2024。

2024-12-10 15:58:52 515

原创 RDT-1B: A DIFFUSION FOUNDATION MODEL FORBIMANUAL MANIPULATION

（为了进一步使在异构数据上训练 RDT，我们提出了物理可解释的统一动作空间，这是各种带有夹持器臂的机器人的统一动作格式。这种创新的格式减轻了不同机器人之间的潜在冲突，同时保留了原始动作的物理含义，这可以促进模型学习跨不同机器人数据集的可泛化物理知识。：RDT建立在扩散模型的基础上，有效地表示多模态，具有可扩展的Transformer的创新设计来。，它可以统一各种机器人的动作表示，同时保留原始动作的物理含义，促进学习可转移的物理知识。，与传统的 DiT 中的类标签条件形成对比）。

2024-12-10 15:18:22 1009

原创 ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

3）我们在两个真实机器人平台上展示了系统实现，该平台将语言指令和 RGB-D 观察作为输入，并为各种操作任务生成多阶段、野外、双手动和反应行为，所有这些都没有特定于任务的数据或环境模型。实验：各种各样真实场景的任务（包括单臂和双臂，包括具有常识知识的野外规范、具有时空依赖性的多阶段任务、与几何意识的双手动协调以及与人类和干扰下的反应性）。，使它们 1) 适用于不同的任务，2) 无需手动标记，以及 3) 由现成的求解器可实时生成机器人动作。用于在 SE(3) 中获得密集的末端执行器动作序列，受生成的约束。

2024-12-10 14:51:31 611

原创 DATA SCALING LAWS IN IMITATION LEARNING FORROBOTIC MANIPULATION

我们观察到，执行的动作序列之间的不连续会导致切换过程中的抖动运动（解决抖动问题）。每个推出都是从这些多个策略中随机选择的，同时确保对象和机械臂的相同初始条件，从而实现跨策略的公平比较。（基于这些发现，我们建议为每个环境-对象对（即 K = 50）收集 50 个演示，以完成与我们的难度相似的任务。实验：研究准确率与环境的数量、物体的数量、 demo的数量之间的关系（原文做了很多图表）。扩大环境和对象的多样性比仅仅增加每个单独环境或对象的演示数量更有效。收集数据的环境和物体的类别数量尽量多，

2024-12-10 11:31:25 746

原创 Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

可以完成不同的下游任务：we use task-specific action decoders, dubbed "head", to produce the action outputs.在预训练阶段，每次迭代只更新主干（trunk）参数，并根据训练批次采样更新每个异构实施例和任务的stems and heads。提出Heterogeneous Pre-trained Transformers (：如何处理本体和视觉信息？实验：最小的HPT只有3.1M，最大的1.1B。：没有使用语言（指令）。

2024-12-10 11:07:17 957

原创 R3M: A Universal Visual Representation for Robot Manipulation

给定一批视频，我们训练编码器产生一个表示，这样在时间上更接近的图像之间的距离小于时间或不同视频的图像。（也就是把同一视频的相近时间步的帧当作正类，其他的帧和其他的视频的图像当作负类。：存在问题：状态分布偏移是模仿学习被广泛研究的失败的模式，其中行为克隆训练的策略偏离专家状态分布。，但我们的重点是（1）从人类视频数据中学习，因此环境和任务的分布更大，以及（2）预训练视觉表示，而不是策略或模型。预训练视觉表示，以鼓励稀疏和紧凑的表示。）同样有益，但 RL 的良好预训练表示与用于模仿的良好预训练表示不同的情况。

2024-09-05 20:50:30 1299

原创 One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

接下来，我们在每个支持场景 si 内应用图自注意力，并在相同的支持演示中对连续帧 si 和 s′i 的 KNN 图之间进行交叉注意。IMOP不是直接学习所需的末端执行器的姿态，而是学习每个任务的关键不变区域，并在one-shot demonstration和给定的测试场景中找到不变区域之间的成对对应关系。对于每个新任务，只有一个记录的轨迹作为演示给出。提出了一种基于对应的操作任务姿态回归方法，该方法通过匹配关键视觉元素来预测机器人的动作，在KNN图上连接演示和测试场景的基于图的不变区域匹配网络。

2024-09-05 20:49:39 784

原创 One-Shot Imitation Learning

它处理演示网络产生的当前状态和嵌入，并输出上下文嵌入，其维度不依赖于演示的长度，或环境中的块数量。训练的时候是使用的同一任务的两个demonstration，先学一个，然后再去预测第二个demonstration的action，利用第二个demonstration的action的ground truth去进行有监督的学习（即元学习训练方法）因此，经过适当训练的网络可以学习将当前状态与演示中的相应阶段进行匹配，并推断源块和目标块的身份，表示为不同块上的软注意力权重，然后用于提取相应的位置传递给操作网络。

2024-09-05 20:48:01 1064

原创 One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

我们的方法使用原始相位预测器将测试时间人类视频分解为原语，为每个原语计算一个策略序列，并依次执行每个策略，直到每个策略都被认为是完整的，再次利用相位预测器。：在本文中，我们考虑了一个学习的问题设置，通过模仿来执行多阶段任务，机器人必须映射原始图像的观察到动作，演示是通过执行整个任务的人类的原始视频提供的。：我们考虑从执行任务的人类的单个视频中学习真实机器人上的多阶段基于视觉的任务的问题，同时利用子任务与其他对象的演示数据。我们的方法利用来自先前原始技能的演示来学习识别原语的末尾并为原语元学习策略。

2024-09-05 20:46:56 482

原创 One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

元测试阶段的任务和元训练阶段是类似的。符合元训练和元测试的基本的数学原理：在元训练期间，观察 ot 和 at 的动作，我们的方法学习 θ 和 Ψ。在元测试期间，只有观察结果可用，我们的方法结合学习到的先验 θ 和因子 Ψ 来推断特定于任务的策略参数 φ。与依赖精确手部检测和预先构建的视觉系统的方法相比，我们的方法是端到端训练的，：在这项工作中，我们提出了一种通过使用来自各种先前任务的人类和机器人演示数据从人类视频中一次性学习的方法，，把人类的演示作为支持集，机械臂的观察作为查询集，进行元学习的训练和测试。

2024-09-05 20:45:51 963

原创 One-Shot Visual Imitation Learning via Meta-Learning

在标准的MAML框架中，在“前梯度更新”和“后梯度更新”中（没搞懂这两个的区别，好像是类似MAML外循环和内循环），使用的网络是相同的，都输出的是action，并且都使用标准的loss function。本文中，我们做出了这样的尝试：“前梯度更新”和“后梯度更新”依旧共用前面所有的架构，只是输出动作之前的最后一个隐藏层不再共享，而是一人一个隐藏层，称之为两个不同的“head”。与之前关于一次性模仿的方法不同，我们的方法可以扩展到原始像素输入，并且需要来自明显更少的先前任务的数据来有效地学习新技能。

2024-08-28 21:15:01 955

原创 WATCH, TRY, LEARN: META-LEARNING FROM DEMONSTRATIONS AND REWARDS

本文的主要贡献是一种元学习算法，可以通过单一的演示和试验经验来学习新行为。在收到说明新目标的演示后，元训练代理可以通过少量仅具有二进制成功或失败标签的试错（人类反馈）来学习实现这一目标。我们的目标是构建一个代理，它首先可以从一个演示中推断出策略，然后在收到二进制用户反馈(成功还是失败的反馈)时使用该策略尝试任务，最后使用反馈来改进其策略，使其能够始终如一地解决任务。：在任务歧义或未观察到的动态存在的情况下，仅通过演示可能无法提供足够的信息；然而，学习复杂的基于视觉的任务可能需要不切实际的演示次数。

2024-08-28 21:13:59 359

原创 Transformers for One-Shot Visual Imitation

在这里，机器人被赋予一个例子，以视频或演示的形式（例如视频 + 控制遥测），并且必须利用这些信息来执行相同任务的新实例。该演示用于更新策略函数的参数，并在机器人上执行更新后的策略。这允许策略通过使用上下文帧只关注重要的特定于任务的细节，自动将其特征适应手头的任务。这里的主要结论是，在网络设计和损失函数方面注入正确的偏差——可以帮助策略在测试期间表现更好。训练神经网络来模拟给定来自另一个agent的上下文视频的ground truth机器人动作，并且在测试时提示新视频时必须泛化到看不见的任务实例。

2024-08-28 21:12:48 1031

原创 Task-Embedded Control Networks for Few-Shot Imitation Learning

TecNets 对可以学习的任务数量没有严格的限制，并且在训练期间不容易忘记先前学习的任务（因为每个任务的s都是保存好的），或者之后。：就像人类一样，机器人应该能够利用来自先前学习任务的知识，以便在新的和不熟悉的环境中快速学习新任务。然后将来自任务嵌入网络的sentence平铺并逐通道连接到控制网络的输入（如图 2 所示），从而产生（宽度、高度、3+N）的输入图像，其中 N 表示sentence向量的长度。：演示的图像被嵌入到任务的紧凑表示中，可以组合起来创建一个句子sentence。

2024-08-28 21:11:42 717

原创 LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models

我们使用 LLM 直接生成计划而不是对可接受的技能进行排名，从而消除了对环境有足够的先验知识，同时还显着减少了对 LLM 的调用次数。LLM-Planner的另一个独特优势是它能够根据agent在当前环境中观察到的内容动态重新规划，从而产生更接地的plan。当训练示例较少时，更多的上下文示例（in-context example）更有益（给大语言模型的例子），因为从中检索的有用示例较少。在我们的算法中，重新规划将在两个条件中的任何一个下触发：1）代理无法执行动作，或 2）在固定时间步数之后。

2024-08-28 21:10:42 1073

原创 RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

(iii) 自我生成的数据。两种专家轨迹类型的主要区别在于，由于 RL 代理在现实世界中的行为方式，代理数据提供了相当平滑和高效的轨迹，而远程操作数据通常包括暂停，因为远程操作者使用类似于 bang-bang 控制器的行为。作为实现这一目标的步骤，我们在非常大的不同操作行为数据集上训练 RoboCat：精确和灵巧的基于视觉的任务，我们的agent通过利用转换器基于上下文的输入和输出可变长度序列的能力，在本地处理这些变化，而不需要常见的动作或观察表示。，这些数据后来被添加以训练我们的agent的新迭代。

2024-08-28 21:09:58 815

原创 Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets

使机器人能够以数据有效的方式学习新的视觉运动技能仍然是一个未解决的问题，有无数的挑战。解决这个问题的一种流行范式是利用大量未标记的数据集，这些数据集在其中具有许多行为，然后使用少量特定于任务的人工监督（即干预或演示）将策略适应特定任务。(C) 然后，我们在特定任务和重述数据的混合上使用行为克隆训练策略。通过这样做，与näıvely混合数据或仅使用特定于任务的数据相比，它能够更有效地从任务特定和离线数据的混合中学习。：首先，一个主要的限制是我们当前的查找依赖于状态和动作的压缩嵌入空间中的相似性。

2024-08-28 21:07:32 460

原创 MAML算法详解

MAML是元学习的经典论文，也是基于optimization based meta-learning方法的开山之作，后序很多工作都是follow这篇工作。目前已经有13140的引用，其算法思想很巧妙，值得反复品读。，这样在泛化到新的任务的时候，模型就能只进行少量的优化，就能达到一个比较好的性能。而传统的预训练是为了找到一组在预训练的所有任务上表现得都比较好的参数。这里参考李宏毅老师的讲解，

2024-08-25 22:05:20 470

原创 PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation

这种基于体素的形式提供了强大的结构先验，有几个好处：融合多视图观察的自然方法、学习稳健的以动作为中心的表示和启用 6-DoF 中的数据增强——所有这些都有助于通过关注多样化而不是狭窄的多任务数据来学习可泛化的技能。：在这项工作中，我们的目标是利用voxel patches 的 3D 结构，以实现与Transformer有效的6自由度行为克隆(类似于视觉转换器[4]如何利用图像patch的2D结构)。我们发现更多的潜在向量通常会提高代理对更多任务进行建模的能力，但对于简单的短视距任务，更少的潜在就足够了。

2024-08-16 10:39:46 717

原创 RVT-2: Learning Precise Manipulation from Few Demonstrations

然后将跨视图的热图分数反向投影到 3D 中，其中每个 3D 点接收分数，该分数是其 2D 投影接收的分数的平均值。通过我们的架构和系统级的改进，我们能够提高RVT的速度和有效性。使用架构和系统级改进的组合，我们提出了 RVT-2，这是一种多任务 3D 操作模型，在训练中快 6 倍，推理速度比其前身 RVT 快 2 倍。最后，虽然 RVT-2 将多任务 3D 操作的整体性能提高了 17 个点，但该任务仍然远未通过 RVT2 解决，在模拟中的成功率为 82%，在现实世界中为 72%。是对上一篇RVT 的改进。

2024-08-16 10:38:34 626

原创 RVT: Robotic View Transformer for 3D Object Manipulation

具体来说，对于每个视图，我们渲染三个图像图，共7个通道:RGB (3 channels), (2) depth (1 channel), and (3) (x, y, z) coordinates of the points in the world frame (3 channels). 重新渲染过程将输入图像解耦为喂给transformer的图像。(2) 沿空间维度的最大池化图像特征的串联。正如预期的那样，以更高的分辨率渲染的虚拟图像帮助，因为虚拟图像分辨率为220的RVT优于100的图像。

2024-08-16 10:37:42 675

原创 OpenVLA: An Open-Source Vision-Language-Action Model

在撰写本文时，完整的 OpenX 数据集由 70 多个单独的机器人数据集组成，具有超过 2M 机器人轨迹，这些轨迹被汇集成一个连贯且易于使用的数据格式，以巨大的社区努力。我们为 OpenVLA 模型测试了一个简单的微调方法：对所有模型参数进行完全微调，使用目标任务的 10-150 个演示的小型数据集。然而，VLA 对机器人技术的广泛采用具有挑战性，因为 1）现有的 VLA 在很大程度上是封闭的并且公众无法访问的，以及 2）机器人动作预测数据和互联网规模的视觉语言数据的联合训练是否大大提高了VLA的性能。

2024-08-15 16:56:41 1768 2

原创 Octo: An Open-Source Generalist Robot Policy

仍有改进模型的工作，包括更好的语言条件反射，改善手腕摄像头的支持，并将数据纳入最佳演示之外。重要的是，我们发现基于 ResNet 的架构在小数据集上训练时比 ViT 表现更好，例如，在我们的“从头开始”比较中，强调大型 Transformer 策略非常适合跨不同数据集的可扩展训练。：在不同的机器人数据集上预先训练的大型策略有可能转换机器人学习:这种具备多种能力的机器人策略不是从头开始训练新的策略，而是。：我们设计了一个预训练多种能力的机器人策略的系统，更适合下游机器人应用中的多样性。

2024-08-15 16:55:44 1215

原创 A3VLM: Actionable Articulation-Aware Vision Language Model

边界框B的宽度、高度和长度是根据链路的最远点与中心之间的距离来计算的。：a representation that describes the object's articulation structure and action affordance simultaneously. 与之前的以机器人为中心的动作表示[3,21]相比，A3VLM的表示是以对象为中心的，这使得在不收集昂贵的机器人交互数据的情况下学习对象的可操作模型，并且各种机器人可以使用相同的学习对象模型。：了解铰接物体的关节和动作可供性。

2024-08-15 16:54:41 1273

原创 ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Larg

为了将这种特定于机器人的知识与 MLLM 固有的视觉推理能力无缝集成，我们采用了。affordances可能因手头的特定任务 T 而异，工具的不同区域可用于不同的功能。ManipVQA 训练协议集成了一对主要的视觉语言任务：引用表达理解 (REC) 和引用表达生成 (REG)（REC与REG刚好是一对对应的任务）。：尽管MlLMs取得了进步，但传统的 MLLM 通常在通用图像文本对上进行训练，缺乏必要的机器人知识，例如。我们对自然语言表示和训练样本中的可视性和物理概念进行建模，并与一般的VQA框架一致。

2024-08-15 16:52:50 889

原创 Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model

可以是任意的视觉模型，比如SAM，clip）。：受llm和多模态基础模型结合的巨大潜力的启发，我们的目标是开发一般的机器人操作系统。（middle-level decision-making actions，应该指的就是生成的可以直接调用API的code，不是hilg-level的规划，也不是直接生成low-level的动作。. 任务相关变量，包括任务指令中使用的image crops和图像到图像的转换，存储在可以通过API访问的环境。，基础模型的任何改进都可以提高动作的准确性，而不会带来额外的成本。

2024-08-15 16:50:54 809

原创 Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

随后，由于预训练的 MLLM 缺乏故障识别能力（使用失败的示例进行微调，使模型具备失败识别能力），我们使用图 2 步骤 2 所示的失败检测提示来微调我们模型的注入适配器。具体做法为：为了生成每个对象的局部区域的旋转，我们根据模型预测的接触点选择一个操作框，并在选定的框区域内生成旋转。最后，我们将位置和旋转的校正反馈作为模型的输入提示相结合。：为了释放一般的MLLM作为端到端机器人agent，我们引入了一个自校正(SC)-MLLM，使我们的模型不仅能够预测末端执行器的姿态，而且还能够自主识别和纠正故障动作。

2024-08-14 11:58:38 794

原创 Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

对于不可移动的情况，我们利用法线方向与对象交互，如果位置是可移动的，通常会导致轻微的运动。末端执行器的运动向量，取末端执行器的三个点确定姿势（具体看原文），如果有多次将物体移动的错误，就把这多个错误（多次尝试）进行 perform cross products，得到更加准确的axis direction。为了定义拉动的成功，我们需要初始物体和最终物体姿态之间的0.01多个单元的差异，或者相对于铰接部分的总运动范围0.5以上，我们还需要预测夹持器方向与物体实际运动方向的点积大于0.3。

2024-08-14 11:57:02 1111

原创 REFLECT: Summarizing Robot Experiences for FaiLure Explanation and CorrecTion

此外，对于可以改变状态的对象（例如微波可以打开和关闭），我们根据对象的检测到的边界框裁剪图像并计算裁剪图像和预定义对象状态标签列表之间的 CLIP 嵌入 [33] 的余弦相似度。（注意这里的帧是图像信息和音频信息的混合）为了确保语言模型生成的计划在环境中可执行，我们采用了Huang等人的思想，使用大型预训练句子嵌入模型将每个LLM生成的动作映射到任务环境中最接近的可执行动作。，这可以通过一种方法（例如提示 LLM）来放松（可以通过LLM达到更多的状态定义，更加泛化），该方法输出给定对象类别的可能状态。

2024-08-14 11:54:10 988

空空如也

空空如也