- 博客(146)
- 资源 (7)
- 收藏
- 关注
原创 【VLA 中的 VLM】(一) SigLIP 与 PaliGemma及其后续改进
PaliGemma 2 的核心在于将 PaliGemma 所使用的 SigLIP-So400m 视觉编码器与 Gemma 2 系列的全部语言模型结合,涵盖从 2B 到 27B 的各种模型规模。下图:输入图像通过图像Encoder(SigLIP)转换为一系列标记,文本通过 Gemma 的 SentencePiece 分词器转换为标记并嵌入,然后将图像标记和文本标记组合成输入序列(full attention),语言解码器自回归地生成预测文本(casual attention)。
2025-03-31 11:33:21
817
翻译 【论文阅读】Autoregressive Models in Vision: A Survey
自回归模型在自然语言处理(NLP)领域取得了巨大成功。最近,自回归模型在计算机视觉中也成为一个重要的研究领域,它们在生成高质量视觉内容方面表现出色。与NLP中通常操作的子词元不同,计算机视觉中的表示策略可以在不同层级变化,即像素级、标记级或尺度级,反映了视觉数据与语言的序列结构相比的多样性和层次性。本综述全面检查了应用于视觉的自回归模型文献。为了提高来自不同研究背景的研究人员的可读性,我们首先介绍视觉中的初步序列表示和建模。
2024-12-29 16:55:13
265
1
原创 【Robocasa】Code Review
本教程提供了在 robomimic 中实现自定义算法的示例。我们选择实现最近提出的TD3-BC算法。实现 TD3-BC 的自定义Config类。实现 TD3-BC 的自定义Algo类。现在我们定义我们的扫描。policy learning rate,范围为 [1e-3, 1e-4]是否使用 GMM 策略是否使用 RNN 维度为 400 且 MLP 尺寸为 (1024, 1024),或者 RNN 维度为 1000 且没有 MLP注意,学习率位于group1,GMM 启用参数位于group。
2024-12-02 19:34:52
1257
原创 【论文阅读】点云预测-机器人操作
摘要: 本研究提出了一种名为IMAGINATION POLICY的多任务操作策略网络,旨在解决高精度的拾取和放置任务。与传统的动作直接生成方法不同,IMAGINATION POLICY通过生成目标状态的点云并利用刚性动作估计来推断动作。通过引入任务中的几何对称性,IMAGINATION POLICY提高了样本效率,并在RLbench基准上表现出优异的性能。
2024-11-27 13:26:24
1324
1
原创 【论文阅读】三平面相关与变体
相当于点查询公式,TPV 平面沿各自正交方向扩展并相加时,构造出类似于体素特征空间的全尺寸 3D 特征空间,但存储和计算复杂度仅为 O(HW + DH + W D),比体素对应项低一个数量级。与 BEV 相比,由于 TPV 中的三个平面彼此垂直,因此沿一个平面正交方向的点特征会被从其他两个平面采样的特征所多样化,而 BEV 表示会忽略这一点。具体而言,为了获得 3D 空间中点的特征,我们首先将其投影到三个平面中的每一个平面中,并使用双线性插值来获得每个投影点的特征。
2024-11-25 22:00:47
1293
1
原创 【论文阅读】skill code 和 one-shot manipulate
自然语言,作为人类获取新知识的首要媒介,为将人类理解的概念转化为机器可学习格式提供了潜在的直观桥梁。在顶层,模型的任务是学习离散的技能代码;而在底层,策略网络将问题转化为体素化网格,并将离散化的动作映射到体素网格上。我们提出了一种名为不变匹配一次性策略学习(Invariance-Matching One-shot Policy Learning, IMOP)的算法。
2024-08-29 15:34:31
1117
1
原创 【论文阅读】通用的语义-几何表征的机器人操作
旨在通过改进视觉和动作表示来提高样本效率。SGRv2的核心设计是引入了一个关键的归纳偏差——动作局部性(action locality),它认为机器人的动作主要受目标物体及其与局部环境的交互影响。
2024-08-21 20:57:44
1432
2
原创 【强化学习——AI问答】在强化学习部分遇到的模糊概念
由于噪声的均值为0,所以对Q的均值求期望,就等于对x求期望。然而,Q最大值的期望却会大于等于x的最大值,且Q最小值的期望也会小于等于x的最小值。状态价值函数(State-value function),是不是任何一个策略pi,执行下一步所有可能的动作所带来的动作价值的期望。理解为,当前状态下,执行所有可能动作的带来的收益,一定程度上反映了当前状态的优劣?我是这样理解的:DQN是要学一个最优动作价值函数,而最优动作价值函数是在t时刻动作和环境下的,回报期望最大值。强化学习中DQN算法是基于价值学习的。
2024-07-08 09:11:29
299
原创 【论文阅读】LLM+3D (1)
1)利用3DSG的层次性质,允许LLMs通过语义搜索从完整图的较小、压缩表示中寻找与任务相关的子图;2)通过集成经典路径规划器来缩短LLM的规划范围;3)引入一个迭代重规划流程,利用场景图模拟器的反馈来细化初始计划,纠正不可行的动作,避免规划失败。SHAPELLM 架构:SHAPELLM 结合了一个预训练的3D编码器和一个大型语言模型(LLM),用于有效的3D表示学习和理解。特别是,采用了 LLaMA 作为其 LLM,并提出了一个名为 RECON++ 的新型3D模型作为3D编码器。
2024-07-05 13:56:03
1678
1
原创 【Diffusion policy】
3D 感知表示非常适合机器人操作,因为它们可以轻松编码遮挡并简化空间推理。许多操纵任务在末端执行器姿态预测中需要高空间精度,这通常需要高分辨率的 3D 特征网格,而处理起来的计算成本很高。因此,大多数操纵策略直接在 2D 中运行,而忽略了 3D 归纳偏差。在本文中,我们介绍了 Act3D,这是一种,它使用 3D 特征场来表示机器人的工作空间,其自适应分辨率取决于手头的任务。该模型使用感测深度将 2D 预训练特征提升到 3D,并利用它们来计算采样 3D 点的特征。
2024-05-31 08:44:26
1166
原创 【Multi-Task Robotic Manipulation】
PERPACT 使用 Perceiver Transformer 对语言目标和 RGB-D 体素观察进行编码,并通过“检测下一个最佳体素(voxel)动作”输出离散化动作。与操作 2D 图像的框架不同,体素化 3D 观察和动作空间为有效学习 6-DoF 动作提供了强大的结构先验。虽然 PERACT 功能相当强大,但将其扩展到灵巧的连续控制仍然是一个挑战。PERACT 受基于采样的运动规划器的支配来执行离散动作,并且不容易扩展到像多指手这样的 N-DoF 执行器。
2024-04-06 08:37:27
1620
原创 【Functional Affordances】如何确认可抓取的区域?(前传)
如何确定可抓取的区域、利用stable diffusion特征、语义之间的correspondance。
2024-03-27 09:25:18
905
原创 【Functional Affordances】机器人manipulation
本文介绍了Robo-ABC框架,这是一个旨在提高机器人在操作任务中泛化能力的方法,特别是在面对未见过的物体时。Robo-ABC通过从互联网上的人类视频中提取可操作性记忆(包括接触点),使机器人能够通过检索视觉或语义上相似的物体来获取新的可操作性。该框架利用预训练的扩散模型自然地建立对应关系,从而实现跨不同物体类别的可操作性映射。Robo-ABC不需要手动注释、额外训练、部分分割、预编码知识或视角限制,就能以零样本的方式泛化操作跨类别物体。
2024-03-26 11:22:22
1951
原创 【强化学习抓取】偏机器人领域(略)
尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。
2024-03-12 11:32:16
1330
原创 【论文阅读-基于地图重建的导航】Vison-Language Navigation (3)
为了表示以前访问过的环境,VLN 的大多数方法使用循环状态、拓扑图或自上而下的语义图来实现内存我们构建了自上而下的自我中心和动态增长的网格记忆图(即GridMM)来构建访问的环境。从全局角度看,历史观测以自上而下的视角投影成统一的网格图,更能体现环境的空间关系。从局部的角度出发,我们进一步提出了一种指令关联聚合方法来捕获每个网格区域的细粒度视觉线索。大规模预训练在视觉和语言导航(VLN)任务上取得了有希望的结果。
2024-03-04 10:39:59
1652
1
原创 【论文阅读-基于VilLBERT方法的导航】Vison-Language Navigation 视觉语言导航(2)
视觉和语言导航(VLN)需要一个具身的智能体在现实的3D环境中使用自然语言指令进行导航。现有的VLN方法在小规模环境或不合理的路径指令数据集上进行训练,限制了对不可见环境的泛化。YouTube上有大量的房屋游览视频,提供了丰富的真实导航体验和布局信息。然而,这些视频之前还没有为VLN进行过探索。在本文中,我们提出通过创建一个大型数据集来从这些视频中学习智能体,该数据集包含来自房屋参观视频的合理路径-指令对(path-instruction pair),并在其上预训练智能体。
2024-03-01 21:13:15
1201
1
原创 【论文阅读】Vison-Language Navigation 视觉语言导航(1)
我们研究了一个简单的框架,车轮上的CLIP(CoW,CLIP on Wheels),以在不进行微调的情况下使开放词汇模型适应这项任务。为了更好地评估L-ZSON,我们引入了PASTURE基准,该基准考虑了查找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。我们将CoW视为一个使用开放词汇表模型(open vocabulary model)和基于文本的界面在更灵活的环境中处理机器人任务的例子。
2024-02-27 10:18:34
2897
1
原创 开放词汇场景图生成Open vocabulary scene graph generation
提出了一种两步法,该方法首先对大量粗粒度数据进行预训练,然后利用两种基于prompt的技术对预训练模型进行微调,而不更新其参数。本文主要介绍了一种利用预训练视觉-语义空间(VSS)来解决场景图生成(SGG)中的两个难点的方法:1)训练SGG模型需要耗费大量时间和人力进行地面真实注释, 2)现有的SGG模型通常涉及预定义的有限物体类别,限制了它们识别训练语料库之外的新颖物体的能力。
2024-02-22 11:53:56
2388
原创 【论文阅读】GraspNeRF: Multiview-based 6-DoF Grasp Detection
本文首次提出了一种基于多视图rgb的六自由度抓取检测网络GraspNeRF,该网络利用可推广的神经辐射场(NeRF)在杂波中实现与材料无关的物体抓取。我们的系统可以使用稀疏 RGB 输入执行零样本 NeRF 构造,并实时可靠地检测 6-DoF 抓取。
2024-01-26 16:13:21
2221
1
原创 【论文阅读】Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
提出了“Grasp-Anything”,这是一个由基础模型合成的新的大规模抓取数据集,用于机器人抓取检测的新的大规模语言驱动数据集。Grasp-Anything 在多样性和数量上都很出色,拥有100万个带有文本描述的样本和超过300万个对象,超过了以前的数据集。根据经验,我们证明了在基于视觉的任务和真实世界的机器人实验中,抓取任何东西都能成功地促进零镜头抓取检测。
2024-01-26 11:01:48
2303
3
原创 BLIP-2 官方库学习
BLIP-2通过在冻结的预训练图像编码器和大型语言模型(LLM)之间训练一个轻量级的12层Transformer编码器,利用它们,在各种视觉语言任务中实现最先进的性能。最值得注意的是,BLIP-2在可训练参数减少54倍的零样本VQAv2上比Flamingo(800亿参数模型)提高了8.7%。本文提出了 BLIP-2,这是一种通用且高效的预训练策略,可从现成的冻结预训练图像编码器和冻结大型语言模型 引导视觉语言预训练【hidden_size(int,可选,默认为1408)——编码器层和池器层的维度。
2023-12-15 09:53:29
1104
原创 【Code Reading】Transformer in vision and video
最后一行是单独做的实验,去掉了Model2的temporal transformer,直接在帧上做了pooling,EK上的精度下降很多,对于时序强的数据集需要用temporal transformer来做时序信息交互。在论文的Table1中有给出三个模型(Base/ Large/ Huge)的参数,在源码中除了有Patch Size为16x16的外还有。model3的实现和TimeSformer的实现是一样的,去掉cls-token即可,可以参考TimeSformer的文章。,这里把时间维度单独抽出来。
2023-11-02 17:32:10
496
原创 【论文阅读】End-to-End Spatio-Temporal Action Localisation with Video Transformers
e2e,纯基于Transformer的模型,输入视频输出tubelets。无论是 对单个帧的稀疏边界框监督 还是 完整的小管注释。在这两种情况下,它都会预测连贯的tubelets作为输出。此外,我们的端到端模型不需要以建议的形式进行额外的预处理,或者在非最大抑制方面进行后处理。(DETR)
2023-10-31 08:33:53
757
原创 【论文阅读】Efficient Video Action Detection with Token Dropout and Context Refinement
主要讲述了动机和作者针对动机的做法。又说了一下作者工作的指标:与普通 ViT 主干相比,我们的 EVAD 将整体 GFLOPs 降低了 43%,并且没有性能下降的情况下将实时推理速度提高了 40%。此外,即使在类似的计算成本下,我们的 EVAD 也可以在更高分辨率的输入下将性能提高 1.1 mAP。我们希望 EVAD 能够作为未来研究的有效端到端基线。我们的方法的一个局限性是,EVAD 需要重新训练一次,才能获得减少计算量和通过消除冗余进行更快推理的好处。
2023-10-30 17:12:45
627
原创 【StratifiedKFold】分层抽样数据集来减少训练时长
最后一列数据是person id,我们任务中不需要。# 删除最后一列为0的数据= 0]# 再删除最后一列数据。
2023-10-14 20:14:05
300
原创 【Spatial-Temporal Action Localization(五)】论文阅读2020年
MovingCenter Detector (MOCdetector) 通过将动作实例视为移动点的轨迹。通过三个分支生成 tubelet detection results(bbos sequences)。(1)中心分支(Center Branch)用于中心检测和动作识别;(2)运动分支(Movement Branch)用于相邻帧的运动估计,形成运动点的轨迹;(3)盒子分支(Box Branch)用于空间范围检测,通过直接回归每个估计中心的边界框大小。
2023-10-07 11:06:36
1236
1
原创 【YOWO代码解析】
在Code Runner中使用已经配好的虚拟环境。参考下载之后,详细文件如下:1. backbones_2d&backbones_3d主要存放所使用的框架算法。如YOLO中的darknet和3D网络等。2. cfg(config)配置文件,通过修改文件让代码得以部署。这个文件是一个Python配置文件,用于存储和管理各种配置选项。它定义了许多不同的配置参数,用于控制程序的行为和功能。这些配置参数包括输出路径、输入视频路径、模型配置、训练和测试选项、数据集路径等等。通过修改这个配置文件,可以自定义
2023-10-01 16:43:27
694
2
原创 AVA视频数据集制作
下载人员框(train、val、test)并将它们放入注释文件夹中(参见上面的结构)。下载“帧列表”(train、val)并将它们放入frame_lists文件夹中(参见上面的结构)。复制链接使用迅雷下载。下载时,我发现下载的内容有部分缺失,所以写个代码查询哪些视频缺失了。提取帧的文件保存在 frame文件夹的每个以视频命名的子文件夹下,下面的代码可以查询。缺失视频如下,进行下载后上传。原来是后缀为webm的文件无法下载。我们假设 AVA 数据集放置在 data/ava 中,结构如下。
2023-09-23 10:31:27
848
1
原创 【Spatial-Temporal Action Localization(七)】论文阅读2022年
1.提出了一种用于人体动作检测的Tubes Transformer的框架2.基于tubelet-query和tubelet-attention能够生成任意位置和规模的Tubes3.Classification Head能够聚合短期和长期的上下文信息提出了多模态的整体的交互的Transformer网络(multi-modal Holistic InteractionTransformer Network (HIT) ),它利用了大部分被忽视但关键的手和姿势信息,这些信息对大多数人类行为至关重要。
2023-09-21 19:17:55
1620
2
原创 【Spatial-Temporal Action Localization(六)】论文阅读2021年
基于对现有数据集的分析,作者认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步。多人:在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。分类:细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。时序:动作边界定义准确。跟踪:运动速度快,形变大,存在遮挡最近的进展是通过对实体之间的直接成对关系建模来实现的。
2023-09-20 15:20:30
923
1
原创 【Spatial-Temporal Action Localization(四)】论文阅读2019年
时空动作定位需要将两个信息源合并到设计的架构中:(1)来自先前帧的时间信息和(2)来自关键帧的空间信息。当前最先进的方法通常使用单独的网络提取这些信息,并使用额外的融合机制来获得检测。在这项工作中,我们提出了 YOWO,一种用于视频流中实时时空动作定位的统一 CNN 架构。YOWO 是一种单级架构,具有两个分支,可同时提取时间和空间信息,并在一次评估中直接从视频剪辑中预测边界框和动作概率。由于整个架构是统一的,因此可以进行端到端的优化。
2023-09-19 17:40:22
865
1
原创 【Spatial-Temporal Action Localization(三)】论文阅读2018年
时空定位(spatiotemporally localized)原子视觉动作(AVA)主要介绍了数据集的制作过程,是如何筛选和标记的。AVA数据集是google发布的一个视频行为检测与定位的视频数据集,包含在430个15分钟的视频片段中标注了的80种原始动作,这些动作由时间和空间定位,产生了1.58M个动作标签。本文重点是介绍论文中所提出的action location模型。提出一个two stage方法。
2023-09-15 22:17:46
983
1
原创 【Spatial-Temporal Action Localization(二)】论文阅读2017年
动作分类、在整个entire视频时空范围内 聚合局部卷积特征结合双流网络和可学习的时空特征聚合、端到端跨空间和时间汇集并组合来自不同流的信号。(i)跨空间和时间联合池化很重要,但是(ii)外观和运动流最好聚合成它们自己单独的表示。提出了ACtion Tubelet detector (ACT-detector)【动作管状探测器(ACT-探测器)】将每一帧的特征进行时间的堆叠,形成时间序列信息sequences of frames建立在SSD的基础上,并引入了。
2023-09-13 16:11:28
1428
1
原创 【Spatial-Temporal Action Localization(一)】认识时空动作定位
时空动作检测 (spatio-temporal action detection) : 输入一段未剪辑(untrimmed)视频,不仅需要识别视频中动作的起止时序和对应的类别,还要在空间范围内用一个包围框 (bounding box)标记出人物的空间位置。, and, the, andareand时空动作检测的目的是在空间和时间上定位动作实例,并识别动作标签。在本任务的全监督设置中,视频级动作实例的时间边界、帧级动作的空间边界框和动作标签在训练期间提供,并且必须在推理期间检测到。
2023-09-10 09:00:19
1862
1
原创 【笔记记录】MAE:Masked Autoencoders Are Scalable Vision Learners
本文主要介绍了一种基于遮盖自编码器(Masked Autoencoders, MAE)的计算机视觉自监督学习方法。该方法可以简单有效地训练大型模型,并具有良好的泛化性能。文章详细介绍了MAE方法的核心设计和实现细节,并进行了大量的实验验证。实验结果表明,MAE方法在图像分类等下游任务中具有优秀的表现。
2023-09-09 11:41:13
142
原创 【笔记记录】ViT:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
本文主要介绍了一种新的图像识别方法,即直接将Transformer应用于图像识别中,而不是像传统的卷积神经网络一样使用注意力机制。作者将一张图像分成多个块,将这些块的线性嵌入序列直接输入到Transformer中进行分类。作者发现,该方法在大量数据预训练后,可以在多个中小型图像识别基准测试上达到与卷积神经网络相当的成绩,同时训练所需的计算资源也大大减少。
2023-09-08 17:33:04
147
原创 【笔记记录】 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
本文介绍了一种新的语言表示模型 BERT,它是一种深度双向 Transformer 的预训练模型,可以通过联合左右上下文在所有层中进行预训练来创建最先进的模型,无需进行大量的任务特定架构修改,例如问答和语言推理等广泛任务。作者通过两个无监督任务对 BERT 进行了预训练,即 Masked LM 和 Next Sentence Prediction(NSP)。
2023-09-08 11:38:40
141
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人