- 博客(19)
- 收藏
- 关注
原创 【数据集】EgoTracks:一个长期的以自我为中心的目标跟踪数据集
第一人称或“自我中心”视觉旨在捕捉智能体所面临的现实世界中的感知问题;它作为高度相关的视觉领域,最近引起了强烈的兴趣,其重要应用范围从机器人到增强和混合现实等。视觉目标跟踪(VOT),长期以来一直是视觉中的一个基本问题,是许多以自我为中心的任务的核心组成部分,包括跟踪动作或活动的进展,建立包围目标对象的(重新)关联,以及预测环境的未来状态。然而,尽管VOT领域在过去十年中取得了许多重大进展,但以自我为中心的视频中的跟踪仍然未得到充分探索。
2025-01-06 22:09:27
1098
原创 【浅显易懂系列】Pytorch快速认识和掌握向量乘积运算
在PyTorch中,向量和矩阵之间的不同乘积操作非常关键,尤其是在进行深度学习模型构建和数学运算时。下面,我将详细解释您提到的几种乘积类型,并提供具体的代码示例和使用场景。
2024-09-11 10:16:22
816
原创 【浅显易懂系列】目标跟踪各大派别的划分
从最早的相关滤波算法到如今的深度学习方法,目标跟踪算法在原理、性能和应用场景上均取得了显著进步。传统方法计算效率高,但处理复杂情况能力有限;深度学习方法则通过强大的特征表示和学习能力,显著提高了跟踪的准确性和鲁棒性。未来,随着技术的不断发展,目标跟踪算法将在更多领域展现出其巨大的应用潜力。
2024-09-10 11:40:31
1640
原创 【浅显易懂系列】DETR详细解释,一看就懂也!
DETR(Detection Transformer)是一种基于Transformer的目标检测模型,它通过端到端的训练来直接预测目标的位置和类别。下面,我将选取DETR模型中的核心部分,使用PyTorch进行逐行解释,并注释其维度。
2024-09-05 11:22:35
1553
3
原创 【浅显易懂系列】目标检测Anchor和Proposal以及Two- stage和Single-stage
浅显易懂的讲解目标检测相关知识点,今天是:anchor和proposal,two-stage和one-stage
2024-09-04 10:59:10
1449
原创 【浅显易懂系列】BA光束法平差法
BA光束法平差是一种通过优化相机位姿和三维点坐标来减小重投影误差的技术。它广泛应用于摄影测量和计算机视觉领域,是构建高精度三维模型的重要工具。通过数学公式和通俗事例的结合,我们可以更深入地理解BA的基本原理和优化过程。
2024-09-03 19:00:12
1439
原创 【阅读笔记】Learning Video Representations from Large Language Models从大型语言模型学习视频表征信息
LAVILA,一种新的方法来利用大模型去学习视频语言表示。重新利用预先训练的大模型,以适应视觉输入,并微调他们创建自动视频注释器。作者团队的自动生成的叙述提供了许多优势,包括长视频的密集覆盖,视觉信息和文本的更好的时间同步,以及更高的文本多样性。与这些叙述对比学习的视频语言嵌入在多个第一人称和第三人称视频任务中的表现优于以前的最先进技术,无论是在零样本和微调设置中。最值得注意的是,LAVILA在EGTEA分类中获得了10.1%的绝对收益,在Epic-Kitchens-100多实例检索基准中获得了5.9%的绝
2023-10-13 13:43:28
710
原创 【阅读笔记】 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone
视频语言预训练(VLP)由于其可以推广到各种视觉和语言任务中的能力而变得十分重要。然而,现有的第一视角VLP框架利用单独的视频和语言编码器,并且仅在微调期间学习特定于任务的跨模态信息,从而限制了统一系统的开发。在这项工作中,作者提出了第二代第一视角视频语言预训练(EgoVLPv2)模型,这是对上一代的重大改进,通过将跨模态融合直接纳入视频和语言主干。EgoVLPv2在预训练期间学习强视频-文本表示,并重用跨模态注意力模块,以灵活高效的方式支持不同的下游任务,降低微调成本。此外,相较于堆叠额外的融合特定的层的
2023-09-19 16:07:29
664
1
原创 【必备知识】 三维空间/坐标转换/相机知识
以下内容包含了2D坐标与3D坐标系之间的转换以及关于相机场的基础知识,理解这部分内容可以更快入门SLAM相关、多视角合成、三维空间变换等内容。
2023-08-29 10:04:54
2499
4
原创 【必备知识】评估指标介绍
以下内容是针对常用常见的几项评价指标的介绍,在深度学习以及人工智能的领域内,我们必须熟知并且理解,下面会通过简明扼要的介绍进行讲解,通俗易懂,非计算机专业人员也可以理解并掌握。
2023-08-23 15:54:59
594
原创 【阅读笔记】 EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding
第一视角视频理解模型的最新进展是具有潜质的,但其昂贵的计算成本却是很多基于现实世界中的应用程序的发展障碍。为了解决这一挑战,作者提出了EgoDistill,一种基于蒸馏的方法,通过将稀疏视频帧语义信息和由轻量IMU读取的头部运动信息相结合,学习并重构第一视角的视频片段特征。同时,作者进一步设计了一种新的自监督训练策略,用于进行IMU特征学习。他们的方法可以显著提高效率,需200倍甚至更少的GFLOPs.
2023-08-04 01:14:59
454
1
原创 ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System
现有的深度视频模型受到特定任务、固定输入输出空间和泛化能力差等因素的限制,难以在现实场景中进行部署。在本文中,作者提出了一个多模态和多功能的视频理解的视觉原型系统,名字叫ChatVideo。他们这个系统建立在以轨迹tracklets为中心的方法范式基础上,这个方法将轨迹本身视为基本的视频单元,采用多种视觉基础模型来注释它们的属性,例如外观、动作等所有检测到的轨迹片段都存储在数据库中,并通过数据库管理器与用户交互。
2023-07-12 16:02:16
2179
2
原创 基于机器学习的视频防抖处理
视频防抖稳定该怎么解决?现今有哪些值得借鉴的方式?一起来看看吧随着时间的推移,机器人将会获得一个实际的偏移角度,对这种漂移影响最大的因素是陀螺仪的偏置稳定度规格,这是衡量陀螺仪在长时间段内测量结果稳定性的一个指标。如果将机器人开启一个小时并且不移动它,陀螺仪在一个小时结束时读取的数值就不是零。也就是说如果开电一个小时,机器人放置静止,一个小时后可能机器人会产生20-30度的偏转角度,而开电十分钟之内可能会产生3度左右的偏转,这些偏移角度都将是机器人前进方向相比...
2022-09-01 11:55:17
5220
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人