- 博客(25)
- 收藏
- 关注
原创 SAMURAI:将“任何事物模型”适配为具有运动感知记忆的零-shot视觉跟踪
该论文发布于2024年11月18日本论文代码和结果在和,并指出它们的优缺点。这一部分介绍了模型的主要结构,并指出了相比于 SAM 2 所进行的增强。展示了SAMURAI视觉目标追踪器的总体架构。该图描述了如何将和结合到现有的SAM 2框架中,以提高目标追踪的鲁棒性和准确性。
2025-03-20 16:44:44
565
原创 YOLOE:实时看到任何东西
YOLOE 是一个统一、高效、适用于多种开放提示机制(文本、视觉和无提示)的目标检测和分割模型。它通过创新性的 RepRTA、SAVPE 和 LRPC 三种技术,在减少计算成本的同时,显著提升了开放场景下的检测能力。实验表明,YOLOE 在多个任务和数据集上的表现均优于现有方法,尤其在零样本检测和高效迁移学习方面,具有广泛的应用前景。
2025-03-19 11:43:32
889
2
原创 为精细验证人群跟踪方法开发真实的群体模拟环境
Paper Title: Development of a Realistic Crowd Simulation Environment for Fine-grained Validation of People Tracking Methods发布于2023年4月26日人群数据集:研究提到,获取真实的人群数据集面临许多挑战,例如需要高成本的传感设备。为了克服这些挑战,模拟工具被用来生成合成数据集,模拟工具能根据需求生成特定场景的人群数据,并加快数据生成过程。CrowdSim2 模拟器:研究的核心贡献是开发
2025-03-18 10:00:23
507
原创 一种强大的在线多摄像头人员追踪系统,具有几何一致性和状态感知的重识别修正
该追踪系统的目标是通过结合几何一致性约束和目标的外观信息来提高跟踪精度,尤其在复杂场景中,当有多个人物遮挡或在不同摄像头视角下变化时,系统能够通过其状态感知的Re-ID(重识别)修正机制来解决ID切换的问题。
2025-03-15 11:37:28
593
原创 从姿势到身份:通过特征集中实现免训练的人物重识别
人物重识别(ReID)旨在提取准确的身份表示特征。然而,在特征提取过程中,个别样本不可避免地会受到噪声(如背景、遮挡和模型局限性)的影响。考虑到同一身份的特征在训练后会围绕身份中心遵循正态分布,我们提出了一种无训练的特征集中化ReID框架(Pose2ID),通过聚合相同身份的特征以减少个体噪声,并增强身份表示的稳定性,同时保持特征的原始分布,以便进行后续的策略(如重排序)。
2025-03-13 15:33:20
878
原创 GEN3C:具有精确相机控制的3D信息化世界一致视频生成
GEN3C是通过一个3D缓存来指导生成:该缓存是通过预测种子图像或先前生成帧的逐像素深度获得的点云。在生成下一帧时,GEN3C依赖于3D缓存的2D渲染结果,并使用用户提供的新相机轨迹作为条件。关键是,这意味着GEN3C无需记住之前生成的内容,也无需推断图像结构与相机姿态的关系。相反,模型可以将所有生成能力集中在未观察过的区域,以及将场景状态推进到下一帧。
2025-03-12 16:02:33
974
原创 DINO-X:一个统一的视觉模型,用于开放世界物体检测与理解
本文介绍了DINO-X,一个强大的以物体为中心的视觉模型,旨在推动开放集物体检测与理解领域的发展。为了简化长尾物体检测,DINO-X不仅支持基于文本提示的开放世界检测,还支持通过视觉提示和自定义提示进行物体检测,以应对定制化场景。此外,DINO-X将其能力从检测扩展到更广泛的感知任务,包括分割、姿态估计和物体级理解任务。
2025-03-12 11:19:56
952
原创 DINOv2:无监督学习强大的视觉特征
第一主成分(First Principal Component)是主成分分析(PCA)中的一个概念,PCA是一种常用于降维的技术,它通过将数据投影到一组新的、无关的轴上来减少数据的维度。这些新轴称为“主成分”,它们按照方差的大小排序,第一个主成分对应数据中方差最大的一条方向,也就是数据变异性最大的一条轴。PCA在图像处理中的作用是从图像的不同区域(块)中提取出最具代表性、信息量最大的特征,用于后续的图像分析或匹配。通过这些主成分,可以在变化了姿势、风格或者物体的图像中找到相同的部分,并去除背景的干扰。
2025-03-10 19:21:47
606
原创 寻找Dino:一个即插即用的框架,用于通过原型无监督地检测分布外物体
PROWL 提供了一种 零样本、无监督、即插即用 的 OOD 目标检测方案,适用于各种 自动驾驶、铁路、海事等复杂环境。未来研究可进一步优化 原型匹配策略,提升对小目标的检测能力,并探索更广泛的应用场景。
2025-03-10 16:16:46
1061
原创 OSDaR23:2023年铁路开放传感器数据
该报告主要介绍了一个多传感器数据集,旨在促进铁路自动驾驶系统的研究与开发。数据集包括了多种传感器数据,如红外(IR)与可见光(RGB)摄像头、激光雷达(Lidar)、雷达以及位置与加速度传感器。数据集包含了大量的注释数据,涵盖了20个不同的对象类别,如行人、动物、铁路设施和交通信号等。
2025-03-08 16:38:29
758
原创 olmOCR:用视觉语言模型解锁PDF中的万亿标记
PDF文档有潜力为语言模型训练提供万亿个新颖的高质量标记。然而,这些文档的类型多种多样,格式和视觉布局各异,这使得提取并忠实地呈现其中的内容以供语言模型使用变得具有挑战性。本论文提出了olmOCR,这是一个开源的Python工具包,用于将PDF处理成干净、线性化的纯文本,按照自然的阅读顺序,同时保留结构化内容,如章节、表格、列表、公式等。
2025-03-08 14:20:28
598
原创 MTP:通过多任务预训练推动遥感基础模型
本论文介绍了一种用于构建遥感(RS)基础模型的多任务预训练(MTP)方法。MTP 采用共享编码器和任务特定解码器架构,有效地对卷积神经网络和视觉变换器骨干网络进行预训练,涵盖三个任务:语义分割、实例分割和旋转物体检测,并在统一的监督学习框架下进行训练。
2025-03-05 11:40:00
634
原创 Magma:多模态AI智能体的基础模型
Magma是视觉-语言(VL)模型的一个重要扩展,它不仅保留了VL模型的理解能力(语言智能),还具备在视觉-空间世界中进行规划和行动的能力(空间-时间智能),能够完成从UI导航到机器人操作等各种智能体任务。
2025-03-04 15:05:41
1055
原创 提取任意深度: 蒸馏方法打造更强的单目深度估计器
本论文提出了跨上下文蒸馏,它将局部精细化与全局一致性相结合,使得模型能够学习到细节和结构上下文。我们的多教师框架,整合了基于扩散的模型和编码器-解码器网络,在多个基准测试中达到了最先进的性能。未来的工作可以提高无标签数据蒸馏的效率。
2025-03-04 12:30:46
1217
原创 Depth Anything V2
Depth Anything V2 是一个先进的单目深度估计模型,致力于通过合成数据和伪标签增强深度预测的精度和鲁棒性。相比于V1版本,V2通过替换所有真实标签图像为合成图像、扩大教师模型的容量以及通过伪标签训练学生模型,显著提升了深度预测的细节和场景复杂度处理能力。此外,V2模型比基于Stable Diffusion的最新模型(如Marigold)在推理速度和准确性方面表现更好,且提供多种规模的模型,适应不同应用场景。同时,研究者构建了一个新的评估基准DA-2K,以应对现有测试集的噪声和多样性不足的问题。
2025-02-17 15:10:50
488
原创 测试时间自适应(TTA)在分布变化下的全面综述
(如生成对抗网络,GAN)来生成目标领域的样本,使得模型能够通过生成的目标领域样本进行训练,从而提高在目标领域的表现。(正则化就是防止模型过拟合,增强模型的泛化能力,通常是通过对不重要的特征的系数变为0,或对模型参数进行惩罚,或丢弃一些神经元俩来实现)虽然HTL假设没有显式地访问源领域的原始数据或目标任务的相关分布,但它可以利用源模型来有效地引导目标任务的学习过程。HTL的核心思想是将预训练模型从源任务转移到目标任务,尽管目标任务的数据分布可能与源任务不同,但我们假设目标任务和源任务之间存在某种。
2025-02-07 11:24:31
941
原创 RadarCam-Depth:雷达相机融合,通过学习的公制尺度进行深度估计
(Scale Ambiguity Problem)是单目深度估计领域的一个核心挑战,指的是从单张图像中很难直接获取绝对的物理尺度信息。其根本原因在于,单目相机在捕获三维场景时会将三维信息投影到二维平面上,导致深度信息的丢失,而这一信息丢失无法通过单张图像直接恢复。由于单目图像的深度预测值是无尺度的,是相对深度值,不包含绝对物理尺度信息。相机坐标系:Xc:指向前方的轴。通过细化后的尺度图和全局对齐后的深度图,计算最终的度量深度图。Pc=[Xc,Yc,Zc]T 是相机坐标系下的点。
2025-01-13 16:51:39
1006
原创 MULDE:通过去噪分数匹配进行多尺度对数密度估计方法用于视频异常检测
1. 对象级建模:使用预训练的对象监测器(例如YOLO,Faster R-CNN)来检测视频中的对象,检测到的对象通过一个特征提取器转换为固定长度的特征向量。MULDE使用神经网络对多尺度噪声下的视频特征的负对数密度进行建模,然后使用高斯混合模型GMM对该分布进行拟合,生成概率密度的估计。3. 多样的异常行为:异常的形式多种多样,难以穷举定义。从图中可以看出,负对数密度可以对正常数据取较低的值,对异常数据取较高的值。对给定的特征向量x,通过对他添加不同的噪声水平,生成一系列的噪声特征。
2024-12-15 13:15:40
685
原创 用于无监督视频异常检测的隐私异常协作学习 (CLAP):新基线
无监督异常监测在视频异常监测中尤为重要,无监督学习需要大量的数据用来训练,然后从中找出正常数据的分布,不符合分布的就是异常数据,通常训练的数据中有大量的正常数据,少量的异常数据。但在现实中,由于数据隐私的原因,有些数据无法公开的,导致了训练数据的规模不够,所以影响了无监督视频异常监测的实际监测效果,本论文提出的协作学习在这种情况下非常有益。它的核心思想是:数据不离开本地,而是在本地完成模型训练,只有模型参数或梯度在参与方之间传输。功能:用联邦学习的方法聚合所有参与方上传的模型参数,生成全局的异常监测模型。
2024-12-14 22:21:35
423
原创 PointCLIP:通过 CLIP 理解点云
一个创新性的方法 PointCLIP,实现了将 CLIP 模型的 2D 视觉-语言预训练知识迁移到 3D 点云
2024-11-24 23:53:27
769
原创 基于深度图将CLIP预训练模型用到3D点云数据分类任务
在本文中,提出了 CLIP2Point,它预训练深度编码器以使 CLIP 知识适应 3D 领域。引入了一种深度图像预训练方法,该方法包括模态内和跨模态对比学习,以弥合深度编码器的深度特征和 CLIP 视觉编码器的图像特征之间的域差距,并保持多视图的不变性深度分布。
2024-11-21 19:36:02
940
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人