GigaVision:计算机视觉与千兆像素摄像的融合
1. 引言
随着技术的发展,图像和视频已能达到千兆像素级别的分辨率,这为众多应用和行业带来了新的可能性。然而,传统的计算机视觉方法主要针对百万像素级别的数据,难以处理千兆像素级别数据的复杂性,在精度和效率上存在显著局限。
2. PANDA 数据集
2.1 现有数据集的问题
现有的以人为中心的视觉分析数据集存在诸多问题,限制了对人群复杂行为和交互的理解:
- 视野与分辨率的权衡 :现有数据集在宽视野和高分辨率之间存在固有折衷。例如,广角相机虽能覆盖全景,但球员的空间分辨率低;长焦镜头相机能捕捉局部细节,但视野范围小。
- 时空信息有限 :存在空间分辨率低、缺乏视频信息、人类外观和动作不自然以及活动范围有限和短期标注等问题。
2.2 PANDA 数据集的提出
为解决上述问题,提出了千兆像素级以人为中心的视频数据集 PANDA。该数据集具有以下特点:
- 多尺度特征 :
- 全局宽视野 :可见面积超过 1 平方公里。
- 局部高分辨率细节 :具有千兆像素级的空间分辨率。
- 长时间人群活动 :总共有 43.7k 帧。
- 真实场景 :包含多样化的人类属性、行为模式、尺度、密度、遮挡和交互。
- 丰富的标注
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



