卫星图像检测，分割，跟踪，超分辨率，数据集调研，以及论文笔记

原创

已于 2024-09-04 11:43:49 修改 · 4k 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #python #图像处理 #目标跟踪

于 2024-08-12 22:47:47 首次发布

卫星图像检测，分割，跟踪，超分辨率，数据集调研

超分辨率
跟踪
检测
其他
- WHU-Stereo: A Challenging Benchmark for Stereo Matching of High-Resolution Satellite Images
遥感图像语义分割
zp
- Unsupervised Satellite Video Deep Intrinsic Decomposition Using Physical Prior Constraints
- MP2Net: Mask Propagation and Motion Prediction Network for Multi-Object Tracking in Satellite Videos
数据集
视频单/多标签分类
总结
目前卫星视频数据集总结

超分辨率

Image super-resolution: A comprehensive review, recent trends, challenges and applications

A Review of GAN-Based Super-Resolution Reconstruction for Optical Remote Sensing Images

Remote Sensing Image Super-Resolution via Multiscale Enhancement Network

跟踪

High-resolution Satellite Video Object Tracking Based on ThickSiam Framework(2023 简称 ThickSiam 用于SOT)

数据源：吉林卫星1号

现有的遥感和自然场景目标检测数据集被用来共同训练ThickSiam框架，以实现不同领域之间的适应性，并从静态图像到动态跟踪任务的可行性。我们构建了一个用于卫星视频单目标跟踪（SOT）任务的公开测试数据集，其中包括八个视频中的十二个目标，覆盖飞机、船舶、火车和车辆四个类别。在该数据集上与其他19个跟踪器进行了对比实验，结果显示ThickSiam框架表现优越。

在本研究中，建立了一个手动标注的测试数据集，用于进行消融实验并验证跟踪器的性能。该数据集包括从八个视频中提取的12个目标，总共包含5550帧，涵盖飞机、船舶、火车和车辆四个类别。跟踪的目标在每一帧中都用水平边界框手动标注。考虑到目标外观的轻微变形，同一目标在不同帧中的边界框范围有所不同。构建的测试数据集的缩略图如图6所示。

视频1、2、4、5、6、7和8来自由长光卫星技术有限公司提供的“吉林1号”卫星。序列图像的地面采样距离（GSD）为0.92米。视频3是从国际空间站（ISS）下载的，由Deimos Imaging和UrtheCast提供。序列图像的GSD为1米。每个视频都标记了SS、PO、PoV、PTBD、SD和PGFI属性，这些属性代表了卫星视频单目标跟踪（SOT）任务中的挑战。这些实验数据集的详细描述见表2。

MBLT: Learning Motion and Background for Vehicle Tracking in Satellite Videos（2022 简称XDU-BDSTU 用于SOT）

为了定量评估所提方法的性能，从由吉林一号拍摄的九个城市中选择了20个具有代表性的卫星视频目标（车辆）并用矩形框标注，进一步形成一个数据集。这九个城市分别是：巴林-穆哈拉格、利比亚-德尔纳、西班牙-瓦伦西亚、突尼斯、土耳其-阿达纳01、土耳其-阿达纳02、美国-明尼阿波利斯01、美国-明尼阿波利斯02，以及美国-旧金山（分别在阿达纳和明尼阿波利斯选取了两个场景）。我们以这九个城市的首字母将该数据集简称为XDU-BDSTU1。表I列出了XDU-BDSTU在所选城市、图像大小、目标大小、帧数以及具有挑战性的属性方面的详细信息。XDU-BDSTU中的目标涵盖了卫星视频中车辆跟踪可能遇到的大多数情况。图6展示了XDU-BDSTU在特定帧中的目标。图5展示了这九个城市以及从这些城市中选取的XDU-BDSTU的各个目标位置。由于卫星视频的低分辨率（约1米），车辆尺寸相对较小（见表I），且车辆外观高度相似（见图6）。卫星相机覆盖范围广，视频中每帧的尺寸约为2160 × 4096或2160 × 3840（见表I）。因此，较少特征（LF）、低分辨率（LR）、大小比例失衡（SO）和背景复杂性（BC）是该数据的挑战性方面。由于复杂的道路条件，遮挡（OCC）也是一个挑战因素。此外，光照变化（IV）也是一个挑战点。车辆旋转也是一种可能情况，因此平面内旋转（IPR）也是一个挑战。在所有这些属性中，除了我们在介绍部分总结的内容外，我们还参考了[6]、[7]、[41]和[4]的分类结果。

除了来自吉林一号卫星的视频外，我们还选择了由SkySat卫星于2014年3月25日在美国内华达州拉斯维加斯拍摄的卫星视频。该视频分辨率为1米，帧率为30 fps。该卫星视频场景的第一帧如图7所示。我们选择了该视频中两个典型区域的车辆目标，并对其进行了标注，形成了两个数据集SkySat1和SkySat2。红色框对应SkySat1，绿色框对应SkySat2。表II和表III总结了这两个数据集在图像大小、目标大小、帧数和挑战性属性方面的详细信息。这些数据集也在[42]–[44]中使用。

在这里插入图片描述

Deep Learning-Based Object Tracking in Satellite Videos: A comprehensive survey with a new dataset（2022 简称sv248s 用于SOT ）

数据源：吉林1号
单位：西安电子科技大学

Detecting and Tracking Small and Dense Moving Objects in Satellite Videos: A Benchmark（2022 VISO 检测＋SOT+MOT）

数据源：吉林卫星1号
单位：国防科大
具体：
如上所述，VISO 数据集 [18] 也支持卫星视频中的目标跟踪，提供了 3,159 个单目标跟踪任务的序列和 47 个包含 3,711 个单独实例的多目标跟踪任务序列，目标类别包括飞机、汽车、船只和火车。数据集中原始场景的分辨率为 12,000 × 5,000 像素，视频帧率为 10 FPS。

VISO [18] 数据集：由国防科技大学于 2022 年发布，是一个移动物体检测和跟踪数据集，包含 47 个视频序列，这些序列由吉林一号卫星拍摄，逐帧标注了车辆、飞机、船只和火车，共 1,646,038 个标注实例。数据集只标注了移动物体，其中超过 90% 的物体是车辆。

Satellite video single object tracking: A systematic review and an oriented object tracking benchmark（2024重点）

摘要：卫星视频（SV）中的单个物体跟踪（SOT）能够连续获取任意物体的位置和距离信息，在遥感应用中具有广阔的前景。然而，现有的跟踪器和数据集很少关注 SV 中定向物体的 SOT。为了弥补这一差距，本文全面回顾了涵盖普通视频和卫星视频领域的各种跟踪范例和框架，随后提出了定向物体跟踪基准（OOTB），以推动视觉跟踪领域的发展。 OOTB 包含来自 110 个视频序列的 29,890 个帧，涵盖常见的卫星视频对象类别，包括汽车、轮船、飞机和火车。所有帧都人工标注了定向边界框，每个序列都标注了 12 个细粒度属性。此外，我们还提出了一个高精度评估协议，以便对跟踪器进行全面、公平的比较。为了验证现有的跟踪器并探索适合 SV 跟踪的框架，我们对 33 种最先进的跟踪器进行了基准测试，这些跟踪器共有 58 个模型，具有不同的功能、骨干和跟踪器标签。最后，我们还提供了广泛的实验和深刻的思考，以帮助理解它们的性能，并为未来的研究提供基准结果。 OOTB 可在 https://github.com/YZCU/OOTB 上查阅。

使用的卫星图像：
在这里插入图片描述
目前，视频卫星仍处于发展阶段，数量有限。如表2所示，SV主要由SS、JL、ISS和Carbonite-2（CB）提供。CB由Surrey Satellite Technology（SSTL）开发，提供1.2米GSD RGB视频，能够捕捉大约120秒的视频。表1展示了一些视频卫星的详细配置和参数。如表2所示，大多数跟踪器使用JL SVs，因为其质量较高。被跟踪的对象主要是汽车、船只和飞机，因为这些对象常见且具有适中的长宽比。相比之下，火车对象具有较大的长宽比，这增加了跟踪的难度。因此，火车的跟踪非常具有挑战性，需要在未来的研究中给予更多关注。

VISO（Yin等，2022）是一个大规模数据集，具有广泛的HBB标注，适用于各种SV任务，包括移动对象检测、SOT和多对象跟踪。其中，SOT数据集提供了3,159个跟踪段，约1.12M帧。SatSOT（Zhao等，2022）特别关注SV中的SOT，包含105个序列，27,664个HBB标注，11个属性和四类典型对象（即汽车、船只、飞机和火车）。SV248S（Li等，2022c）提供了来自JL的六个SVs中的248个对象，包含10个属性和三种对象类别（即汽车、飞机和船只）。它使用紧密多边形来标注对象，特别有效地表示具有相对复杂轮廓的飞机对象。XDUBDSTU（Zhang等，2022）包含11个属性和来自九个JL SVs的20个对象，专门用于SV中的车辆跟踪。对象标注使用HBB。ThickSiam_D（Zhang等，2023）包括从八个SVs中获得的12个对象，总共有5.55K帧，标注为HBB。此外，SAT-MTB（Li等，2023），一个最新的多任务基准数据集，已被提出用于SV中的目标检测、跟踪和分割。所提出的OOTB包含110个序列，涵盖典型的对象类别，如汽车、船只、飞机和火车，具有12个挑战性属性和总共29,890帧。它是针对SV中SOT的特定数据集，并包括了（He等，2022；Yin等，2022；Zhao等，2022）中的一小部分数据。值得注意的是，这是第一个应用细致OBB标注的基准，以尽可能确保对象的尺度、中心、方向和运动方向的准确性。

标注格式：

具体来说，OBB描述包括四个角点的坐标。我们使用roLabelImg软件，并放大10倍以进行准确的注释。图5展示了一个火车的注释示例。roLabelImg的标注格式为(x, y, w, h, θ)，其中(x, y)表示中心点，w、h和θ分别表示边界框的宽度、高度和旋转角度。为了符合通用描述，我们将注释格式转换为四位小数的浮点类型，
在这里插入图片描述

测试的几个属性

总结
这个数据集专用于单目标跟踪，标注有方向的框，还测试了多种通用sot目标跟踪方法在自己数据集上的性能，注意通用数据集的cle=20，但是卫星图像中目标更小，cle设置为5，文章结果显示，siam系列的跟踪器相较于trnasformer，在卫星图像上的性能更好。这个数据集对象主要是4种：车，火车，飞机，船。

SatSOT: A Benchmark Dataset for Satellite Video Single Object Tracking（2022 SatSOT 单目标跟踪）

图像源：吉林卫星
官方介绍链接

SatSOT 包含 105 个卫星视频序列： SatSOT 的平均视频长度为 263 帧，最短的视频为 120 帧，最长的视频为 750 帧。 SatSOT 包含卫星视频目标跟踪中的重大挑战，如小目标、复杂背景和严重遮挡。

SatSOT 数据集 [17]：由中国科学院空间利用技术与工程中心于 2022 年发布，是一个专注于卫星视频单目标跟踪的数据集。它包含 105 个视频序列，共 27,664 帧，数据来源于三种商业卫星：吉林一号、Skybox 和 Carbonite-2。数据集中的目标类别包括汽车、飞机、船只和火车。数据集中原始场景的分辨率为 12,000 × 5,000 像素，视频帧率为 10–25 帧/秒（FPS）。

Multi-Object Tracking in Satellite Videos with Graph-Based Multi-Task Modeling（2022 简称AIR-MOT 多目标跟踪）

数据来源：吉林一号
摘要：
摘要— 近年来，卫星视频已成为地球观测的一种新兴手段，提供了跟踪移动目标的可能性。然而，现有的多目标跟踪器通常为自然场景设计，未考虑遥感数据的特性。此外，大多数跟踪器由检测和重识别（ReID）两个独立阶段组成，这意味着它们无法相互促进。为此，我们提出了一种名为TGraM的端到端在线框架，用于卫星视频中的多目标跟踪。该框架从多任务学习的角度将多目标跟踪建模为图信息推理过程。具体而言，我们提出了基于图的时空推理模块，以挖掘视频帧之间潜在的高阶关联。此外，考虑到检测和重识别之间优化目标的不一致性，我们设计了一种多任务梯度对抗学习策略来规范每个任务特定的网络。此外，针对该领域数据稀缺的问题，我们构建了一个大规模、高分辨率的吉林一号卫星视频数据集（AIR-MOT）用于多目标跟踪实验。与最先进的多目标跟踪器相比，TGraM在检测和重识别之间实现了高效的协同学习，将跟踪精度提高了1.2多个目标跟踪精度。代码和数据集将在线提供（https://github.com/HeQibin/TGraM）。

数据集：
AIR-MOT总共包含5736个实例，来自149个视频，这些视频是由“吉林一号”卫星在2017年10月至2020年10月期间从世界不同地区收集的十个完整场景。如表I所示，这些视频有超过70个时间戳，帧率为5–10 FPS，分辨