计算机视觉/深度学习数据集

本文汇总了多个领域内的图像与视频数据集资源,包括ISPRS、EuroSDR、Middlebury、KITTI等,涵盖了航空、无人机、立体匹配、三维重建、自动驾驶、人脸识别等多种应用场景,是计算机视觉研究不可或缺的资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 ISPRS数据集
ISPRS官方提供了航空、无人机、倾斜影像数据进行密集匹配和三维重建,以下给出相应的数据获取地址。注意这三组数据的下载都是免费的,但是需要填写登记表并用邮件发给数据提供方,提供方会将最终的下载链接发至邮箱。

1.1 航空数据

一共提供了两组航空实验数据,一组是高楼林立的加拿大Toronto地区,另一组是半农村地区的德国Vaihingen地区。两组数据的航向重叠度为60%,旁向重叠度为30%。

链接:http://www2.isprs.org/commissions/comm3/wg4/detection-and-reconstruction.html

1.2 无人机数据

链接:http://www2.isprs.org/commissions/comm1/icwg15b/benchmark_main.html

1.3 倾斜数据

链接:http://www2.isprs.org/commissions/comm1/icwg15b/benchmark_main.html

2 EuroSDR数据集
一共提供了两组航空实验数据,一组是高楼林立的德国Muenchen地区,另一组是半农村地区的德国Vaihingen地区。两组数据的航向重叠度为80%,旁向重叠度为60%。

链接:http://www.ifp.uni-stuttgart.de/ISPRS-EuroSDR/ImageMatching/index.en.html

3 Middlebury数据集

Middlebury视觉网站提供了计算机视觉领域研究立体匹配最重要的标准测试集,该网站给出的影像都是经过核线校正的近景影像。影像类型十分丰富,包含弱纹理、重复纹理、阴影、光照差异等难以处理的情况下的立体影像。

链接:http://vision.middlebury.edu/stereo/data/

4 KITTI数据集
KITTI针对自动驾驶领域的研究,给出了丰富的街景立体核线影像。

链接:http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=flow

5 中科院自动化所数据集
国内的中科院自动化研究所提供了多组近景三维重建的数据集。

链接:http://vision.ia.ac.cn/zh/data/index.html

6. CIFAR-10 & CIFAR-100
    CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。

    (类别:airplane,automobile, bird, cat, deer, dog, frog, horse, ship, truck)

    (作者:Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton)

    (数据格式:Python版本、Matlab版本、二进制版本<for C程序>)

     CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。每个图像有一个"find" label和一个"coarse"label。
 

7. 图像分类结果及对应的论文
    图像分类结果及应的论文,包含数据集:MNIST、CIFAR-10、CIFAR-100、STL-10、SVHN、ILSVRC2012 task 1     

    ILSVRC: ImageNet Large Scale Visual Recognition Challenge

8. ImageNet
    ImageNet相关信息如下:

    1)Total number of non-empty synsets: 21841
    2)Total number of images: 14,197,122
    3)Number of images with bounding box annotations: 1,034,908
    4)Number of synsets with SIFT features: 1000
    5)Number of images with SIFT features: 1.2 million

9. COCO
    COCO(Common Objects in Context)是一个新的图像识别、分割、和字幕数据集,它有如下特点:

    1)Object segmentation

    2)Recognition in Context
    3)Multiple objects per image
    4)More than 300,000 images
    5)More than 2 Million instances
    6)80 object categories
    7)5 captions per image
    8)Keypoints on 100,000 people

    COCO 2016 Detection Challenge(2016.6.1-2016.9.9)和COCO 2016 Keypoint Challenge(2016.6.1-2016.9.9)已经由Microsoft发起 由ECCV 2016(ECCV:European Conference On Computer Vision )。

10. 3D数据
   1)RGB-D People Dataset

   2)NYU Hand Pose Dataset code

   3)Human3.6M (3D Human Pose Dataset)

         - 《Iterated Second-Order Label Sensitive Pooling for 3D Human Pose Estimation》

11. 人脸Dataset
   1)LFW (Labeled Faces in the Wild) 

12. Stereo Datasets
   2)Middlebury Stereo Datasets

   3)KITTI Vision Benchmark Suite
 

转载:https://blog.youkuaiyun.com/VisualMan_whu/article/details/53809811

https://blog.youkuaiyun.com/u014696921/article/details/53083894

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值