姿态估计等数据集收集整理;
LSP:
样本数:2K
关节点个数:14
全身,单人
Leeds Sports Dataset [12]及其扩展[13],我们将通过LSP共同表示。它们包含11000个训练和1000个测试图像。这些是来自体育活动的图像,因此在外观和特别是关节方面非常具有挑战性。
FLIC
样本数:2W.
关节点个数:9
全身,单人,FLIC由从电影中拍摄的5003张图像(3987次训练,1016次测试)组成。 图像在上半身注释,大多数图形直接面向相机。
MPII
样本数:25K
关节点个数:16
全身,单人/多人,40K people,410 human activities
MPII Human Pose由大约25k个图像组成,为多人提供注释,提供40k注释样本(28k训练,11k测试)。
MSCOCO
样本数:>= 30W
关节点个数:18
全身,多人,keypoints on 10W people。118,287.张
AI Challenge
样本数:21W Training, 3W Validation, 3W Testing
关节点个数:14
全身,多人,38W people
打分标准Metrics:
- LSP、FLIC、MPII:
Percentage of Correct Parts (PCP)
Percent of DetectedJoints (PDJ).(pcp改进版本)
- COCO:
MAP
mask rcnn 是把2014组合了,也就是coco 2017,包括对应的annotations具体为:
train2014:person_keypoints_train2014.json (80k)
val2014: ①person_keypoints_val2014.json
②person_keypoints_minival2014.json (5k ,常用验证集)
③ person_keypoints_valminusminival2014.json (35k)
train 2017=person_keypoints_train2014.json +person_keypoints_valminusminival2014.json
也就是训练集有 115k张图片。准确数字为118,287.张
1 gpu下,2img/gpu;一个epoch 为57500iters。作者是12.17个epoch,也就是约为 72万。
| "keypoints_coco_2014_train": { | |
| "img_dir": "coco/train2014", | |
| "ann_file": "coco/annotations/person_keypoints_train2014.json", | |
| }, | |
| "keypoints_coco_2014_val": { | |
| "img_dir": "coco/val2014", | |
| "ann_file": "coco/annotations/person_keypoints_val2014.json" | |
| }, | |
| "keypoints_coco_2014_minival": { | |
| "img_dir": "coco/val2014", | |
| "ann_file": "coco/annotations/person_keypoints_minival2014.json", | |
| }, | |
| "keypoints_coco_2014_valminusminival": { | |
| "img_dir": "coco/val2014", | |
| "ann_file": "coco/annotations/person_keypoints_valminusminival2014.json", | |
| }, |
此数据集要求在具有挑战性、不受控制的条件下定位人员关键点。
train: trainval dataset (57k图像和15万个人实例)。
validated: minival dataset (5000 图像)。
testing sets :test-dev set(20k imgs) +test-chanllenge set(20k imgs)
are evaluated in OKS-based mAP.(object keypoints similarity 不同人姿态的相似性)
那么:
img_batch==2,num_GPU=1, 57000/2=28500 iters/epoch 72000 才 2.79 个epoch
img_batch==2,num_GPU=8, 57000/16=3562.5 iters/epoch 90000 约为 25 个epoch
25个epoch 我需要 712500 也就是所谓的 720000
MSCOCO 2014: 包含150 k多个train实例和8万多个test实例,250k个带有17个关键点的Person实例。该数据集中的人员的重叠频率低于众包,并且它的人群索引集中在接近于零的地方。
keypoints-challenge2016:(弃)它包括105 698次train和大约80 000次testing human instances。训练集包含100多万个标有标签的关键点。测试集分为四个大致相同大小的划分:测试挑战、测试开发、测试标准和测试保留。
MSCOCO 2017: 包括trainval dataset(57k图像和15万个人实例。我们评估了我们在val2017集和test-dev2017集上的方法,分别包含5000张图像和20k图像。
COCO 2014+minival ==2017
2018 : 训练集和验证集的标注是公开的(超150k个人和170万已标注关键点)。数据集包括超200k张图片和250k个标注有关键点信息的人物实例(COCO中大部分人物都是中等或大尺寸),这里是下载地址。
mpii人体姿态数据集[2]包括从广泛的真实世界活动中拍摄的图像,并附有全身姿态注释。大约有25k张有40k个主题的图片,其中有12k个测试对象和其余的训练对象。数据增强和训练策略与ms coco相同,但与其他方法相比,输入大小为256×256。
下面是转载的,不记得转谁的了 侵权请告知。
在 2017 年之前,测试集有四个拆分 (dev / standard / reserve / challenge)。 从 2017 年开始,将测试集简化为只有 dev / challenge 拆分,其他两个拆分被删除。
2017 Test Set Splits
2017测试集拆分
2017 年 COCO 测试集包含 ~40K 个测试图像。 测试集被分成两个大致相同大小的分割约 20K 的图像: test-dev 和 test-challenge。
| split | #imgs | submit limit | scores available | leaderboard |
| Val | ~5K | no limit | immediate | none |
| Test-Dev | ~20K | 5 per day | immediate | year-round |
| Test-Challenge | ~20K | 5 total | workshop | worksho |
Test-Dev: test-dev split (拆分) 是在一般情况下测试的默认测试数据。通常论文中提供的结果应该来自于 test-dev 集,以便公正公开比较。每位参与者的提交次数限制为每天上传 5 次以避免过拟合。请注意,每个参与者只能向公众排行榜发布一次提交 (然而,论文可能会报告多个测试开发结果)。测试开发服务器将保持全年开放。
Test-Challenge: test-challenge split 被用于每年的 COCO 比赛。结果在相关研讨会 (通常是 ECCV 或 ICCV) 中公布。每个参与者的提交数量限制在挑战过程中最多5次上传。如果您提交多个条目,则基于 test-dev AP 的最佳结果将被选中作为参赛者的参赛作品。请注意,每个参与者只能向公众排行榜发布一次提交。测试挑战服务器将在每年的比赛前保持一段固定的时间。
属于每个 split 的图像在 image_info_test-dev2017 (用于 test-dev)和 image_info_test2017 (用于 test-dev 和test-challenge) 中定义。test-challenge 图像的信息没有明确提供。相反,在参与挑战时,必须在完整的测试集 (包括test-dev 和test-challenge) 上提交结果。这有两个目标。首先,参与者在挑战研讨会之前通过在 test-dev 中看到评估结果,获得关于他们提交的自动反馈。其次,在挑战研讨会之后,它为未来的参与者提供了一个机会,可以与test-devsplit 的挑战条目进行比较。我们强调,当提交到完整的测试集 (image_info_test2017) 时,必须在所有图像上生成结果而不区分拆分。最后,我们注意到,2017年的 dev / challenge 分组包含与2015年 dev / challenge 分组相同的图像,因此跨越多年的结果可以直接进行比较。
2015 Test Set Splits
该测试集用于 2015 年和 2016 年的检测和关键点比赛。它不再使用,评估服务器关闭。
2014 Test Set Splits
The 2014 test set is only used for the captioning challenge. Please see the caption eval page for details.
https://arxiv.org/pdf/1603.06937.pdf
We evaluate our network on two benchmark datasets, FLIC [1] and MPII HumanPose [21]. FLIC is composed of 5003 images (3987 training, 1016 testing) takenfrom films. The images are annotated on the upper body with most figures facingthe camera straight on. MPII Human Pose consists of around 25k images withannotations for multiple people providing 40k annotated samples (28k training,11k testing). The test annotations are not provided so in all of our experimentswe train on a subset of training images while evaluating on a heldout validationset of around 3000 samples. MPII consists of images taken from a wide range ofhuman activities with a challenging array of widely articulated full-body poses.
我们在两个基准数据集FLIC [1]和MPII HumanPose [21]上评估我们的网络。 FLIC由从电影中拍摄的5003张图像(3987次训练,1016次测试)组成。 图像在上半身注释,大多数图形直接面向相机。 MPII Human Pose由大约25k个图像组成,为多人提供注释,提供40k注释样本(28k训练,11k测试)。 没有提供测试注释,因此在我们的所有实验中,我们训练一部分训练图像,同时评估约3000个样本的保持验证集。 MPII由来自各种各样的人类活动的图像组成,具有广泛关注的全身姿势。
Evaluation is done using the standard Percentage of Correct Keypoints (PCK)metric which reports the percentage of detections that fall within a normalized distance of the ground truth. For FLIC, distance is normalized by torso size, andfor MPII, by a fraction of the head size (referred to as PCKh).
使用标准的正确关键点百分比(PCK)度量进行评估,该度量报告落在地面实况的标准化距离内的检测百分比。 对于FLIC,距离通过躯干大小标准化,对于MPII,通过头部大小的一小部分(称为PCKh)标准化。
FLIC:Results can be seen in Figure 6 and Table 1. Our results on FLIC arevery competitive reaching 99% PCK@0.2 accuracy on the elbow, and 97% onthe wrist. It is important to note that these results are observer-centric, whichis consistent with how others have evaluated their output on FLIC.
FLIC:我们对FLIC的结果非常有竞争力,达到99%PCK 肘部精确度为0.2,腕部精度为97%。 值得注意的是,这些结果是以观察者为中心的,这与其他人如何评估其在FLIC上的输出一致。
We achieve state-of-the-art results across all joints on the MPII Hu-man Pose dataset. All numbers can be seen in Table 2 along with PCK curves inFigure 7. On difficult joints like the wrist, elbows, knees, and ankles we improveupon the most recent state-of-the-art results by an average of 3.5% (PCKh@0.5)with an average error rate of 12.8% down from 16.3%. The final elbow accuracyis 91.2% a
MPII:我们在MPII Hu-man Pose数据集的所有关节上实现了最先进的结果。 表2中可以看到所有数字以及图7中的PCK曲线。在手腕,肘部,膝盖和脚踝等困难关节上,我们将最新的最新结果平均提高3.5%(PCKh @ 0.5)平均错误率为12.8%,低于16.3%。 最终肘关节准确率为91.2%,腕关节准确度为87.1%。 网络MPII做出的示例预测可以在图5中看到nd wrist accuracy is 87.1%. Example predictions made by the networkon MPII can be seen in Figure 5
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42237.pdf
DatasetsThere is a wide variety of benchmarks for hu-man pose estimation. In this work we use datasets, which have large number of training examples sufficient to train alarge model such as the proposed DNN, as well as are real-istic and challenging.The first dataset we use is Frames Labeled In Cinema(FLIC), introduced by [19], which consists of 4000 train-ing and 1000 test images obtained from popular Hollywood movies. The images contain people in diverse poses and es-pecially diverse clothing. For each labeled human,10 upper body joints are labeled.The second dataset we use is Leeds Sports Dataset [12]and its extension [13], which we will jointly denote by LSP.Combined they contain 11000 training and 1000 testing im-ages. These are images from sports activities and as such are quite challenging in terms of appearance and especially articulations. In addition, the majority of people have 150pixel height which makes the pose estimation even more challenging. In this dataset, for each person the full body is labeled with total 14 joints.
数据集人体姿势估计有各种各样的基准。在这项工作中,我们使用数据集,其中有大量的训练样例足以训练大型模型,如建议的DNN,以及真实和具有挑战性。我们使用的第一个数据集是Frames Labeled In Cinema(FLIC),介绍由[19]组成,其中包括从好莱坞流行电影中获得的4000张训练图像和1000张测试图像。这些图像包含各种姿势的人和各种各样的服装。对于每个标记的人,标记了10个上身关节。我们使用的第二个数据集是Leeds Sports Dataset [12]及其扩展[13],我们将通过LSP共同表示。它们包含11000个训练和1000个测试图像。这些是来自体育活动的图像,因此在外观和特别是关节方面非常具有挑战性。此外,大多数人的身高为150像素,这使得姿势估计更具挑战性。在该数据集中,对于每个人,全身标记有总共14个关节。
We refer to this metric as Percent of DetectedJoints (PDJ).
人体姿态估计数据集大全:MSCOCO、LSP、FLIC、MPII、AI Challenge解析
本文整理了多个人体姿态估计数据集,包括LSP(2K样本,14个关节点)、FLIC(2W样本,9个关节点)、MPII(25K样本,16个关节点)、MSCOCO(超过30W样本,18个关节点)和AI Challenge(21W训练样本,3W验证样本,3W测试样本)。此外,介绍了评价指标如PCP、PDJ和COCO的MAP,以及各数据集的特点和应用。
2129





