本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。
原文链接:什么是 COCO 数据集?

COCO 数据集
MS COCO 数据集是 Microsoft 发布的大规模对象检测、图像分割和字幕数据集。机器学习和计算机视觉工程师广泛使用 COCO 数据集进行各种计算机视觉项目。
理解视觉场景是计算机视觉的主要目标;它涉及识别存在的对象、在 2D 和 3D 中定位对象、确定对象的属性以及描述对象之间的关系。因此,可以使用数据集训练对象检测和对象分类算法。

什么是COCO?
COCO 代表 Common Objects in Context 数据集,因为创建图像数据集的目的是为了推进图像识别。COCO 数据集包含用于计算机视觉的具有挑战性的高质量视觉数据集,其中大部分是最先进的神经网络。
例如,COCO 通常用于对算法进行基准测试,以比较实时对象检测的性能。COCO 数据集的格式由高级神经网络库自动解释。

COCO 数据集的特点
-
-
带有详细实例注释的对象分段
-
情境中的识别
-
超像素内容分割
-
在总共 330'000 张图像中,有超过 200'000 张图像被标记
-
1.5 Mio 对象实例
-
80 个对象类别,即“COCO 类”,其中包括可以轻松标记单个实例的“事物”(person、car、chair 等)。
-
91 个素材类别,其中 “COCO Stuff” 包括没有明确边界的素材和对象(天空、街道、草地等),这些素材和对象提供了重要的上下文信息。
-
每张图片 5 个字幕
-
250'000 人,有 17 个不同的关键点,常用于姿势估计
-
COCO 对象类列表
用于对象检测和跟踪的 COCO 数据集类包括以下预先训练的 80 个对象:
'person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis','snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush'
图示:

COCO 关键点列表
COCO 关键点包括 17 个不同的预训练关键点(类),这些关键点用三个值 (x,y,v) 进行注释。x 和 y 值标记坐标,v 表示关键点的可见性 (可见、不可见)。
"nose", "left_eye", "right_eye", "left_ear", "right_ear", "left_shoulder", "right_shoulder", "left_elbow", "right_elbow", "left_wrist", "right_wrist", "left_hip", "right_hip", "left_knee", "right_knee", "left_ankle", "right_ankle"
图示如下:

带标注的 COCO 图像
大型数据集包括常见物体在自然环境中的日常场景的注释照片。这些对象使用预定义的类(如 “chair” 或 “banana”) 进行标记。标记过程,也称为图像注释,是计算机视觉中非常流行的技术。
虽然其他对象识别数据集侧重于 1) 图像分类,2) 对象边界框定位,或 3) 语义像素级实例分割,但 mscoco 数据集侧重于 4) 分割单个对象实例。

为什么在自然环境中是常见的物体?
对于许多类别的对象,都有可用的图标视图。例如,当对特定对象类别(例如,“椅子”)执行基于 Web 的图像搜索时,排名靠前的示例将出现在 Profile 中,畅通无阻,并且靠近非常有序的照片的中心。请参阅下面的示例图像。
虽然图像识别系统通常在此类标志性视图上表现良好,但它们很难识别显示复杂场景或部分遮挡对象的真实场景中的物体。因此,Coco 图像的一个重要方面是它们包含包含多个对象的自然图像。

如何使用 COCO 计算机视觉数据集
COCO 数据集可以免费使用吗?
是的,MS COCO 图像数据集根据 Creative Commons Attribution 4.0 许可证获得许可。因此,此许可证允许您分发、重新混合、调整和构建您的作品,甚至是商业用途,只要您注明原始创作者。
如何下载 COCO 数据集
有不同的数据集分割可以免费下载。每年的图像都与不同的任务相关联,例如对象检测、点跟踪、图像描述等。
要下载它们并查看最新的 Microsoft COCO 2020 挑战赛,请访问 MS COCO 官方网站。为了高效下载 COCO 镜像,建议使用 gsutil rsync 来避免下载大型 zip 文件。您可以使用 COCO API 设置下载的 COCO 数据。
COCO 建议使用开源工具 FiftyOne 来访问 MSCOCO 数据集以构建计算机视觉模型。

COCO 数据集与开放图像数据集 (OID) 的比较
COCO 数据集的一个流行替代方案是由 Google 创建的开放图像数据集 (OID)。在将可视化数据集 COCO 和 OID 用于项目以优化所有可用资源之前,必须了解和比较视觉数据集 COCO 和 OID 的差异。
开放图像数据集 (OID)
是什么让它与众不同?Google 使用图像级标签、对象边界框、对象检测分割掩码、视觉关系和本地化叙述对 OID 数据集中的所有图像进行注释。与 COCO 相比,这使得它用于计算机视觉任务略多,因为它的注释系统略宽。OID 主页还声称它是现有最大的具有对象位置注释的数据集。
Open Image 是一个包含大约 900 万张预注释图像的数据集。Google 的 Open Images Dataset 的大多数(如果不是全部)图像都是由专业图像注释员手动注释的。这确保了每张图像的准确性和一致性,并在使用时为计算机视觉应用带来更高的准确率。
上下文中的常见对象 (COCO)
是什么让它与众不同?借助 COCO,Microsoft 引入了一个视觉数据集,其中包含大量照片,这些照片描绘了复杂的日常场景中的常见物体。这使 COCO 有别于其他对象识别数据集,这些数据集可能是人工智能的特定特定领域。这些部门包括图像分类、对象边界框定位或语义像素级分割。
同时,COCO 的注解主要集中在多个独立对象实例的分割上。与 CIFAR-10 和 CIFAR-100 等其他流行的数据集相比,这种更广泛的关注点使 COCO 能够在更多实例中使用。但是,与 OID 数据集相比,COCO 并没有太突出,在大多数情况下,两者都可以使用。
COCO 在 328k 图像中拥有 250 万个标记实例,是一个非常大且广泛的数据集,允许多种用途。但是,这个数量无法与 Google 的 OID 相提并论,后者包含高达 900 万张带注释的图像。
Google 的 900 万张带注释的图像是手动注释的,而 OID 披露它使用自动化和计算机化的方法生成了对象边界框和分割掩码。COCO 和 OID 都没有透露边界框的准确性,因此他们是否认为自动边界框比手动创建的边界框更精确,这仍然取决于用户。

THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

556

被折叠的 条评论
为什么被折叠?



