【笔记】动手学深度学习 - 物体检测和数据集

本文探讨了如何利用深度神经网络进行图像定位,介绍了边缘框的定义和表示方式。特别关注了COCO数据集,一个包含80种物体的大型目标检测基准,以及如何在文本文件中组织每个物体的图片名、类别和边框坐标。

边缘框:

边缘框可以用四个数字定义:左上(x,y)和右下的(x,y)或者左上的(x,y)和宽高。

用于做图像定位的深度神经网络结构与图像分类类似,只是最后一层是一个包含4个神经元的全连接层,并使用均方误差或绝对误差作为损失函数。

数据集:

我们图片分类数据集中,把不同的图片放入不同的文件夹来表示不同的类别。而检测的时候就不能这样划分,因为一张图片中可能有多个物体。

所以每行表示一个物体(假设使用txt存放):

        每行包含图片文件名,物体类别,边缘框。

常用的目标检测数据集COCO:cocodataset.org(80物体,330k图片,1.5M物体)

一、数据集基础信息 数据集名称:几何物体目标检测数据集 图片数量: - 训练集:804张图片 - 验证集:76张图片 - 测试集:38张图片 - 总计:918张图片 分类类别: - 灰色球(bola abu-abu) - 白色球(bola putih) - 灰色立方体(kubus abu-abu) - 白色立方体(kubus putih) - 障碍物(obstacle) - 灰色圆柱体(tabung abu-abu) - 白色圆柱体(tabung putih) 标注格式:YOLO格式,包含边界框类别标签,适用于目标检测任务。 数据格式:图片文件(基于文件名推断为常见格式如JPEG)。 二、数据集适用场景 • 教育机器人开发:用于训练机器人视觉系统识别分类几何物体(如球体、立方体、圆柱体),支持抓取或导航任务中的物体检测。 • 计算机视觉教学:作为教学资源,帮助学生研究者学习目标检测算法在基本几何形状识别中的应用。 • 工业自动化原型设计:集成到自动化系统中,检测分类工作环境中的几何物体或障碍物,提升生产线效率。 • 游戏与模拟环境:用于开发游戏或模拟器中的物体识别功能,增强交互式体验。 三、数据集优势 • 类别多样性与实用性:涵盖7个几何物体类别,包括球体、立方体、圆柱体障碍物,并有灰色与白色变体,提升模型对不同形状颜色的识别能力。 • 标注精准且易用:YOLO格式标注确保边界框定位准确,可直接加载至主流深度学习框架(如YOLO系列),简化模型训练流程。 • 任务适配性强:专注于目标检测任务,支持从基础算法研究到实际应用开发,数据集规模适中,适合快速原型验证特定场景优化。 • 数据真实性高:基于实际几何物体采集,标注样例展示多样化的物体姿态背景,增强模型的泛化性鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值