11、机器学习训练数据:从概念到应用

机器学习训练数据:从概念到应用

1. 训练数据标注说明的重要性

在表示训练数据时,定义有用的标注说明往往是真正的挑战。以 NuScenes 数据集为例,每个顶级类别都有一段文本、要点和 5 个以上的示例。比如在标注指南里,会通过示例图片展示“自行车架”和“自行车”的区别,帮助标注人员准确理解。

在一些判断场景中,标注界限可能会变得模糊。例如,NuScenes 对“可行驶表面”和“碎片”的定义为“留在可行驶表面上、大到无法安全驶过的碎片或可移动物体,如树枝、装满垃圾的袋子等”。但不同车辆(如半挂车和汽车)可安全驶过的标准不同,而且还存在一些语义选择问题,如“是否应该驶过碎片以避免追尾他人”。

2. 机器学习任务与训练数据的关系

训练数据在机器学习系统中起着关键作用,了解常见的机器学习任务以及它们与训练数据的关系十分必要。以下是几种常见的机器学习任务及其与训练数据的关联:
- 语义分割 :在语义分割中,每个像素都会被分配一个标签。其升级版是“实例分割”,能区分原本会被分配相同标签的多个对象。例如,若有三个人,每个人都会被识别为不同个体。训练数据可以通过“矢量”方法(如多边形)或“光栅”方法(类似画笔)来实现标注。目前趋势似乎更倾向于矢量方法,因为从技术角度看,矢量方法更节省空间。不过,用户界面的表示可能与数据存储方式不同。在使用数据时,新方法会预测多边形点,而传统方法是逐像素处理。如果使用多边形作为训练数据,而机器学习采用传统方法,那么多边形必须转换为“密集”掩码;反之亦然。需要注意的是,逐像素掩码看似更准确,但基于矢量方法的模型如果能更准确地捕捉相对特征,其准确性可能更真实,尤其在处理可用少量点建模的曲线时。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值