机器学习训练数据:从概念到应用
1. 训练数据标注说明的重要性
在表示训练数据时,定义有用的标注说明往往是真正的挑战。以 NuScenes 数据集为例,每个顶级类别都有一段文本、要点和 5 个以上的示例。比如在标注指南里,会通过示例图片展示“自行车架”和“自行车”的区别,帮助标注人员准确理解。
在一些判断场景中,标注界限可能会变得模糊。例如,NuScenes 对“可行驶表面”和“碎片”的定义为“留在可行驶表面上、大到无法安全驶过的碎片或可移动物体,如树枝、装满垃圾的袋子等”。但不同车辆(如半挂车和汽车)可安全驶过的标准不同,而且还存在一些语义选择问题,如“是否应该驶过碎片以避免追尾他人”。
2. 机器学习任务与训练数据的关系
训练数据在机器学习系统中起着关键作用,了解常见的机器学习任务以及它们与训练数据的关系十分必要。以下是几种常见的机器学习任务及其与训练数据的关联:
- 语义分割 :在语义分割中,每个像素都会被分配一个标签。其升级版是“实例分割”,能区分原本会被分配相同标签的多个对象。例如,若有三个人,每个人都会被识别为不同个体。训练数据可以通过“矢量”方法(如多边形)或“光栅”方法(类似画笔)来实现标注。目前趋势似乎更倾向于矢量方法,因为从技术角度看,矢量方法更节省空间。不过,用户界面的表示可能与数据存储方式不同。在使用数据时,新方法会预测多边形点,而传统方法是逐像素处理。如果使用多边形作为训练数据,而机器学习采用传统方法,那么多边形必须转换为“密集”掩码;反之亦然。需要注意的是,逐像素掩码看似更准确,但基于矢量方法的模型如果能更准确地捕捉相对特征,其准确性可能更真实,尤其在处理可用少量点建模的曲线时。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



