11、机器学习训练数据：从概念到应用-优快云博客

本文链接：https://blog.youkuaiyun.com/b0c1d2/article/details/152113829

机器学习训练数据：从概念到应用

1. 训练数据标注说明的重要性

在表示训练数据时，定义有用的标注说明往往是真正的挑战。以 NuScenes 数据集为例，每个顶级类别都有一段文本、要点和 5 个以上的示例。比如在标注指南里，会通过示例图片展示“自行车架”和“自行车”的区别，帮助标注人员准确理解。

在一些判断场景中，标注界限可能会变得模糊。例如，NuScenes 对“可行驶表面”和“碎片”的定义为“留在可行驶表面上、大到无法安全驶过的碎片或可移动物体，如树枝、装满垃圾的袋子等”。但不同车辆（如半挂车和汽车）可安全驶过的标准不同，而且还存在一些语义选择问题，如“是否应该驶过碎片以避免追尾他人”。

2. 机器学习任务与训练数据的关系

训练数据在机器学习系统中起着关键作用，了解常见的机器学习任务以及它们与训练数据的关系十分必要。以下是几种常见的机器学习任务及其与训练数据的关联：
- 语义分割 ：在语义分割中，每个像素都会被分配一个标签。其升级版是“实例分割”，能区分原本会被分配相同标签的多个对象。例如，若有三个人，每个人都会被识别为不同个体。训练数据可以通过“矢量”方法（如多边形）或“光栅”方法（类似画笔）来实现标注。目前趋势似乎更倾向于矢量方法，因为从技术角度看，矢量方法更节省空间。不过，用户界面的表示可能与数据存储方式不同。在使用数据时，新方法会预测多边形点，而传统方法是逐像素处理。如果使用多边形作为训练数据，而机器学习采用传统方法，那么多边形必须转换为“密集”掩码；反之亦然。需要注意的是，逐像素掩码看似更准确，但基于矢量方法的模型如果能更准确地捕捉相对特征，其准确性可能更真实，尤其在处理可用少量点建模的曲线时。