数据标注定义
数据标注就是使用自动化的工具从互联网上抓取、收集数据——包括文本、图片、语音等,然后对抓取的数据进行整理与标注,使其转换为计算机可识别的信息。
进行数据标注之前,我们首先要对数据进行清洗,得到符合我们要求的数据。数据的清洗包括去除无效的数据、整理成规整的格式等等。具体的数据要求可以和算法人员确认。
常见的数据标注类型
1. 分类标注: 分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类 / 标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。
适用:文本、图像、语音、视频
应用:脸龄识别,情绪识别,性别识别
2. 标框标注: 机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。
适用:图像
应用:人脸识别,物品识别
3. 区域标注: 相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。
应用:自动驾驶
4. 描点标注: 一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。
应用:人脸识别、骨骼识别
5. 其他标注: 标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。)
数据标注是人工智能发展的基石,涉及文本、图像、语音等多种数据类型。它包括分类标注、标框标注、区域标注、描点标注等形式,应用于人脸识别、自动驾驶等多个领域。通过清洗、整理和标注数据,使计算机能够理解和处理这些信息,从而推动AI模型的训练和性能提升。
7037

被折叠的 条评论
为什么被折叠?



