课件下载/试读/在线购买:清华大学出版社-《数据标注工程》
目录
第1章 数据标注概述
1.1.1 什么是数据标注
数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。
1.1.3 数据标注流程概述
一般在正式标注前,会由需求方的算法工程师给出标注样板,并为具体标注人员详细阐述标注需求与标注规则,经过充分讨论与沟通,以保证最终数据输出的方式、格式以及质量一步到位,这也被称为试标过程。
试标后,标注工程师将按照此前沟通确认的要求进行数据标注,通过对素材进行细致的分类、标框、描点等操作,打上不同的标签,以满足不同的人工智能应用需要。
对于具体质检而言,可以通过排查或抽查的方式。检查时,一般设有多名专职的审核员,对数据质量进行层层把关,一旦发现提交的数据不合格,将直接交由数据标注人员返工,直至最后通过审核为止。
第3章 数据标注分类
3.1 图像标注
图像标注可能是最广泛、最普遍的一种类型。
图像标注问题的本质是从视觉到语言的问题。
-
车辆车牌标注
作为车辆车牌领域中非常重要的自动驾驶,其标注方式主要有两种:拉框标注和精细的切割标注。
拉框标注:每一个框都是一个小图,都要注明属性,每一个小图都对应一种车辆。
切割标注:边框需要与车辆边缘相切。 -
人像识别标注
人像识别的原理与其他图像识别不大一样。通常是标注人脸关键点。 -
医疗影像标注
与车辆的拉框标注方法类似。 -
机械影像标注
尺寸标注和表面粗糙度标注。
3.2 语音标注
标注“说出的话”和对应的文字。修正语音和文字间的误差。
最典型的应用是客服录音。规范:是否包含有效语音、确定语音的噪声情况、确定说话人数量、确定说话人性别、确定是否包含口音、语音内容方面。
3.3 文本标注
智能客服机器人:人工智能根据用户的咨询内容切入到对应的场景里,然后让用户选择更细分的应答模型,再定位到用户的实际场景中,根据用户的具体问题,给出对应的回答。数据标注的具体工作就是给句子的场景打标。在进行这种标注时,需要人工智能非常熟悉本行业的业务逻辑树,其实质就是建立机器人的应答知识库。
线上平台标注和线下表格标注是金融行业文本标注的主要标注形式。对于模型出现的错误,可对原始聊天记录进行标记,看机器人的回答是否正确。如果不正确,则进一步分析出现的问题是哪一种,是一级分类错误还是二级分类错误,或是回答的内容不够好,不能满足用户的需求。标记结果可供算法工程师进行调优。
在医疗行业,对自然语言进行标记处理,对专业度要求比较高,需要专门的医学人才才能进行标注。主诉和医生对患者的描述通常每次都会有所差异。对此,可以将主诉分词后,标注每个分词的属性和位置。
第5章 数据标注管理
5.1 数据工厂
在数据工厂的办公区域中,有专门的数据标注区域。为了保护该区域内计算机中数据的安全,只能够连接局域网服务器,并且禁止通过外接设备进行拷贝。
5.2 数据标注管理架构
因为数据标注方法类型比较多,所以需要根据标注方法类型进行管理。为每种类型分别设置单项标注负责人,然后再根据项目安排项目组长,因为一个项目需要多个项目小组共同参与完成,所以需要在项目组长下面设立项目小组长,由质检员担任。
质量管理体系流程图如下。
5.4 数据标注项目评估
数据标注作为数据交易中的商品,需要有其明确的价格。
试标的主要目的是通过对熟练标注员的标注耗时评估整个数据标注项目的难易程度。在试标验收后,可以根据试标用时,先计算单位素材的标注时长,然后根据项目的数据总量以及交付时间,计算项目质检员、标注员的数量及所需时间。通过人员数量及操作时间预估可以计算出整个项目的人工成本与生产成本,参考人工成本与生产成本,可以得出标注项目整体报价。
5.5 数据标注订单管理
为了更好地保证订单及时交付,需要对订单的实施进度进行管理。首先需要确认该项目负责人,然后根据项目评估报告将任务分配给相关数据加工小组,并根据任务时间要求计算每日任务指标。小组长进行组员任务的分配,并负责组员任务进度管理。
每日各任务小组的小组长需掌握组员当日任务完成情况,经过统计后计算出小组当日完成效率。项目负责人将各小组的完成效率进行汇总即可得到整个项目的完成效率。项目负责人可以通过各小组完成效率了解是哪些小组除了问题导致任务进度落后。
5.6 客户信息管理
基础资料:名称、地址、电话、与公司交易时间、企业组织形式、业务领域。