数据标注人员管理与工作流程优化
1. 数据标注与模型预测审查
数据标注在不同场景下有不同含义,既可以指对原始数据进行标注,也可以指人类在机器学习模型辅助下或与模型交互进行标注。在计算标注所需的工作量时,要考虑数据呈现方式的不同以及相应所需的工作量差异。
对于很多任务而言,目标是辅助人类流程。许多模型既可以用于自动化操作,也可以辅助人类工作,具体取决于应用场景。例如,碰撞检测算法可用于驱动全自动车辆,也可为驾驶员提供警报;医学影像算法能用于诊断,也能为医疗从业者的决策提供参考。
当使用机器学习辅助人类进行标注时,需要遵循工作保障和透明度原则。明确目标是辅助终端用户的工作,而非训练自动化替代者。若要利用终端用户反馈实现特定任务的自动化,必须向相关人员说明情况,并给予相应补偿。
2. 内部专家
2.1 内部专家的优势
在大多数机器学习项目中,内部员工是最大的劳动力群体。与外包和众包员工相比,内部标注员的质量控制和人员管理研究相对较少。不过,让模型构建者和标注员处于同一组织内有诸多好处,他们可以直接沟通。
内部员工的优势主要体现在领域专业知识和对敏感数据的保护上。处理复杂问题(如分析财务报告或诊断医学影像)时,内部团队成员可能是全球少数具备数据标注技能的人员。如果数据包含敏感信息,内部员工能为数据提供最高级别的隐私和安全保护。
由于监管原因,某些情况下数据必须保留在内部。数据生成工具可在这种情况下发挥作用,即使合成数据并非 100% 准确,但它可能不像真实数据那样敏感。因此,当实际数据过于敏感无法与外包员工共享时,可以利用外包团队对合成数据进行过滤或编辑,以达到所需的准确性。 </
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



