自然语言处理中的数据标注与应用部署
1. 术语说明
在数据标注领域,有许多相关术语。对于标注行为和标注人员,有“labeling/labelers(标注/标注人员)”“rating/raters(评级/评级人员)”“judging/judges(评判/评判人员)”等表述。而用于评估标注人员的预标注示例,也有“ground truth set(真实数据集)”“golden set(黄金数据集)”等多种说法。在本文中,我们采用“labeling/labelers”和“golden set”这两个术语。
2. 标注指南
标注指南是指导标注人员完成任务的说明。任务所需的详细程度往往存在争议,但有一些实用的经验法则可供参考:
- 反映产品预期 :确保指南能体现产品的预期。例如,为垃圾邮件分类器收集标签时,要明确“垃圾邮件”的定义。因为人们对垃圾邮件的理解可能不同,如有时会将时事通讯和其他自动发送的邮件视为垃圾邮件。模型不仅要模拟人类标注过程,还要作为产品特性发挥作用,所以可以通过一个思想实验来确定指南的基础:假设不考虑时间和预算限制,雇佣大量标注人员处理产品,那么会告诉他们哪些是客户所需的,这些就是指南的依据。
- 避免过度约束 :有些任务本身具有自然的模糊性,过度约束可能会带来问题。一是会给模型引入偏差,二是可能导致标注人员在未考虑的情况下给出错误结果。
2.1 学术论文分类场景示例
我们构建一个应用,对多种语言(英语、法语、德语和俄语)的研究论文按所属学术部门(如数学、生物学和物理学)进行分类。标注人员来自不同部门的本科生和研究生,随机分配文档
超级会员免费看
订阅专栏 解锁全文
60

被折叠的 条评论
为什么被折叠?



