25、自然语言处理中的数据标注与应用部署

自然语言处理中的数据标注与应用部署

1. 术语说明

在数据标注领域,有许多相关术语。对于标注行为和标注人员,有“labeling/labelers(标注/标注人员)”“rating/raters(评级/评级人员)”“judging/judges(评判/评判人员)”等表述。而用于评估标注人员的预标注示例,也有“ground truth set(真实数据集)”“golden set(黄金数据集)”等多种说法。在本文中,我们采用“labeling/labelers”和“golden set”这两个术语。

2. 标注指南

标注指南是指导标注人员完成任务的说明。任务所需的详细程度往往存在争议,但有一些实用的经验法则可供参考:
- 反映产品预期 :确保指南能体现产品的预期。例如,为垃圾邮件分类器收集标签时,要明确“垃圾邮件”的定义。因为人们对垃圾邮件的理解可能不同,如有时会将时事通讯和其他自动发送的邮件视为垃圾邮件。模型不仅要模拟人类标注过程,还要作为产品特性发挥作用,所以可以通过一个思想实验来确定指南的基础:假设不考虑时间和预算限制,雇佣大量标注人员处理产品,那么会告诉他们哪些是客户所需的,这些就是指南的依据。
- 避免过度约束 :有些任务本身具有自然的模糊性,过度约束可能会带来问题。一是会给模型引入偏差,二是可能导致标注人员在未考虑的情况下给出错误结果。

2.1 学术论文分类场景示例

我们构建一个应用,对多种语言(英语、法语、德语和俄语)的研究论文按所属学术部门(如数学、生物学和物理学)进行分类。标注人员来自不同部门的本科生和研究生,随机分配文档

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值