机器学习任务中的标注质量探讨
1. 语义分割与序列标注基础
1.1 语义分割的机器学习应用
在语义分割中,可采用与标注相同的机器学习方法,但需在单个像素级别操作。不过,可能会遇到像素组合不合理的情况,需要解决其中的分歧。例如,若图中鸟的翅膀像素呈现“天空”和“鸟”的棋盘格状,这可能比将整个翅膀误标为“天空”更糟糕,因为会错误地让后续模型认为棋盘格模式是可能的。
为简化机器学习的应用,可实施一个模型来预测每个像素的“正确”/“错误”二元区分。具体操作步骤如下:
1. 使用预留的真实数据,构建一个模型,用于预测标注者错误标注的像素。
2. 应用所有新标注的数据。
3. 生成待专家审核的“错误”候选区域。
这种机器学习驱动的方法对于发现工具导致的错误特别有效。由于工具的原因,可能会出现两个或多个标注者有相同错误的情况,而一致性检查可能无法发现这些潜在错误区域。但真实数据能告知我们工具可能导致的错误类型,从而使模型能预测其他图像中类似部分的错误。
1.2 序列标注概述
在实践中,序列标注通常采用人工参与的方法。常见的应用场景是识别长文档中的稀有文本序列,如位置名称。序列标注的标注界面通常会呈现候选序列供审核,或通过自动补全生成序列,而非让标注者直接标注原始文本。
不过,并非总能将序列数据作为审核任务进行标注。特别是在项目开始时,可能还没有可用于预测未标注数据中候选序列的模型。而且,仅展示现有模型的候选序列可能会延续模型偏差。因此,对原始未标注数据进行一些标注仍然是有必要的。
序列标注的质量控制方法与主动学习中的许多方法相似。以句子 “The E - Coli outbreak was first seen in a San Francisco supermarket” 为例,若要实现一个从文本报告中跟踪疫情的模型,可能需要提取句子中的信息,如每个单词的语法类别(词性)、疾病名称、数据中的位置以及重要关键词。
常见的跨度标注方法是 IOB 标注。不同类型的标签可能会以不同方式定义多词跨度。例如,“E - Coli” 作为一个实体是一个词,但对于关键词短语 “E - Coli outbreak” 则是两个词。严格来说,这种标注约定称为 IOB2 标注,而普通的 IOB 标注仅在单个跨度中有多个词时使用 “B”。
对于较长的序列,为提高标注效率,可仅标注每个序列的开始或结束位置,而非整个序列。
2. 序列标注的质量控制
2.1 序列标注的真值评估
对于大多数多词跨度的序列标注任务,质量控制是基于整个跨度的正确性进行评估的。例如,若标注者仅将 “San” 识别为一个实体,而未将 “Francisco” 识别为同一实体的一部分,则该标注者不会获得部分准确性得分。与计算机视觉中的目标检测不同,文本序列没有像 IoU 那样广泛使用的约定。
在连续任务中,除了评估整个跨度的准确性外,查看每个词的准确性也很有意义。建议在评估标注者准确性时,将标签任务和跨度任务分开:
-
计算每个词的标签准确性
:若有人仅将 “San” 标注为位置,那么该标签标注正确,但 “Francisco” 对于位置标注来说是假阴性,对于所选的其他标签则是假阳性。
-
计算整个跨度的准确性
:若有人仅将 “San” 标注为位置,那么该跨度的准确性为 0%。
这种区分有助于将标注者对哪些词属于哪些标签的实际理解,与他们对指令中多词短语构成的语法理解分开。可以将每个标签的准确性与微观或宏观平均值相结合,计算标注者的整体准确性。若数据稀疏,尤其是在计算微观平均值时,可以考虑从计算中剔除 “O”(非跨度)标签,因为否则 “O” 标签会主导准确性得分。是否剔除 “O” 标签可根据对后续模型的评估方式来决定。若在评估模型准确性时忽略 “O” 标签(除了在其他标签的假阳性和假阴性情况中),那么在评估标注者质量时也可忽略 “O” 标签。若要比较标注者在该任务和其他任务上的准确性,则需要包含 “O” 标签并调整随机概率。
2.2 真正连续数据的序列标注真值
与文本示例不同,有些序列任务是真正连续的,如语音和手语。口语中大多数单词之间没有明显间隙,手语者在打手语时单词之间也不停顿。大脑会从连续输入中添加单词间的间隙,因此往往没有一个明显的点来区分一个单词的结束和下一个单词的开始。
这与计算机视觉中使用 IoU 来测量真值准确性的边界框示例类似。不过,大多数序列任务的质量控制惯例是允许与真实示例有一定的误差范围,而不使用 IoU。但如果 IoU 对特定的序列任务有意义,也可以使用,并且由于序列是一维的,误差范围的影响不会像计算机视觉中常见的二维和三维标注那样严重。
2.3 序列标注的一致性评估
对于每个词或预分割序列都有标签的任务,如词性标注,可以将每个词或片段视为单个标注任务,并应用相应的标注方法。
对于具有稀疏标签的文本序列任务,如关键词提取和命名实体识别,可以按每个词或整个跨度来计算一致性。建议将跨度的预测与标签分开,就像在真值数据评估中那样:
-
计算每个词的标签一致性
:若一个标注者仅将 “San” 标注为位置,而另一个标注者标注为 “San Francisco”,则标签一致性为 50%。
-
计算整个跨度的一致性
:若一个标注者仅将 “San” 标注为位置,而另一个标注者标注为 “San Francisco”,则跨度一致性为 0%。
可以通过审核和裁决任务来解决分歧。若标注者在两个重叠跨度的边界上存在分歧,可让另一个标注者来解决。通常,让大量标注者对整个文档进行标注以解决单个争议的成本过高,因此简单的裁决系统通常是最佳选择。
2.4 序列标注的机器学习与迁移学习
所有最先进的序列分类器都使用预训练的上下文模型。对于自己的序列任务,应尝试使用这些模型,并注意随着训练数据的增加,不同的预训练模型可能会有不同程度的帮助。预训练模型之所以有帮助,是因为在数十亿句子上预训练的模型会学习到 “城市”、“村庄”、“城镇” 等位置名称在语义上相似,并且它们前面的词更可能是位置。但可能需要数百万份文档才能让预训练模型在足够相似的上下文中看到足够多的 “城市”、“村庄” 和 “城镇” 示例,从而进行泛化,而在序列标注任务中不太可能标注数百万份文档。
若有预训练模型且能访问其训练数据,应将代表性采样作为主动学习策略之一,采样与目标领域最相似的项目。若目标领域有大量未标注数据,也可尝试将预训练模型调整到该领域。
大多数实际的序列标注策略会使用模型预测的候选序列供人工审核。模型用于预测候选序列,标注者可以将这些标注作为二元任务接受或拒绝,便于进行质量控制。但要确保创建一些好的和坏的真实示例,以便在二元审核任务中根据真实数据评估标注者,并查看一致性。
使用模型预测生成候选序列存在偏差风险。标注者可能会在模型错误时仍然信任模型预测。此外,还可能会错过模型没有信心预测的序列,若不小心,这种偏差会放大模型中的偏差。一个好的解决方案是设置一个简单任务,评估所有文本是否包含序列。例如,对于位置实体,可以询问 “这个句子是否包含命名位置?”
使用这样的工作流程和单独的任务来获取实际序列跨度,可以降低因序列不是模型候选而被遗漏的可能性。而且,使用这样的任务来减少偏差并吸引更广泛的劳动力,还可以构建一个专门用于预测序列是否出现的模型,该模型可作为实际序列模型的嵌入,从而提高下游模型的准确性。
2.5 基于规则、搜索和合成数据的序列标注
基于规则、搜索和合成数据生成的方法对于在稀疏数据中生成候选序列特别有用。以识别 “San Francisco” 这样的位置序列为例,可以使用以下几种自动化标注方法快速生成候选序列:
- 使用已知地名列表作为基于规则的系统。
- 根据地名列表构建合成句子。
这些方法可以在初始数据较少时快速启动模型的训练。使用合成数据还可以提高数据的覆盖范围。例如,在为组织构建命名实体系统时,通常会确保至少有一些包含该组织重要产品、人员、位置和其他实体名称的合成训练数据示例。
3. 语言生成的标注质量
3.1 语言生成的质量控制概述
对于大多数语言生成任务,质量控制通常由人类专家进行,而非自动化。例如,当人类进行句子的语言翻译时,质量控制通常由专家翻译人员审核工作并评估翻译质量。
模型本身也是如此。大多数关于语言生成质量控制的文献都围绕如何信任人类专家的主观判断。在评估机器翻译输出质量时,通常会根据 1 - 5 分的尺度进行判断,但这是一个主观任务。在这种情况下,评估数据的数据采样很重要,因为需要人工花费时间手动评估输出,成本较高。因此,在随机采样数据和/或代表模型部署数据多样性的数据上进行评估尤为重要。
合适的劳动力是为语言生成任务创建高质量训练数据的最关键因素。确保标注者具备所需的语言流利度和多样性需要精心规划。
3.2 语言生成的真值评估
当可以使用真实数据进行自动化分析时,通常会有多个可接受的真实答案,会选择最佳匹配用于计算准确性。例如,机器翻译数据集通常对同一句子有多个翻译。机器翻译的句子会与每个真实翻译进行比较,最佳匹配被认为是计算准确性的合适选择。
对于机器翻译,有多种计算匹配度的方法,最简单和最广泛使用的是双语评估替补(BLEU),它计算机器翻译和真实示例之间匹配子序列的百分比。大多数序列任务的自动化质量控制指标使用类似 BLEU 的简单方法,查看输出与一组真实示例之间的重叠百分比。
综上所述,在不同的机器学习任务中,如语义分割、序列标注和语言生成,都需要重视标注质量的控制。通过合适的方法和策略,可以提高标注的准确性和一致性,从而提升模型的性能。
以下是一个 mermaid 流程图,展示序列标注的基本流程:
graph LR
A[原始文本数据] --> B[模型预测候选序列]
B --> C{标注者审核}
C -->|接受| D[标注完成]
C -->|拒绝| E[重新预测或人工标注]
E --> B
以下是一个表格,总结序列标注中不同评估指标的计算方法:
|评估指标|计算方法|
| ---- | ---- |
|每个词的标签准确性|分别计算每个词标签的正确与否,统计正确标签的比例|
|整个跨度的准确性|若整个跨度标注正确则得 100%,否则为 0%|
|每个词的标签一致性|统计不同标注者在每个词标签上的一致比例|
|整个跨度的一致性|统计不同标注者在整个跨度标注上的一致比例|
3.3 语言生成质量控制的挑战与应对策略
在语言生成任务的质量控制过程中,面临着诸多挑战。其中一个显著的挑战是人类专家主观判断的差异。不同的专家可能对同一翻译或生成的文本有不同的评价标准,这可能导致评估结果的不一致性。为了应对这一挑战,可以采取以下措施:
1.
制定详细的评估标准
:明确规定每个评分等级对应的具体特征和要求。例如,对于 1 - 5 分的评估尺度,详细说明 1 分代表完全错误或不可理解的翻译,2 分代表有较多错误但仍能大致理解,3 分代表中等质量,存在一些小错误但不影响整体理解,4 分代表高质量,仅有少量小瑕疵,5 分代表完美的翻译。
2.
进行专家培训
:组织专家进行统一的培训,让他们熟悉评估标准和流程,减少因个人理解差异导致的评估偏差。
3.
采用多人评估
:对于重要的评估任务,可以让多个专家对同一文本进行评估,然后取平均值或通过其他统计方法综合得出最终结果,以提高评估的准确性和可靠性。
另一个挑战是数据采样的合理性。由于人工评估成本高,需要在有限的数据样本上进行准确的评估。为了确保数据样本能够代表模型部署数据的多样性,可以采用以下策略:
1.
分层采样
:根据数据的不同特征,如文本类型、领域、难度等,将数据划分为不同的层次,然后从每个层次中随机抽取一定数量的样本。例如,对于机器翻译任务,可以将数据分为新闻、科技、文学等不同领域,每个领域再按照难度进行细分,然后从每个细分层次中采样。
2.
多样化采样
:确保样本涵盖各种可能的情况和场景,避免只选择常见或容易处理的文本。例如,在评估一个对话生成模型时,要包括不同主题、不同语气、不同长度的对话样本。
4. 不同机器学习任务标注质量控制的对比与总结
4.1 对比分析
语义分割、序列标注和语言生成这三种机器学习任务在标注质量控制方面既有相似之处,也有明显的差异。
| 任务类型 | 质量控制重点 | 主要方法 | 面临挑战 |
|---|---|---|---|
| 语义分割 | 像素级别的正确性和一致性 | 机器学习模型预测错误像素,专家审核 | 处理像素组合不合理的分歧,发现工具导致的错误 |
| 序列标注 | 跨度和标签的准确性与一致性 | IOB 标注,按词或跨度计算准确性和一致性,审核和裁决解决分歧 | 处理连续数据的边界问题,避免模型偏差 |
| 语言生成 | 输出与真实答案的匹配度 | 人类专家评估,使用 BLEU 等指标 | 人类主观判断差异,数据采样合理性 |
4.2 总结与建议
在进行机器学习任务的标注质量控制时,需要根据任务的特点选择合适的方法和策略。以下是一些通用的建议:
1.
明确任务要求和标准
:在开始标注之前,清晰地定义任务的目标、标注的规则和评估的标准,让标注者和评估者都有明确的指导。
2.
利用自动化工具辅助
:如在语义分割中使用机器学习模型预测错误像素,在序列标注中使用模型生成候选序列,在语言生成中使用 BLEU 等指标进行初步评估,提高效率和准确性。
3.
结合人工审核和裁决
:尽管自动化工具可以提供帮助,但人工的专业知识和判断仍然不可或缺。对于有分歧或不确定的标注,要进行人工审核和裁决。
4.
持续改进和优化
:根据评估结果,不断总结经验教训,对标注方法、评估标准和模型进行改进和优化,以提高标注质量和模型性能。
5. 未来发展趋势
随着机器学习技术的不断发展,标注质量控制也将面临新的机遇和挑战。以下是一些可能的未来发展趋势:
1.
自动化程度的提高
:未来可能会有更先进的自动化工具和算法,能够更准确地进行标注和质量控制。例如,在语义分割中,可能会出现能够自动处理复杂像素组合分歧的模型;在语言生成中,可能会有更智能的评估指标和系统,减少对人类专家的依赖。
2.
跨任务的融合
:不同机器学习任务之间的界限可能会变得更加模糊,标注质量控制方法也可能会相互借鉴和融合。例如,序列标注和语言生成任务可能会采用类似的上下文理解和语义分析方法,提高标注的准确性和一致性。
3.
数据隐私和安全的重视
:随着数据的重要性日益凸显,数据隐私和安全将成为标注质量控制中的重要考虑因素。未来的标注方法和工具需要在保证标注质量的同时,确保数据的隐私和安全。
以下是一个 mermaid 流程图,展示语言生成质量控制的流程:
graph LR
A[模型生成文本] --> B[数据采样]
B --> C{人类专家评估}
C -->|通过| D[质量合格]
C -->|不通过| E[模型调整或重新生成]
E --> A
以下是一个列表,总结不同机器学习任务标注质量控制的关键要点:
1.
语义分割
:关注像素级别的准确性,利用机器学习模型发现工具错误,专家审核确保质量。
2.
序列标注
:区分跨度和标签的评估,避免模型偏差,采用多种方法生成候选序列。
3.
语言生成
:制定明确评估标准,合理采样数据,利用自动化指标辅助评估,结合专家判断。
通过对这些机器学习任务标注质量控制的深入探讨,我们可以更好地理解不同任务的特点和要求,采用合适的方法和策略,提高标注质量,从而推动机器学习技术的发展和应用。
超级会员免费看

被折叠的 条评论
为什么被折叠?



