40、不同机器学习任务的标注质量

不同机器学习任务的标注质量

1. 标注质量概述

为了保证标注质量,通常需要为评估数据创建多个真实示例。根据任务类型的不同,这些示例可以是一个句子的多个有效翻译、较长文本的多个摘要,或者聊天机器人对提示的多个回复。

1.1 具体操作

  • 要求每个标注人员提出多个解决方案。
  • 同时将任务分配给多个标注人员。
  • 为了进行更精细的质量控制,可以让专家对真实数据示例的质量进行排名,并将该排名纳入评估指标。

2. 语言生成任务的标注质量

2.1 一致性和聚合

  • 一致性 :标注人员之间的一致性很少用于语言生成任务本身,但可用于人们对生成文本质量的判断。理论上,可以使用 BLEU、余弦距离等指标来跟踪标注人员之间的差异。实际上,让专家快速审查输出质量更为容易。
  • 聚合 :将多个语言生成输出聚合为单个训练数据项通常没有意义。如果模型需要单个文本,通常从示例中选择最佳候选。虽然可以通过编程实现,但实际中很少这样做。如果有多个标注人员为同一任务生成文本,让一位专家选择最佳文本所需的额外时间很少。

2.2 机器学习和迁移学习

由于手动创建语言生成数据需要大量时间,机器学习可以大大提高速度。例如,手机或电子邮件客户端的预测下一个单词或句子完成功能就是人类参与的序列生成。应用程序可能会使用迁移学习,从通用的句子完成算法开始,逐渐使模型适应你的文本。

2.3 合成数据

合成数据在许多语言生成任务中很受欢迎,特别是当可用原始数据的多样性存在差距时。
- 翻译任务 :给标注人员单词,让他们创建包含该单词的原始句子及其翻译,然后让其他标注人员评估示例句子的真实性。
- 转录任务 :让某人说出包含特定单词的句子并进行转录。
- 问答任务 :让某人提供问题和答案。

质量控制在所有情况下都成为评估生成示例质量的标注任务。

2.4 语言生成工作流程

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(部署模型: 生成序列):::process --> B(训练模型: 创建/更新语言生成模型):::process
    B --> C(部署模型: 模型部署以生成新数据。主动学习补偿非代表性数据):::process
    C --> D(训练数据: 新项添加到训练数据):::process
    E(调优: 更新指南):::process --> B
    F(示例: 少量项目作为人类指南):::process --> G(数据生成: 人类创建新数据项及其标签):::process
    G --> D
    H(未标记数据池,部分可能已标记):::process --> G
    I(审核: 人类确认或拒绝新数据和注释):::process --> D

3. 信息检索任务的标注质量

信息检索是涵盖搜索引擎和推荐系统的机器学习领域。许多标注人员受雇来调整搜索引擎的结果。

3.1 评估指标

  • 折扣累积增益(DCG) :用于评估信息检索的准确性,公式为 $DCG_p = \sum_{i=1}^{p} \frac{2^{rel_i} - 1}{\log_2(i + 1)}$,其中 $rel_i$ 是排名位置 $p$ 处结果的分级相关性。
  • 归一化折扣累积增益(NDCG) :用于为标注人员获得 0 - 1 分数,是标注人员的实际分数除以最高可能分数(来自呈现给标注人员的真实数据的完美排名)。

3.2 潜在问题及解决方法

  • 数据稀疏性 :数据稀疏会导致随机抽样无效,标注界面应使用现有模型返回相关结果。
  • 偏差放大 :信息系统可能会放大偏差,可通过添加少量低概率结果来平衡。
  • 用户选择偏差 :如果信息检索系统由最终用户的选择进行调整,可能会产生偏差。标注人员可通过评估更多不同的短语来平衡训练数据。

3.3 其他技术

  • 提供额外特征 :信息检索系统常使用其他类型的机器学习来提供额外特征或元数据,例如为电影标记类型、对查询短语进行主题标注、执行对象检测等。
  • 查询重构 :一种增强技术,例如,如果有人搜索 “BBall” 未点击结果而立即搜索 “Basketball”,则表明这两个术语密切相关,可产生额外的训练数据。

4. 多字段任务的标注质量

如果标注任务有多个字段,应考虑将任务分解为子任务,并通过工作流连接子任务。同时,分别评估各个字段的质量以及整个任务的质量。

4.1 示例分析

以跟踪疾病爆发为例,对于文本 “The E - Coli outbreak was first seen in a San Francisco supermarket”,可分别评估 “Disease” 和 “Location” 的准确性,以及整个事件的准确性。对于更复杂的文本,可将任务分解为以下三个标注任务:
- 标记句子是否谈论疾病爆发。
- 标记候选位置和候选疾病。
- 标记位置和疾病的候选组合是否为同一事件。

4.2 任务分解优势

通过正确的工作流、界面、审核和裁决,标注复杂事件的系统可以变成一系列标注任务,质量控制变得更容易。

5. 视频标注任务的标注质量

5.1 适用方法

大多数图像的质量控制方法也适用于视频中的对象检测和/或语义分割。如果需要识别视频中的时间点或片段,连续数据和序列标注的方法也适用。

5.2 具体任务及评估方法

  • 对象跟踪 :结合了定位(边界框)、序列标注(对象可见的帧)和标注(应用于对象的标签)的方法。分别跟踪这些指标比将它们组合成单个标注人员准确率得分更容易。
  • 常见视频标注任务 :一些常见的视频标注任务可以纯粹视为序列标注任务,例如对记录驾驶员的视频,标注驾驶员未看道路的序列。

5.3 真实数据计算

视频中对象检测和/或语义分割的真实数据通常在单个帧上计算。如果视频长度差异很大,应从每个视频数据中采样相同数量的帧,而不是在所有视频中随机采样帧,以避免偏向较长的视频。

5.4 标注人员一致性计算

视频任务的标注人员一致性根据正在评估的子任务(如标注、对象检测、序列识别等)进行计算。建议分别跟踪一致性,而不是将它们组合成单个一致性计算。

5.5 自动化与合成数据

  • 自动化 :机器学习模型可以跟踪对象的运动,标注人员只需在预测错误时纠正帧,这可以显著提高速度,但也可能使模型中的偏差永久存在。
  • 合成数据 :合成数据对视频标注有效,但多样性有限。在模拟 3D 环境中创建对象时,已经有了对象移动的完美注释,可以创建比人工标注多得多的数据。但合成数据可能缺乏多样性,并可能在数据中引入病态错误,因此通常需要与真实世界数据结合使用,并使用代表性采样确保标注人员处理与合成数据最不同的真实世界数据。

6. 音频数据标注任务的标注质量

6.1 专业工具

语音标注专业人员通常有高度专业化的标注工具,例如专业转录人员使用脚踏板可以快速前后移动录音。语音分割和转录界面早在计算机出现之前就有了,许多专业技术是近一个世纪前为磁带录音机开发的。

6.2 标注类型

音频可以根据标注要求作为标注任务、序列任务或生成任务进行标注:
- 标注任务 :识别是否有人说话。
- 序列任务 :标注特定人说话的时间。
- 生成任务 :转录语音。

6.3 合成数据

  • 数据创建 :合成数据在语音中很常见,特别是当要求人们说出特定短语时。由于语音数据的敏感性,许多语音识别数据集通常通过让人们朗读文本创建。
  • 确保多样性 :为了确保语音的多样性,人们通常会得到无意义文本的脚本朗读,以涵盖更罕见的音素组合。对于不同口音的人也可能会重复此操作。
  • 数据收集场景 :由于语音数据的敏感性,制造智能设备的公司会建造整个假客厅、卧室和厨房来收集数据。演员会按照指令与设备交互并说出许多命令。

总结

不同机器学习任务的标注质量控制方法各有特点,以下是一个简单的总结表格:
| 任务类型 | 主要质量控制方法 | 潜在问题及解决办法 |
| ---- | ---- | ---- |
| 语言生成 | 创建多个真实示例,使用机器学习和迁移学习,生成合成数据 | 合成数据多样性不足,可结合真实数据并进行代表性采样 |
| 信息检索 | 使用 DCG 和 NDCG 评估,提供额外特征,进行查询重构 | 数据稀疏、偏差放大、用户选择偏差,可通过现有模型返回结果、添加低概率结果、让标注人员评估更多不同短语解决 |
| 多字段任务 | 分解任务为子任务,分别评估各字段和整体质量 | 任务复杂,通过合理工作流、界面和审核简化质量控制 |
| 视频标注 | 应用图像质量控制方法,分别跟踪指标,使用自动化和合成数据 | 合成数据多样性有限,结合真实数据并采样 |
| 音频标注 | 根据不同标注类型处理,使用合成数据确保多样性 | 语音数据敏感,通过特定场景收集数据 |

通过合理运用这些质量控制方法,可以提高不同机器学习任务的标注质量,从而提升模型的性能和效果。

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(语言生成):::process --> B(标注质量控制):::process
    C(信息检索):::process --> B
    D(多字段任务):::process --> B
    E(视频标注):::process --> B
    F(音频标注):::process --> B
    B --> G(提升模型性能):::process

这个流程图展示了不同机器学习任务的标注质量控制对提升模型性能的作用。各个任务的标注质量控制共同指向整体的标注质量控制,最终实现提升模型性能的目标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值