24、主动学习在机器学习任务中的应用与数据标注策略

主动学习在机器学习任务中的应用与数据标注策略

1. 主动学习在不同机器学习任务中的应用

1.1 视频聚类与标注

在处理视频数据时,聚类数量与视频总数的关系会影响标注策略。
- 若聚类数量少于视频总数,可将相似视频合并为一个聚类,以实现有针对性的多样性。
- 若聚类数量多于视频总数,部分视频可能会被分到多个聚类中,理想情况下是内容更多样的视频。

这种方法为结合主动学习方法快速标注视频提供了很大的空间。

1.2 语音的主动学习

语音数据的处理可分为标注任务、序列任务或语言生成任务。不同的用例需要不同的处理方法。
- 语音行为标注 :当对整个语音行为进行标注(如对智能设备的命令进行意图标注)时,模型已聚焦于关注的现象,不确定性采样和基于模型的异常值处理可直接应用于语音数据,无需裁剪。
- 语音转录 :将语音转录为文本或处理整个录音中的错误时,该过程更类似于文本生成,需要关注多样性以采样尽可能多的语音行为。由于书写系统比口语更标准化,在捕捉各种口音和语言变体时,多样性更为重要。
- 语音数据特点 :语音数据介于文本和图像之间,数据收集技术对其影响较大。麦克风质量、环境噪声、录音设备、文件格式和压缩技术等都可能产生干扰,使模型学习到错误信息。此外,语音的感知结构和实际物理结构差异较大,采样时不能仅依赖文本转录。

1.3 选择合适数量的人工审核项目

高级主动学习技术需遵循已学原则。一些主动学习策略(如代表性采样)可在迭代中自适应调整,但大多

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值