循环智能的主动学习(Active Learning)技术探索与实践:减少 80% 标注量

本文探讨了主动学习在处理大量非结构化数据时的作用,尤其是如何通过主动学习策略LabelXL有效地减少数据标注量。文章讨论了主动学习模型的分类,解决类不平衡问题的方法,并介绍了LabelXL如何在真实场景中让每次标注的价值最大化,例如在金融和教育行业中显著降低了标注需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者 | 李海玉、陈虞君

编辑 | 郝晓茹

很多企业通过建立自己的客户联络中心,为客户提供服务、解答疑惑、推介新产品。在企业与客户的沟通过程中,产生了海量的非结构化录音和文本数据。为了让沟通更高效,服务质量更优,客户满意度更强,企业就需要从数据中洞察客户的真实需求、管理和提升业务员的沟通能力。

但由于需要收集分析的数据量急剧增加,从大量数据中手动提取有用的知识变得非常困难和不可能,因此需要利用自然语言处理(NLP)和数据挖掘(Data Mining)技术来帮助企业挖掘和发现有用的知识。

为了让机器快速学习,对沟通数据(电话录音、在线IM沟通记录)进行标注是必不可少的一步。但是,数据标注需要昂贵的人工或各种成本,面对海量的非结构化数据,如何经济又准确地进行标注是一个的棘手问题。

而主动学习(Active Learning)被认为是一种非常有效的解决方案:通过使用少量已有标注数据,让机器学习到的模型与标注专家进行高效的交互,选出最有价值和信息量的样本进行标注,能够在达到预设标准的情况下,有效降低模型学习所需要的标注数据量。

 

主动学习模型的分类

目前各类研究积累了大量的主动学习模型,通常,我们有几种不同的分类标准来划分这些模型。

根据输入数据的方式,主动学习可以分为:

  • 基于流的主动学习,它将未标记的数据一次性全部呈现给一个预测模型,该模型将预测结果(实例的概率值),根据某些评价指标(比如margin)计算评估实例的价值,随后应用主动学习决定是否应该花费一些预算来收集此数据的类标签,以进行后续的训练;

  • 基于池的主动学习,这个通常是离线、反复的过程。这里向主动学习系统提供了大量未标记的数据,在此过程的每个迭代周期,主动学习系统都会选择一个或者多个未标记数据进行标记并用于随后的模型训练࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值