作者 | 李海玉、陈虞君
编辑 | 郝晓茹
很多企业通过建立自己的客户联络中心,为客户提供服务、解答疑惑、推介新产品。在企业与客户的沟通过程中,产生了海量的非结构化录音和文本数据。为了让沟通更高效,服务质量更优,客户满意度更强,企业就需要从数据中洞察客户的真实需求、管理和提升业务员的沟通能力。
但由于需要收集分析的数据量急剧增加,从大量数据中手动提取有用的知识变得非常困难和不可能,因此需要利用自然语言处理(NLP)和数据挖掘(Data Mining)技术来帮助企业挖掘和发现有用的知识。
为了让机器快速学习,对沟通数据(电话录音、在线IM沟通记录)进行标注是必不可少的一步。但是,数据标注需要昂贵的人工或各种成本,面对海量的非结构化数据,如何经济又准确地进行标注是一个的棘手问题。
而主动学习(Active Learning)被认为是一种非常有效的解决方案:通过使用少量已有标注数据,让机器学习到的模型与标注专家进行高效的交互,选出最有价值和信息量的样本进行标注,能够在达到预设标准的情况下,有效降低模型学习所需要的标注数据量。
主动学习模型的分类
目前各类研究积累了大量的主动学习模型,通常,我们有几种不同的分类标准来划分这些模型。
根据输入数据的方式,主动学习可以分为:
-
基于流的主动学习,它将未标记的数据一次性全部呈现给一个预测模型,该模型将预测结果(实例的概率值),根据某些评价指标(比如margin)计算评估实例的价值,随后应用主动学习决定是否应该花费一些预算来收集此数据的类标签,以进行后续的训练;
-
基于池的主动学习,这个通常是离线、反复的过程。这里向主动学习系统提供了大量未标记的数据,在此过程的每个迭代周期,主动学习系统都会选择一个或者多个未标记数据进行标记并用于随后的模型训练