深蓝学院是专注于人工智能的在线教育平台,致力于打造国内一流前沿科技学习交流平台,学院讲师均是各领域顶级研究者,累计发布顶刊论文3000+篇。目前已有数万名伙伴在深蓝学院平台学习,其中不乏北京大学、清华大学、中科院自动化所等海内外知名院校伙伴。
背景:什么是主动学习(Active Learning)?
机器学习的研究领域包括有监督学习、无监督学习、半监督学习和强化学习等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升算法的效果就是值得思考的问题了。
主动学习(Active Learning)的大致思路就是:通过机器学习的方法获取到那些比较“难”分类的样本数据,让人工再次确认和审核,然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练,逐步提升模型的效果,将人工经验融入机器学习的模型中。
用一个例子来比喻,一个高中生通过做高考的模拟试题以希望提升自己的考试成绩,那么在做题的过程中就有几种选择。一种是随机地从历年高考和模拟试卷中随机选择一批题目来做,以此来提升考试成绩。但是这样做的话所需要的时间也比较长,针对性也不够强;另一种方法是每个学生建立自己的错题本,用来记录自己容易做错的习题,反复地巩固自己做错的题目,通过多次复习自己做错的题目来巩固自己的易错知识点,逐步提升自己的考试成绩。其主动学习的思路就是选择一批容易被错分的样本数据,让人工进行标注,再让机器学习模型训练的过程。
介绍完了主动学习是什么,接下来带着大家详细读一下这篇论文的内容吧。
摘要
现今人工智能(AI)应用程序的成功不仅需要模型训练(Model-centric,以模型为中心),还需要数据工程(Data-centric,以数据为中心)。在以数据为中心的 AI 中,主动学习(AL) 起着至关重要的作用,但当前的 AL 工具无法有效地执行 AL 任务。
对此,本文提出了一种高效的 AL MLOps 系统,命名为 ALaaS(主动学习即服务)。具体来说,ALaaS 采用服务器-客户端架构,支持 AL 流水线,并且可以高效地实现阶段级的并行处理。同时,缓存和批处理技术被用来进一步加速 AL 过程,除了效率之外,ALaaS在配置即服务的设计理念的帮助下,还确保了可访问性。它还将AL流程抽象为多个组件,并为高级用户提供丰富的API以将系统扩展到新的场景。大量实验表明,ALaaS在延迟和吞吐量方面优于所有其他开源的AL工具。进一步的消融研究证明了我们设计的有效性以及ALaaS的易用性。
这里可以获取我们的代码:
https://github.com/MLSysOps/alaas。
一
介绍
以数据为中心的人工智能是一个新兴主题,其重点是利用现成的机器学习(ML)模型为人工智能应用的开发提供数据工程支持。以前的工作主要是以模型为中心的人工智能,假设环境是静态的。在这个环境中,以模型为中心的AI的主要目标是:
-
完成数据收集和工程设计
-
持续开发机器学习(ML)模型以在测试集上实现高性能。