增量式在线学习:对最先进的算法进行回顾和比较

本文回顾和比较了增量式在线学习领域的最新进展,重点分析了8种流行算法的关键属性,包括增量支持向量机、在线随机森林、增量学习向量量化等。这些算法在大数据和实时学习背景下变得至关重要,尤其是在处理概念漂移和资源有限的设备上。研究评估了算法的精度、收敛速度和模型复杂性,提供了选择最佳方法的指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

翻译论文:Incremental On-line Learning:A Review and Comparison of State of the Art Algorithms
作者:Viktor Losing, Barbara Hammer, Heiko Wersing
发表在 2018 neurocomputing

摘要

最近,增量式和在线学习受到更多关注,特别是在大数据和从数据流中学习的背景下,与传统的完整数据可用性假设相冲突。尽管有各种不同的方法可供使用,但通常还不清楚哪些方法适用于特定的任务,以及它们如何相互比较。我们分析了代表不同算法类的八种流行增量方法的关键属性。因此,我们对他们的在线分类错误以及他们在极限情况下的行为进行评估。此外,我们讨论了每种方法专门针对超参数优化常常被忽视的问题,并且基于一小组示例来测试它可以如何强健地完成。我们对具有不同特性的数据集进行了广泛的评估,从而提供了有关精度,收敛速度和模型复杂性的性能概览,便于为给定应用选择最佳方法。

1 引言

如今,所有可以想象的信息中的大部分都以数字形式收集和存储,积累到巨大的日增量。 Google每天收到35亿次搜索查询; 近2亿活跃用户的Facebook共享45亿条内容; 亚马逊在全球范围内销售约1300万件产品。 收集各种客户信息,原始交易数据以及个人点击行为,以提供诸如个性化推荐的服务。 估计亚马逊销售额的35%净销售额达到1070亿美元,归功于其推荐引擎。 这些开创性的公司表明,信息可以成为数十亿美元业务的中心支柱。 即使是小公司也采用这种方法,现在数字化他们参与的每一次交易,以提高他们的营业额。
数据收集也通过手机,智能手表和智能手机等移动设备完成,并持续跟踪各种用户信息,如通话记录,GPS位置,心率和活动。 它在科学领域也是无所不在的:天文观测台,地球传感卫星和气候观测网每天产生数TB的数据。 同时,数据产生的速度进一步迅速增加 - 全球所有数据的90%是在过去两年中产生的。
机器学习方法被用来挖掘所收集的相关信息的数据和/或通过生成的模型预测未来的发展。然而,当所有数据同时到达时,经典批量机器学习方法并不能满足在给定时间内处理纯粹数量的需求,导致未处理数据越来越多。此外,他们不会不断地将新的信息整合到已经构建的模型中,而是定期从头开始重新构建新的模型。这不仅非常耗时,而且还会导致潜在的过时模型。
克服这种情况需要将流式方案中的顺序数据处理转变为范式。这不仅可以在可用时立即使用信息,从而随时更新最新的模型,而且还可以降低数据存储和维护的成本。
增量和在线算法自然适合该方案,因为它们不断将信息纳入其模型,并且传统上旨在最小化处理时间和空间。由于其持续大规模和实时处理的能力,他们最近,特别在大数据背景下,获得了更多关注[1]。
增量算法也非常适合超越生产阶段的学习,使设备能够适应个人客户的习惯和环境。这对智能家居产品特别有用[2,3]。这里主要的挑战不是大规模的处理,而是从少数数据中持续有效地学习。尽管在这种情况下,增量学习可以通过在云中进行重复性批量学习来取代,但此解决方案具有严重的缺点。需要与云建立永久连接以提供任何时间的模型,这可能并不总是可行的。此外,由于隐私原因,客户可能不愿意提供他们日常生活的数据。因此,以有效方式直接在设备上学习仍然是非常需要的。关于文献中增量和在线学习的定义涉及很多含糊不清的问题。有些作者可以互换地使用它们,而有些则以不同的方式区分它们。诸如终身学习或进化学习等附加术语也被同义使用。我们将增量学习算法定义为一个在给定的训练数据流 s1,s2,,st s 1 , s 2 , ⋯ , s t 上生成一系列模型 h1,h2,,ht h 1 , h 2 , ⋯ , h t 的算法。在我们的例子中, si s i 被标记为训练数据 si=(

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值