1. 增量学习
增量学习作为机器学习的一种方法,现阶段得到广泛的关注。在增量学习中,输入数据不断被用于
扩展现有模型的知识,即进一步训练模型,它代表了一种动态的学习的技术。对于满足以下条件的
学习方法可以定义为增量学习方法:可以学习新的信息中的有用信息;不需要访问已经用于训练分
类器的原始数据;对已经学习的知识具有记忆功能;在面对新数据中包含的新类别时,可以有效地
进行处理。许多机器学习的算法可以应用增量学习例如:决策树,规则学习、神经网络(RBF
networks,Learn++,Fuzzy ARTMAP,TopoART,IGNG)以及增量SVM等。learn++算法是一种
适用于监督学习的、集成的、增量学习的、能学习新类的算法。
增量算法经常应用于对数据流或大数据的处理,比如对股票趋势的预测和用户偏好的分析等。在这
些数据流中,新的数据可以持续地输入到模型中来完善模型。此外,将增量学习应用于聚类问题,
维度约减,特征选择,数据表示强化学习,数据挖掘等等。随着数据库以及互联网技术的快速发展
和广泛应用,社会各部门积累了海量数据,而且这些数据量每天都在快速增加。通过使用增量学习
的方式可以有效的利用新增数据来对模型进行训练和进一步完善。此外,通过使用增量学习的方法
可以从系统层面上更好地理解和模仿人脑学习方式和生物神经网络的构成机制,为开发新计算模型
和有效学习算法提供技术基础。
假设有200条数据,第一次训练150条,第二次训练50条,和直接用200条训练的差异在于:在第二
次训练50条时,前150条数据已经不存在了,模型更拟合于后面的数据。如果我们定期增量训练,
那么离当前时间越近的数据对模型影响越大,这也是我们想要的结果。但如果最后一批数据质量非
常差,就可能覆盖之前的正确实例的训练结果,把模型带偏。同理,如果我们按时间把数据分成几
部分,然后按从早到晚的顺序多次训练模型,每个模型在上一个模型基础上训练,也间接地参加了