基于增量优化的超快速决策森林的时间数据流挖掘框架
1. 引言
数据流挖掘是机器学习的一个较新分支,主要对以时间序列形式持续输入的数据流进行分析、推理,并构建预测或分类模型。其应用场景广泛,涵盖生物信号、传感器数据、物联网序列、社交推文和实时轨迹等领域。
过去,传统的时间数据挖掘算法属于经典的批量模式机器学习,需要加载和处理所有数据来更新模型。而本文聚焦于增量学习,它使实时时间数据流挖掘在依赖连续数据流的新型应用中成为可能。时间模式的数据流挖掘是一个较新且热门的研究领域,随着普适计算、数据收集和大数据应用的普及而备受关注。本文旨在阐述一个框架,回顾相关技术,并探讨将多个数据流挖掘模型组合成增量优化的超快速决策森林(iOVFDF)的可能性。新模型 iOVFDF 的意义在于为实时挖掘时间模式提供可能。
iOVFDF 的框架基于某研究方向。该研究主要以患者生理数据为例进行时间数据流挖掘,核心学习器是 k - NN,虽速度快但缺乏全面的知识表示。而本文提出的基于 iOVFDT 的模型,已证明具有高效性(高准确性、紧凑的树结构和可用的决策规则),适用于多时间数据流挖掘。提出的两级 iOVFDT 森林 iOVFDF,底层的个体学习器对单个数据流进行模式识别,高层的元分类器基于个体 iOVFDT 的信息学习全局情况。其主要概念是利用多个 iOVFDT 的集体力量来理解复杂问题的宏观意义。
以拼图为例,大脑有两个认知层次:一是协调手眼识别每块拼图的形状和颜色,确定其位置;二是基于已检查的拼图块构建元知识,尝试理解全貌。iOVFDT 学习的个体知识可能不完整,只有将所有 iOVFDT 的输出组合起来,才能看到完整画面。想象拼图是动态的,就像时间数据流,概念可能漂移,运动模式会随时
超级会员免费看
订阅专栏 解锁全文
47

被折叠的 条评论
为什么被折叠?



