物联网数据流:概念、模型及医疗应用
1. 物联网数据流处理技术与概念漂移
在物联网数据流处理中,有并行分析和增量或串行处理等技术。并行分析可将数据分割为多个子集同时处理;增量或串行处理则是快速处理小批量数据样本。不过,这些技术虽能降低响应延迟,但对物联网流应用而言并非最佳。采用边缘/雾计算,让流分析更靠近物联网和边缘设备,可减少对中央数据并行和顺序处理的依赖。
在Web挖掘、社交网络、网络监控等多个领域,数据样本通过无界流不断到来。生成这些数据流的底层现象会不断演变,系统环境具有动态、进化或非平稳的特性。在分类学习中,输出是离散类标签;回归学习中,输出是变量的数值。这两种情况下要学习的内容被称为“概念”,学习者的输出是对该概念的描述。随着数据流的演变,输入空间与输出空间(类别)的映射会发生变化,从而导致概念漂移。
概念漂移可根据新老概念的替换方式进行定义,其相关标准能体现漂移周期、速度、强度、严重程度和频率等特征,这些特征有助于找到处理概念漂移的合适方法和工具。此外,数据流的演变还会引发概念进化,即新类别出现或现有类别消失。
1.1 漂移速度
漂移持续时间(也叫漂移时间或漂移宽度)指新概念完全取代旧概念所需的时间步数。漂移速度是漂移时间的倒数,计算公式为 (V_d = \frac{1}{t_{de}-t_{ds}}),其中 (t_{ds}) 和 (t_{de}) 分别是漂移开始和结束的时间。根据速度,漂移可分为:
- 突然漂移 :新概念在短时间内突然取代旧概念,会立即降低分类器的性能。
- 渐进漂移 :漂移时间相对较长,由于新旧概念共存,难以
超级会员免费看
订阅专栏 解锁全文
466

被折叠的 条评论
为什么被折叠?



