数据聚类与决策树增量学习技术解析
在数据处理与分析领域,数据聚类和决策树分类是两个重要的研究方向。下面将详细介绍数据聚类算法 SSAPStream 以及增量信念决策树(IBDT)的相关内容。
SSAPStream 算法详解
为了防止样本数量无节制增长,需要遗忘那些长时间未被访问的样本。对于每个现有样本 $e_i$,若没有新的数据项合并到它,其权重会逐渐衰减。当样本权重低于其权重下限 $\eta$ 时,就可以安全地删除该样本。权重下限定义为:
$\eta(t_c, t_i)=\frac{1 - 2^{-\lambda(t_c - t_i + 1)}}{1 - 2^{-\lambda}}$
其中,$t_c$ 是当前时间,$t_i$ 是样本 $e_i$ 的最后更新时间。对于固定的 $t_i$ 值,$\eta(t_c, t_i)$ 是一个递增函数,即样本存在的时间越长,其预期权重越大。
当缓冲区已满或者检测到数据流的生成过程发生变化时,会通过在数据集和缓冲区中的数据项上启动 SSAP 来重建新模型。在这个过程中,样本中的标记样本与缓冲区中的未标记数据项有两种关联情况。选择当前样本 $e_i$ 作为数据项 $x_j$ 的样本的成本是普通相似度 $-d(x_j, e_i)^2$,而选择 $x_j$ 作为 $e_i$ 的样本的成本会增加 $n_i$ 倍。因此,当前样本 $e_i$ 更有可能再次成为样本。SSAP 会从缓冲区中选择与样本 $e_i$ 最相似的数据集合并到 $e_i$,直到缓冲区中没有数据项为止。
实验评估
为了评估 SSAPStream 算法的有效性和效率,使用了合成数据集和真实数据集进行实验。合成数据集包
数据聚类与增量学习技术解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



