新闻聚类与代谢综合征诊断的智能方法探索
新闻聚类中的DBSCAN - 鞅方法
在新闻聚类领域,为了实现高效准确的聚类效果,提出了一种基于DBSCAN - 鞅的混合框架。
向量序列的鞅过程
鞅是一种随机过程,其中在给定所有先前值 (X_1, X_2, … , X_t) 的情况下,(X_{t + 1}) 的未来期望值等于当前观测值 (X_t)。Doob鞅是一种通用的鞅构造方式,通过逐步获取关于随机变量的知识来构建。对于聚类向量序列 (X_t = C(1) + C(2) + … + C(t))((t = 1, 2, … , T)),它是关于随机变量序列 (Y_t = CDBSCAN(\epsilon_t)) 的Doob鞅。
这里定义了向量的内积 (< Z_i, Z_l > = \sum_{j} Z_i[j] \cdot Z_l[j]),并证明了一个引理:如果两个聚类向量 (Z_i) 和 (Z_l) 相互正交,那么它们包含不同的聚类。例如,聚类向量 (Z_i = [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 0 0 0 0 0 0 2 2 2 2 2]^T) 和 (Z_l = [1 1 0 1 1 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]^T) 相互正交且包含不同的聚类。
随着密度水平 (\epsilon_t)((t = 1, 2, … , T))的增加,会计算出更多的聚类向量,从而逐步获得关于向量 (C) 的知识。在构建向量序列 (C(t)) 时,每个 (C(t)) 都与所有
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



