点过程行为聚类与决策树预测确定性估计
1. 点过程行为聚类
1.1 聚类区分标准
在对尖峰序列进行聚类时,两种算法可能会以任意顺序报告找到的聚类,因此需要一个标准来区分它们。具体做法如下:
1. 对于找到的每个聚类 (C),计算其平均轮廓曲线 (m_C(x)):
- 公式为 (m_C(x)=\frac{1}{|C|}\sum_{T\in C}s_T^{\prime\prime}(x)),其中 (|C|) 是聚类 (C) 中的尖峰序列数量,(s_T^{\prime\prime}(x)) 是尖峰序列 (T) 的二阶导数曲线。
2. 计算每个 (m_C) 的曲线下面积(AUC)。
3. 选择 AUC 最小的聚类,该聚类与许多尖峰序列贡献的时间帧重叠最小,可认为是噪声行为的原型。其余尖峰序列则标记为潜在的组件候选者,可使用其他方法进一步处理。
由于只需要区分哪些尖峰序列是噪声,哪些是组件候选者,因此可以将层次聚类限制为恰好报告两个聚类,一个是噪声,另一个包含组件尖峰序列。
1.2 评估方法
为了评估上述方法,生成了多个人工尖峰序列集,并运行算法来报告组件和非组件尖峰序列。由于这是一种分类问题,可以使用分类质量度量,如调整兰德指数(ARI)和调整互信息(AMI)来评估该方法。这两种度量基于预测的聚类标签计算两个不同聚类结果之间的一致性,且与聚类标签的顺序无关。ARI 基于绝对一致数量,AMI 基于两个聚类共享的互信息。
生成人工尖峰序列的步骤如下:
1. 从指数分布中采样尖峰间隔(两个连续事件之间的时间),直到达到指定的尖峰序列长度,即生成泊松点过程。
2. 非组
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



