心电图数据集的处理与分析:基于Faust集群计算的实践
1. 引言
在医疗数据处理领域,心电图(ECG)数据集的分析至关重要。本文将深入探讨如何运用Faust集群计算对ECG数据集进行处理和分析,重点研究Hierarchical Temporary Memory(HTM)算法作为预过滤步骤,以识别异常段,供Faust分类集群进一步分析。Faust是一个能将Kafka流移植到Python以构建实时数据管道的平台。
2. HTM算法在ECG数据集上的应用
2.1 实验数据
本次评估使用了标记的MIT - BIH心律失常数据库,该数据集包含约110,000个心跳,由两名或更多心脏病专家独立标注。每个患者有30分钟、频率为360 Hz的记录,共计648,000个样本。
2.2 HTM算法参数设置
HTM算法的实现涉及复杂的参数设置,主要参数如下:
- 最小和最大队列窗口大小
- 跳跃窗口大小:代表重叠间隔
- 异常窗口大小:异常分数移动平均的长度
- 异常移动平均阈值:检测到的异常段的容忍因子
在本次实验中,为减少实验持续时间,将频率下采样至180 Hz,且原始数据流未进行预处理,包含噪声样本。具体设置如下:
- 最小和最大队列窗口大小:200 - 450
- 异常窗口大小:20
- 跳跃窗口大小:100
2.3 检测率与数据量的权衡
HTM算法的主要目标是检测不健康信号,并尽可能降低基础设施上的数据速率。为此,评估了不健康信号的检测率(真阳性率 - TPR)和被视为异常的健康信号率(
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



