PEA: 面向智能医疗系统的并行心电图认证
1. 引言
为了提高可用性、隐私、可靠性、安全性、安全及其非智能对应属性等特定品质或特性,专注于这些特性的智能医疗系统旨在改善健康结果、降低成本并提升生活质量[1, 2]。由于这些系统涉及各种敏感信息,例如医疗数据和隐私记录,因此保障智能医疗系统的安全与隐私已成为一项不可或缺的任务[3]。因此,已提出多种认证方法以保护用户隐私和安全。
现在人们普遍认为,生物特征识别比基于知识和拥有权的方法(如身份证件和用户名/密码)更可靠,因为使用生物特征识别时无需记忆任何信息。生物特征属性不会丢失、转让或被盗,并且由于这些属性极难伪造,需要真实用户的存在才能授予对特定资源的访问权限,因此能提供更高的安全。因此,基于生物识别的方法被认为在平衡隐私与性能方面发挥着关键作用。通常,生物特征识别分为以下两类:
-
行为生物识别 :通常在移动和可穿戴设备上实施,通过手势、触控动态、击键等方式识别用户。[6, 7]。通常情况下,行为生物识别用于防止内部攻击,但也被认为适用于进入系统[8]。因此,一些涉及更多行为信息的高级生物识别技术被提出以提供更好的认证[9]。
-
生理生物识别 :是强大的新兴模式,正在成为人类识别中实现自动准确的个体识别的有前景的技术,包括心电图(ECG)[10]和脑电图(EEG)[11]。例如,Martinovic 等人提出了一种脉搏响应生物识别系统,以增强安全终端上连续认证的安全性 [12]。更具体地说,Barra 等人提出了一种基于心电图基准特征(峰值)提取和脑电图频谱特征相结合的生理生物识别系统,以支持医疗应用中的更好认证 [13]。
-
多模态生物识别 :已被提出,用于结合生理和行为生物识别,以提高鲁棒性 [14]。在 [15],戈达等人开发了一种混合生物识别系统,该系统在分数级融合心理和行为特征,包括面部、掌纹、签名和语音特征。此外,苏尔塔纳等人提出从在线社交网络中挖掘社会行为信息,并将其与传统的面部和耳部生物识别相融合,以增强传统生物识别系统的性能[16]。
显然,生理生物识别适用于医疗系统中的认证,因为行为和多模态生物识别通常需要收集更多数据,这与用户的 healthcare 健康相关性较低,且存在复杂性和可扩展性问题。因此,基于心电图的生物特征识别被广泛用于为医疗系统提供持续认证[17, 18, 19]。
然而,根据对基于心电图的认证技术的全面研究,A. 弗拉蒂尼 等人 在 [20] 中得出结论:将开发新技术以提高认证精度,特别是针对包含大量用户的场景。因此,本文提出了一种名为PEA的并行心电图认证方法,用于智能医疗系统,以提供更准确、高效的生物特征识别。具体而言,本工作的主要贡献包括以下几点:
- 针对不同场景下认证准确率不稳定的问题,本文提出了一种融合基准点和非基准特征的混合心电图特征提取方法。该方法旨在提取更全面的心电图特征,以提高认证稳定性。
- 为了提高效率,本文提出了基于 MapReduce 的并行心电图模式识别方法,能够有效搜索多模态心电图特征空间。
本文的其余部分组织如下。第2节介绍了所提方案的详细设计。第3节描述了所提出的混合心电特征提取,包括基准特征和非基准特征。第4节介绍了所提出的并行心电模式识别,接着在第5节进行了实验分析。最后,第6节对本文进行总结。
2. 系统设计
2.1 动机与设计问题
所提出的基于心电图的认证在智能医疗系统的用户识别方面被认为具有广阔的应用前景,因其具备诸多优势特性:
- 不可模仿性 :许多重要研究已证明,心电图是一种不易被模仿的固有生命体征信号,而指纹、语音、虹膜和其他生物特征识别则不同[21]。
- 适用性 :对于视力障碍和截肢者而言,某些生物特征识别无法使用,而心电图比其他生理信号更为重要[22]。
- 可访问性 :由于智能医疗系统通常需要收集各种生理数据,其中心电图是用于监测的最重要的生命体征信号之一,心电图便于认证。
- 舒适性 :与其他生理生物识别相比,尤其是脑电图,心电图数据可通过舒适的传统移动或可穿戴设备轻松采集 [23]。
2.2. PEA框架
针对这些设计问题,本文提出了PEA,以期为智能医疗系统提供更合适的认证流程。在图2中,展示了PEA框架,其包含以下组件:
- 生理数据采集 :通过远程医疗终端、可穿戴设备、传感器等收集生理信息。仅心电图信号被传输到认证服务器,其他生理医疗数据在用户被识别之前不会传输到医疗数据中心。
- 混合心电特征提取 :在PEA中,为进行心电图模式识别而提取基于标记点和非标记点的特征。特别是,基于非标记点的特征包括形态学和频谱特征。
- 并行心电模式识别 :借助云计算、大数据等技术,基于心电图的并行识别得以实现,并高效支持认证。具体而言,在PEA中实现了线性判别分析(LDA)和二维主成分分析(2DPCA)以提高认证精度,因为它们在心电图模式识别中的有效性已被广泛证实 [24, 25, 26, 27]。
- 生理数据传输 :认证后,所有感知的生理数据都将传输到医疗数据中心。
2.3. 场景
由于医疗数据隐私的原因,认证在远程医疗和医疗系统的发展中受到了越来越多的关注。通过PEA,仅使用心电信号即可提供可接受的认证。由于心电信号在几乎所有远程医疗和医疗系统中都被监测,PEA可以在以下代表性场景中实施:
- 在紧急情况下,患者可能无法提供有关其病史、过敏史等关键且有助于急诊治疗的信息。通过PEA辅助,系统可以识别患者,并访问其医院信息。
- 目前,尽管可穿戴设备已得到广泛应用,但大多数仅支持传统的认证方法,例如使用用户名和密码登录。然而,输入账户详细信息通常并不方便运动时。通过PEA,只要能感知到心电信号,即可实现快速且连续的认证。
3. 混合心电特征提取
为了准确表示心电图特征,特征提取应尽可能包含更多的信息。因此,本文提出了一种混合心电特征提取技术,该技术包括基于基准点的特征和基于非标记点的特征。
3.1. 基于基准点的特征提取
人们普遍认为,PQRST波峰是心电图中最显著的基于基准点的特征;它们在整个心电信号上被标记和存储,其中峰值被指定为R波峰值[28]。因此,在所提方案中,PQRST波峰被视为主要的基准特征。
图1展示了一个典型的心电信号波形,其中PQRST波峰可通过小波变换[29]确定。具体而言,可直接计算PQ、QR、RS和ST的持续时间扫描,以表示心电信号的时域特征。此外,R波峰值对心电识别影响较小,仅计算PQ、PT和SQ的幅值来表示心电信号的幅值特征。综上所述,可通过基于PQRST波峰的方法提取时域和幅度特征。
3.2. 基于非基准点的特征提取
3.2.1. 形态学特征
形态学特征是最具代表性的非基于标记点的心电图特征之一,易于识别。因此,所提方案在混合心电特征提取中包含了形态学特征。具体而言,形态学特征通过以下步骤进行提取:
- 通过公式1建立用户 i 的心电信号矩阵,其中C表示该用户的心电图信号文件数量,N表示每个心电图文件中的信号周期数,以及在时间戳 j 处获取的心电信号值 Sj。
$$
\begin{cases}
X_i = x_1, x_2, \cdots, x_C \
x_C = \sum_{j=1}^{N} S_j / N
\end{cases}
$$
- 全局哈希矩阵通过公式2生成,其中 P 表示用户数量。
$$
G = \frac{1}{P \cdot C} \sum_{i=1}^{P \cdot C} \left( X_i - \frac{\sum_{i=1}^{P \cdot C} X_i}{P \cdot C} \right)^T \left( X_i - \frac{\sum_{i=1}^{P \cdot C} X_i}{P \cdot C} \right)
$$
- 然后可以直接计算 G 的特征值和特征向量。根据其物理意义,前n个特征值及对应的特征向量可以近似表示原始矩阵;即,它们被视为形态学特征。
3.2.2. 频谱特征
一般来说,心电信号的频谱特征是稳健的,并且不受环境的影响。尽管它们很难区分,但这些特征可以参与所提出的提取过程以提高鲁棒性。具体而言,心电图频谱特征可以通过以下步骤提取:
- 用户 i 的心电信号被归一化为 signal(i)。
- 通过公式3计算 signal(i) 的线性预测系数(LPCs),其中 ai 由最小误差法确定。具体而言,最小误差 e[n] 可通过莱文森‐杜宾[30]计算,如公式4所示。
$$
p(n) = -\sum_{i=1}^{P} a_i \cdot \text{signal}(i+1)
$$
$$
e(n) = p[n] - \text{signal}(n)
$$
- p[n] 的频谱,即 Z(Ω),可通过快速傅里叶变换(FFT)生成,如公式5所示;然后可对心电信号的特征进行定量分析。
$$
\begin{cases}
Z(\Omega) = \int p(t) \exp(-j\Omega t) dt \
p(t) = \frac{1}{2\pi} \int Z(\Omega) \exp(j\Omega t) dt, \quad \Omega = 2\pi t
\end{cases}
$$
4. 并行心电模式识别
4.1. 理论模型
并行处理是支持增量训练的关键技术,在增量训练中,当生成新数据时,只需训练新数据,而无需重新训练所有数据。图3展示了所提算法的详细理论模型。
- 在MapReduce分布式架构的辅助下,原始数据被划分为多个子集 Sample1,…,SampleN,用于训练和识别。
- 每个表示心电信号混合特征的子集被分割成多个块。
- 通过线性判别分析(LDA),可提取混合特征并计算出四个特征空间:幅度空间 A、持续时间空间 D、频谱空间 S 和形态学空间 M。注意,尽管已证明 LDA 能够取得良好的性能,但结合LDA与二维主成分分析(2DPCA)的方法可以显著提高准确率,如第5节所述。
- 最后,通过遍历混合特征空间可以获得最优结果。
4.2. 算法设计与实现
与传统模式识别算法相比,所提出的方法包含两个搜索过程:在相同特征空间中的搜索和在不同特征空间中的搜索。基于4.1小节中描述的模型,所提出的并行算法有效提高了认证精度,并支持快速搜索和增量模型。图4展示了所提出的并行搜索方案,通过以下步骤找到与输入模式“Test”相似的合适结果:
- 首先,应从“Test”中提取特征;然而,所提出的算法的不同之处在于,“Test”被传输到每个节点,并且存在一个名为“特征空间分割”的私有缩略特征空间。
- 然后提取“测试”特征。特征的数量为 r,对应于“特征空间分割”的数量。请注意,传统方法仅提取一个特征。
- 通过两轮搜索,根据多模态特征空间中的出现概率找到最优值。
此外,图5展示了所提出的多模态特征空间中两轮搜索的细节。
- 第一轮搜索旨在找到每个特征空间中的局部最优,即 l Result1, · · ·, r Result4。具体而言,每个“空间”中的“测试”必须与各个“子空间”进行投影,且每个“空间”包含四个“子空间”,即子空间A、D、S和Z。
- 在第二轮搜索中,所有“子空间”的结果集被合并为< Result, frequency>,表示每个结果在整体特征空间中的概率,进而可推导出全局最优。
5. 实验
5.1. 实验数据集与环境
为了验证所提方案的性能,采用MIT‐BH数据库作为主要实验数据集。具体而言,MIT‐BH包含100个样本,每个样本包含200个 ECG信号文件;因此,该数据集共有20,000个心电信号。此外,考虑到数据来源的多样性,在实验数据集中增加了100个病态样本。每个样本包含10,000个心电信号,相当于一个用户约 10s内采集的心电图信号的数量。
实验环境由四台计算机构建,其中一台配备 Intel (R) Xeon (R) i7 CPU、32核16线程、128GB内存和16TB硬盘。此外,操作系统为 Ubuntu 12.04,Hadoop 版本为 0.23.11。
5.2. 实验结果
设计了三个实验,以评估所提方案在识别、分类和效率方面的性能。
5.2.1. 不同特征之间的比较
如前所述,所提方案涉及四类心电图特征:基于PQRST波峰的时域和幅度特征、来自FTT的频谱特征以及形态学特征。这些特征通过三种方法提取,即 PQRST、FTT和形态学方法,因此设计了一个实验来比较PQRST、FTT、形态学方法与所提混合特征-based方法之间的识别精度。该实验包含20,000个样本,并从每个样本中随机选择一个心电信号,以验证其是否能被成功识别为源样本。
图6显示,尽管基于基准点和非基准点的特征提取在心电图识别中被广泛应用,但这些方法的准确性效果并不理想。特别是,PQRST和FFT方法的准确率分别仅为70%到75%。尽管基于形态学方法的准确率超过91%,但它本质上是一种典型的模式识别实现。此外,心电图形态学代表多模态心电图特征,因此可被视为一种简单的混合心电特征提取。
所提基于混合特征的方法表现出相当好的性能,其准确率超过99%。仅有3个异常心电信号未能被准确识别,这意味着所提方案的抗干扰能力还需进一步改进。然而,心电图识别中涉及更多特征必然会增加计算负载。因此,应采用分布式或并行计算框架以提高效率。
| 方法 | 准确率(%) | 执行时间(秒) |
|---|---|---|
| PQRST | ~70-75 | - |
| FFT | ~70-75 | - |
| 形态学 | >91 | - |
| 混合 | >99 | - |
5.2.2. 心电图识别的评估
心电图识别的准确性是基于生物特征的身份认证的关键指标。因此,所提方案通过马氏距离进行评估。具体而言,从一个样本中随机选择一个心电信号,实验数据包括100个样本。然后,计算马氏距离识别后测量以评估精度;即,马氏距离越小,识别精度越高。
在所提算法中,采用2DPCA来提升性能,理论上可以在去除冗余因素的同时保留关键特征。因此,本实验旨在评估所提算法的可用性,并将其与传统的基于LDA的方法进行比较。
在图7中,展示了所提模式识别方法与基于LDA的方法之间的对比。显然,在评估0号和65号样本时,所提方案的准确率高于基于LDA的方法,但这两种方法的整体性能并无显著差异。综上所述,所提方案的准确率较高且稳定,有效避免了基于LDA的方法中常见的小样本问题。
5.2.3. 并行算法的评估
通过上述实验,所提方案的可用性得到了验证。然而,结果也证明了所提出的混合特征方法需要更多的计算资源,这会降低认证的效率,尤其是在涉及大量用户的场景中。
基于图4所示的并行方案,本实验中由4个“节点”处理100个用户的心电信号文件。每个“节点”包含8个特征子空间。
表1展示了节点1的处理过程。具体而言,在PQRST特征空间中,子空间1的识别结果为‘1’,对应的马氏距离为‘1711.58’。其余子空间的情况可依此类推。特别地,由于子空间3的识别结果为‘16’,且对应的马氏距离为‘0.00’,因此局部最优存在于PQRST特征空间中。同理,FFT特征空间中的局部最优为‘16’,形态学中的局部最优也为‘16’。最后,由于各个特征空间中的局部最优均为‘16’,因此节点1的全局最优极有可能为‘16’,即该信号被识别为第16个用户。
| PQRST | FTT | 形态学 | ||||
|---|---|---|---|---|---|---|
| 识别结果 | 马哈拉诺比斯距离 | 识别结果 | 马哈拉诺比斯距离 | 识别结果 | 马哈拉诺比斯距离 | |
| 子空间1 | 1 | 1711.58 | 1 | 15.52 | 1 | 500.51 |
| 子空间2 | 7 | 1931.19 | 9 | 75.89 | 8 | 330.23 |
| 子空间3 | 16 | 0.00 | 16 | 0.00 | 16 | 184.83 |
| 子空间4 | 24 | 908.71 | 19 | 19.21 | 19 | 244.57 |
| 子空间5 | 43 | 1351.42 | 34 | 33.26 | 42 | 471.96 |
| 子空间6 | 54 | 1380.87 | 53 | 19.54 | 53 | 267.18 |
| 子空间7 | 63 | 1617.44 | 71 | 31.42 | 72 | 362.31 |
| 子空间8 | 85 | 2173.29 | 85 | 38.17 | 83 | 380.38 |
5.3. 讨论
尽管实验结果验证了所提方案为智能医疗系统提供了一种合适的认证方法,但在实际实施中仍需解决以下局限性:
- 可扩展性 :在所提出的方案中,混合ECG特征包括基准点、形态学和频谱特征。随着远程医疗和电子医疗的发展,引入更多特征以实现更优的生物特征识别成为一个巨大的挑战。
- High Throughput :由于实验数据集有限,无法评估所提出方法在实际场景(如三级医院)中利用高通量数据的能力。
6. 结论
为了提高基于心电图的认证的准确性和效率,本文提出了一种结合多种特征用于智能医疗系统的并行方法。具体而言,综合考虑了基于基准点和非基准点的特征,即PQRST、频谱和形态学特征,用于心电图识别。借助并行计算框架,识别过程被分为以下两种处理方法:在每个特征空间中搜索局部最优解以及搜索全局最优解。
通过充分的实验验证了所提方案的性能,结果表明,与其它传统方法相比,其准确性和效率均相当可观。
然而,实验结果也表明,所提出的认证方法容易受到心脏疾病的影响。因此,我们未来的工作将集中在提高针对心脏病患者的基于心电图的认证的鲁棒性。
PEA并行心电图认证方法

被折叠的 条评论
为什么被折叠?



