基于SVM的新生儿心音诊断

医疗保健

Article基于支持向量机的新生儿心音图诊断

阿米尔·穆罕默德·阿米里 1,2,∗,穆罕默德雷扎·阿巴塔希 2,尼克·康斯坦特 2和库纳尔·曼科迪亚 2
1美国费城宾夕法尼亚州19140天普大学公共卫生学院物理治疗系2美国罗德岛州02881金斯顿罗德岛大学电气、 计算机和生物医学工程系;mabtathi@ele.uri.edu(M.A.);kabuki4774@gmail.com(N.C.); kunalm@uri.edu(K.M.)*通讯作者:amir.amiri@temple.edu;电话:+1‐215‐204‐0496

摘要

对新生儿进行心音图(PCG)监测是生命早期心脏评估中最为重要且具有挑战性的任务之一。
本文提出了一种应用于心音图数据的心脏监测新方法。该基础系统结合去噪、分割、心脏周期选择 和心音分类,可广泛用于大量数据的处理。本文描述了PCG方法存在的问题及其额外优势,包括在 家记录心音的可能性、在移动设备上去除不需要的噪声并进行数据压缩,以及通过云服务器上的智 能系统诊断心脏病。为了提取可用于分类器输入的特征,本文提出了来自多个分析领域的广泛生理 特征,包括建模、时域/频域分析、算法等。为了从多个受试者收集持续一年的心音图数据集,使用 连接至移动设备的电子听诊器进行数据采集。在本研究中,我们采用了多种类型的分类器来区分健 康与病理性心音,性能比较结果显示,支持向量机(SVM)在116个样本的数据集上训练时间为 1.14秒,准确率达到92.2%,AUC为= 0.98。

关键词 : 移动健康;心音图;支持向量机

引言

2011年,美国首要死因是心脏病,导致近78.7万人死亡[1]。根据美国心脏协会(AHA)2014年 的一份报告,每年有1730万人死于心血管疾病,使心脏病成为190多个国家的全球首要死因,预计到 2030[2]这一数字将增长至超过2360万。

尽管心脏病被视为主要的死亡原因之一,但在生命早期进行诊断可显著降低大多数风险因素。一 些心脏病可能导致危及生命的症状,并需要在出生后的数天或数周内进行干预,因为即使是严重的先 天性心脏病,在早期检测的情况下也通常是可治疗的。

尽管心脏诊断的成像技术取得了显著进展,但通过听诊对心脏缺陷进行临床评估仍然是发现心脏 病的主要诊断方法。在经验丰富的医生手中,这种方法有效、可靠且成本低廉。心音图(PCG)包含 的信息被医生广泛用于评估患者的心脏功能并检测是否存在异常[3]。

新生儿心脏在出生后的最初几天或几周内仍在发育,因此会出现一些额外的声音,称为生理性杂音。
此外,如果存在一种婴儿出生时就有的心脏问题所导致的额外声音,则称为病理性杂音或先天性心脏缺陷 [4]。心脏杂音非常常见,在儿童中高达80%会在某个时期出现。区分良性与病理性杂音非常重要。

新生儿生理性杂音最常见的原因是出现一种称为动脉导管未闭(PDA)的特定情况,这种情况通 常在出生后不久被发现,最常见于早产儿。PDA是一种潜在严重的状况,血液通过动脉导管异常循环。
一般来说,PDA唯一的症状是心脏杂音,这种杂音会持续到动脉导管自行关闭为止;对于健康的(良 性)新生儿,通常在出生后的几小时内关闭。有时,尤其是在早产儿中,动脉导管无法自行关闭,或 者可能较大,导致过多血液流经肺部,从而增加心脏负担,迫使心脏更努力地工作,并引起肺动脉血 压升高。在这种情况下,可能需要使用药物治疗,极少数情况下需要手术来帮助关闭动脉导管[5]。

心音图包含两个主要声音:第一心音由二尖瓣和三尖瓣关闭引起,第二心音由主动脉瓣和肺动脉 瓣关闭产生。两个声音之间的间隔称为杂音。杂音有两种:收缩期杂音出现在S1与S2(第一和第二心 音)之间,因此与机械性收缩期和心室射血相关;舒张期杂音出现在S2之后、S1之前,因此与心室舒 张和充盈相关。舒张期杂音包括主动脉瓣和肺动脉瓣反流(早期舒张期),以及二尖瓣或三尖瓣狭窄 (中期至晚期舒张期)。三尖瓣狭窄极为罕见,将在瓣膜性心脏病部分进一步讨论(见图1)[6]。

示意图0

心脏杂音的诊断在健康/不健康的新生儿中非常常见,通常需要数天或数周才能消失。通常,问 题的确切原因未知,但往往有可能是由于新生儿心脏的复杂发育所致。例如,PDA是新生儿中最常 见的心脏杂音;如果出生后不久仍未消失,则被称为病理性杂音。因此,对新生儿心脏进行监测非常 重要,以降低未来心脏问题的严重风险。

心音图的实时监测是一种重要的诊断工具,用于测量和分析心脏的功能状态。随着数据量的增加, 数据背后的复杂性和关联性也随之增加。在信息系统中数据收集和传输的早期阶段,重点是找到最佳 的特征值来表示每次观察结果。

远程监测新生儿以区分病理性杂音与良性杂音是一项具有挑战性的任务。在本研究中,我们提出 了一种自动分类心音图数据的方法,以分离良性和生理性杂音。本文还实现了一种用于心音图分割的 新技术。特征提取在时域和频域中进行,这对提高实验结果非常有效。该方法利用了不同类型的分类 器,并表明支持向量机是识别病理性杂音的合适选择。

2. 相关工作

J. Herzig 的最新研究 [7]提出了一种基于心音分析的心脏监测方法。具体而言,该研究使用了 两个形态学特征及其与基线状态生理变化的关联。该框架在15名患者的腹腔镜手术期间记录的数据上 进行了验证。论文表明,所提出的特征在心脏应激期间会发生变化,且心脏病患者的变化更为显著。
此外,他们还表明,在此特定的心脏应激实验中,其他已知的心电图形态学特征敏感性较低。

另一篇由S. Barma [8]发表的论文报告了一种基于非线性信号分解和分解成分瞬时特性的自动心 音监测系统的特征生成方法。在这项工作中,使用互补集合经验模态分解对心音(正常和异常)进行 分解。实验在总共23类不同的心音上进行,包括来自密歇根心音和杂音数据库的正常和异常情况。结 果表明,所提出的方法可以达到98%的识别率。

Kovcs, Ferenc 等发表的一篇论文[9]提出了一种用于评估胎儿心音的复杂启发式方法,该方法同 时应用了多种算法,其中自相关技术结合了小波变换和匹配追踪方法。通过这种方式,可以获得更可 靠的心率变异性,并且除了常规宫缩图检查外,还能评估心脏功能的其他参数。这还包括那些只能通 过长期或连续监测才能研究的参数,以及那些依赖于心率变异性精确估计的参数。

Maglogiannis [10]等人提出了一种使用支持向量机的诊断系统,用于识别心脏瓣膜病。他们将 该系统应用于一个包含198例心音信号的数据集,这些信号来自健康病例以及四种最常见的心脏瓣膜 病病例:主动脉狭窄(AS)、主动脉瓣反流(AR)、二尖瓣狭窄(MS)和二尖瓣反流(MR)。该 系统首先将心音分为正常或与疾病相关,然后对异常病例中的相应杂音进一步分类为收缩期或舒张期。
该研究还应用了其他几种不同的分类器(即反向传播神经网络、k‐最近邻和朴素贝叶斯分类器)对同 一数据集进行比较,结果表明支持向量机分类器在相同的诊断问题上表现更优。

最近,Shuang Leng 等 [11]发表了一篇关于电子听诊器技术及其基于计算机辅助听诊的心脏疾 病诊断方法的研究报告。该论文基于对相关文献、市场产品以及智能手机听诊器应用的全面文献综述, 涵盖了计算机辅助电子听诊系统的一些关键组件,包括传感器设计、前端电路、去噪算法、心音分割 以及最终的机器学习技术。作者试图对电子听诊器进行详尽且具说明性的介绍,这对该技术领域的学 术界、研究人员和工程师,以及希望在临床中推广应用的医疗专业人员都具有重要价值。该论文为实 时集成心音检测、采集与量化系统的开发和商业化提供了技术和医学基础。

本研究提出了用于分割(S1和S2检测)、心音信号缩减的心脏周期选择以及区分心脏杂音的分类 新方法,这些方法可广泛应用于数据分析应用中。

3. 方法

该阶段涉及信号的预处理和特征提取,即提取心音信号中某些特定的、独有的特征属性,从而适 用于分类目的。图2展示了所提出系统中使用的各个阶段。

示意图1

3.1. 数据采集

心音图数据通过连接到移动设备的电子听诊器进行记录。我们在伊朗马什哈德的伊玛目·盖姆医院, 从116名1‐20天大的新生儿中记录了心音图数据。所有新生儿均接受了一位心脏病专家的检查,该专家 使用超声心动图对心音图数据进行标注,提供有关杂音的信息。该标签用于指明杂音是良性还是病理 的。我们获得了所有家长的同意。

3.2. 去噪

去噪和滤波心音图数据的目的是去除或减少不需要的噪声。在记录心音图数据时,如果所处环境 存在噪声,则可能会导致心音图数据中混入噪声,而此类数据通常以高于8千赫兹的采样频率进行记 录。因此,滤波在避免不可预测的影响方面起着重要作用,这些影响必然会干扰后续处理阶段的性能。
为了记录心音,使用了电子听诊器,其以44千赫兹的频率记录数据。频谱图是一种用于可视化信号频 率随时间变化谱特征的非常有用的工具。频谱图能够显示信号能量随时间和频率成分的变化情况。在 心音信号上应用了12秒窗口的频谱图,结果显示在100赫兹范围内存在显著变化。系统采用三阶带通 巴特沃斯滤波器,截止频率为20赫兹和100赫兹,以获取第一和第二心音(分别为S1和S2)的主要频 谱成分。

3.3. 分割

去噪后,下一步是识别信号中的第一心音(S1)和第二心音(S2)以及它们之间的时间间隔。为 了将心音信号分割为四个主要部分——S1、S2、收缩期和舒张期,我们建立了以下框架。虽然S1和 S2的检测可以手动完成,但我们设计了一种算法,基于高幅度成分之间的时间间隔来识别它们。因此, 我们采用伽博小波进行峰值检测,其形式化描述如下:

Ψ(t)= C · e−jwt · e−t 2
(1)

其中e−jwt·e−t 2是复高斯函数,C是归一化常数。

为了区分峰值,已使用设为0.1的小波尺度系数阈值(见图3),并结合过零点来确定峰值出现的 位置。

此外,每个信号段中的过零点数量代表了该信号段的主导成分。该算法计算函数值为零的区间的 大小。它是

示意图2

还要记住,较短和较长的时间区间分别与收缩期(S1–S2)和舒张期(S2 – S1)杂音的发生相关。

3.4. 心脏周期选择

在检测到心动周期后,重要的是识别出哪个周期显示出更多的心脏病迹象——因为检测最具信息量的周期对于心脏功能评估非常有用。对于每位患者,记录的数据包含数秒时间范围内的多个心动周期。尽管已经实施了滤波以去除噪声,但残余噪声可能仍是心音信号的一部分——例如呼吸音、人为噪声或新生儿声音。动态时间规整(DTW)已被用于计算各周期与一个模式周期之间的相似性,从而选择出噪声最小且最能代表整个信号特性的周期。

DTW 是一种基于欧几里得距离度量来寻找两组时间序列数据相似性的算法。该算法广泛应用于步态检测、语音识别和心音图数据识别中。欧几里得算法将测量两组时间序列数据中点 x 和 y 之间的距离,该距离 p 通常表示为 d(x,y),其中:

d(x, y)= √(x1 −y1) 2+ · · ·+(xn −yn)2 (2)

在许多情况下,测量距离是有效的,但对于某些特殊情况,这种方法可能显得不足。假设你有两 个看起来相似但存在相位偏移的信号。根据欧几里得距离度量,这两个信号之间的距离会很大,从而 意味着它们的相似性很小。然而,事实上这些信号非常相似,仅存在一个相位偏移的差异。在分析心 音信号(PCG信号)时可能会出现这类问题,例如当心率频率增加或减少时。仅仅使用距离度量与使 用动态时间规整(DTW)的区别在于,DTW会利用动态规划来更好地应对这些特殊情况。

设两个时间序列集合分别为长度为 m 和 n 的 A 和 B。该过程首先创建一个 m×n 的邻接矩阵, 并使用动态规划寻找从 (m, 1) 到 (1, n) 的最优路径。该最优路径通过动态规划找到,即将当前单元格 的距离与三个相邻单元格中最小距离相加。可以通过构建某些方法来加速此过程

边界,使得最优路径被限制在对角线附近的有界区域内。两种常用的边界是萨科‐奇巴带[12]和伊藤拉 平行四边形 [13]。

使用动态时间规整,我们可以确定心音图中哪些片段与先前选择的片段不匹配。从这些匹配较差 的片段中,可以找到第二个高度相关的片段。经过多次迭代后,我们将得到最少数量的片段,这些片 段共同展示了去噪后心音图数据中的所有有用信息。通过这些方法,需要发送给医生的数据可以小到 仅一个数据段。要发送的片段必须与其所描述信号片段的距离小于0.005。在图4中所示,我们能够将 完整的心音图数据集减少到仅2个片段,且这些片段与原始数据集的距离小于0.005。这种数据压缩可 以减少设备传输数据所需的时间,并通过自动查找信号中重要部分来帮助医生。

示意图3

3.5. 特征提取

此阶段的目标是从心音信号中提取可用于诊断的有用特征。在云上使用不同的信号处理工具来检 测心脏杂音。

在特征提取方面,已考虑多种时频域特征,包括最大值幅度、正面积之和、方差、香农能量、双 谱和维格纳双谱,这些特征已被证明能有效提升分类性能[14,15]。

4. 分类

支持向量机(SVM),也称为支持向量网络 [16],是机器学习中的一种监督学习方法,近年来在 算法策略及其应用方面取得了显著发展 [17]。支持向量机主要用于通过分析数据并识别模式来进行分 类,并结合某些相关算法实现。具体而言,支持向量机算法建立一个模型,用于识别给定训练数据集 中的样本模式,其中每个样本属于两个不同类别之一,然后将数据集中的新样本或特征预测为这两个 类别之一。换句话说,支持向量机是一种判别式分类器,该算法基于最优分离超平面或决策边界对新 样本进行分类(见图5)。

示意图4

有许多不同的支持向量机方法,这里我们不再详述。如果训练数据集是线性可分的,则可以通过 选择两条边界来分离样本,从而使用线性支持向量机。一般来说,任何决策边界都可以描述为满足方 程 x Tx − b= 0 的点集。在这个方程中,w 是从原点指向决策边界的正交向量,而决策边界相对于 原点的标量偏移可通过 b 确定。假设特征或样本向量用 xi 表示,类别或目标用 yi 表示,在本研究中 我们将 yi=+1 和 −1 分别赋值给健康与病理病例。根据 yi 的取值,我们的决策边界将是:

wTx − b= 1 and wTx − b= −1 (3)

显然,这两个边界之间的距离(也称为边界间距)为 2/|w|。由于系统的目标之一是最大化边界间 距,因此很明显需要最小化w。同时,我们需要防止点落在边界间距内的情况,因此我们的边界约束 条件为:

wTx − b ≥ 1 and wTx − b ≤ −1 (4)

将yi相乘并推广这些方程,可得到:yi(wTxi − b) ≥ 1,对所有i成立。

因此,线性SVM算法的原始形式为:Minw|2/2),约束条件为yi(wTxi − b) ≥ 1对所有i[18]。

5. 实验与结果

本研究开发了一种支持向量机,用于诊断两种不同的心音信号。共研究了116例心音图(正常与 病理)。在本节中,我们展示了上述提出的线性支持向量机技术的结果,包括准确率、受试者工作特 征(ROC)和训练时间。采用K折交叉验证(K = 8)作为训练和测试策略,该策略基于留出法。数 据集被划分为k个子集。每次使用其中一个k子集作为测试集,其余的k −1个子集合并形成训练集。

线性支持向量机的分类结果以混淆矩阵的形式显示在表1中,并附有分类准确率的百分比。可以 看出,在58个正常信号中,有56个被正确分类为正常,2个被误分类为病理的。对于58个病理信号, 有51个被正确分类为病理的,7个发生了误分类。对误分类样本的详细分析表明,即使是人类专家也 很难对其进行分类。

实际类别 正常 病理的 正确百分比
正常 56 (97%) 2 (3%) 97%
病理的 7 (12%) 51 (88%) 88%
平均/总体 116 92.2%

结果验证了所提算法的有效性和性能,准确率达到92.2%。表2显示了与其他分类器在准确率、 ROC曲线下面积和训练时间方面的比较结果。所有分类器均采用K折交叉验证,其中k= 8。

模型 准确率 AUC 训练时间
复杂树 88.8% 0.90 2.88 秒
简单树 86.2% 0.89 0.56 秒
线性判别 73.3% 0.84 1.14 秒
二次判别 77.6% 0.85 0.74 秒
逻辑回归 86.2% 0.89 2.72 秒
线性支持向量机 92.2% 0.98 1.41 秒
提升树 78.4% 0.78 4.69 s
装袋树 87.9% 0.96 4.32 s
子空间判别 85.3% 0.96 4.66 s
子空间树 77.6% 0.86 4.96 s

在二分类问题的受试者工作特征(ROC)曲线中,真阳性率(敏感性)作为假阳性率(100‐特异 性)在不同截断点下的函数进行报告。图6中的ROC曲线目标是用于对良性与病理性杂音进行分类。 具有完美性能的预测模型的曲线下面积(AUC)等于1。我们平均获得了AUC = 0.98的准确率,该 ROC曲线突显了线性支持向量机在识别心脏杂音方面的优异性能。

6. 结论

在前面的章节中,已在移动设备上实现了用于自动分割和心脏周期选择的新方法。所提出的系统 最初包含前述的三步诊断阶段,并采用基于云计算的线性支持向量机分类模型进行工作。该线性支持 向量机表现出良好的结果,预测准确率达到92%,ROC曲线下面积为0.98。其他分类方法也在数据集 上进行了应用,但均未能超过线性支持向量机模型。

我们认为,筛查结果的高性能得益于自动分割、心脏周期选择、特征提取和分类各个阶段所采用 技术之间的完美匹配。本文在心音图(PCG)数据分析应用中的数据压缩方法上具有创新性,而基于 云计算的支持向量机分类器使医生能够获得最准确的数据,同时享受数据尺寸压缩和特征选择带来的 优势。

所提出的技术旨在用于对疑似患有病理性杂音的新生儿进行大规模筛查。本研究提出的软件系统 可被视为一种便携式诊断工具,能够支持患者和医生完成医疗任务。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值