摘要
目标:预测分类问题
难点:肝移植的样本数据集很小而特征空间很大。机器学习方法用于小样本,特征空间很大的医疗数据集时存在着预测准确率低,精确率和召回率不高等问题
方法:对北京某医院提供的医疗数据,通过迁移成分分析TCA进行特征空间的映射与降维,再使用机器学习的方法进行分析,构建肝移植术后并发症预测模型,并挖掘对术后发生并发症有重要影响的医学指标特征。
1.绪论
肝移植失败的主要原因:不再是排斥反应,而是术后感染
术前终末期肝病模型(Model for end-stage liver disease, Meld)评分标准:对患者术后真菌感染的发生率预警,若患者的 Meld 评分在 20~30 分之间,其术后真菌感染的发生率增加 2 倍,若 Meld 评分大于 30 会 使真菌感染的发生率增加 4.3 倍,Meld 有效地预防真菌感染并增加患者的存活率。
疾病的预后评估:是对疾病发生后不同结局的预测。同一种疾病,在患者的年龄、体质、合并疾病、治疗时间等诸多不同因素的复合影响下,即使接受同等的治疗方案,预后也可能会天差地别。对患者的预后作出准确的预测,指导医生针对性的制定治疗方案,对提高患者的生存率有巨大的作用。
2.相关理论与技术基础
活体肝移植:就是从健康人体上切取部分肝脏作为供肝移植给患者的手术方式。优点:一是缺血时间短,很大程度上减少了因缺血而引起的胆道并发症;二是组织相容性好,因为活体肝移植主要是在亲人家属之间进行;三是准备充足,术前能全方位地了解改善供体、受体的身体状况;四是医疗费用相对较少
临床决策支持系统(clinical decision support systems, CDSS) 临床辅助诊断决策
三种分类算法SVM,KNN,XGBoost(决策树+集成学习)
迁移学习TCA,HDA
常见的肝移植术后并发症
原发性肝移植无功能(PNF),它是肝移植术后早期最为严重的并发症之一, 据资料记载其发生率约为 0.6%~10%。此病为从早期移植肝功能不良至完全肝衰竭的过程,没有确切的诊断标准,大多通过排除法诊断,因此需要加强对肝移植受者术后相关指标的检测。
术后出血是肝移植手术最常见的并发症之一。主要依靠临床表现和生命体征变化确诊,如血压持续下降、心率逐渐加快、受者腹腔内有大量积液、休克等症状。 若是手术因素导致的出血,及时进行第二次手术止血是最有效的处理方法,若术中没有发现明确出血部位却发生出血的临床表现,检查发现各项凝血指标均比较低, 并伴随发生肝功能恶化和代谢性酸中毒的症状,输注外源性凝血因子等治疗后无改善,则提示 PNF 可能需进行再次肝移植。
胆道并发症主要有胆漏、胆管吻合口狭窄、胆管缺血性改变和胆管结石等。手术方式及技术是影响胆道并发症发生最主要的因素。
血管并发症根据部位可分为肝动脉、肝静脉和门静脉的并发症。肝移植术后动脉并发 症约占早期并发症的一半以上,主要以动脉狭窄和血栓形成为主。门静脉的并发症发生率约为 1.0%~12.5%,肝静脉的并发症发生率相对较低。
急性肾损伤进一步发展为肾衰竭的概率在 7.5%左右,而急性肾衰竭是明显增加肝移植受者死亡率的因素之一。
代谢并发症主要表现为受者发生移植后糖尿病和高脂血症。
3.数据预处理
425 位肝移植病人的医疗数据及术后并发症发生情况,各指标的特性可视化
样本标签包含了五种类 型的术后并发症,其中术后并发症 I 包括胆漏和胸腔积液,术后并发症 II 包括腹腔 包裹性积胆、术后出血、伤口感染和肺炎,术后并发症 IIIa 包括胸腔积液需要引流 穿刺和胆漏需要 ERCP,术后并发症 IIIb 包括开腹止血和开腹清除脓肿,术后并发 症 IV 包括 TBIL≥10mg/Dl、INR≥1.6 和 ALT 或 AST≥2000IU/mL
病历记录筛选后确定了 554 个临床数据特征,分别为性别、年龄、手术时间、无肝期时间、热缺血时间、冷缺血时间等。由于部分病历记录和部分临床数据特征意义重复或无统计意义(如手术开始时刻点),首先需要进行初步筛除
预处理过程包括肝移植数据采集和数据标准化处理
数据采集
从电子病历系统中获取病人基本信息,如病人 ID 号、年龄、性别、身高、血型等;
根据病人 ID 号在 ICU 系统中获取该病人的 ICU 数据及最终并发症发生结果,
从麻醉单监护系统中获取手术过程中的数据
数据标准化处理主要包括医疗特征选择(去除噪声数据)、特征规范(度量单位统一,文本特征信息转化为定量数据,男 1 女0)、缺失值处理、异常值处理(删除缺失率大于 60%的特征,共剔除 88 列数据;对于缺失率在 60%~40%范围内的特征,将完 整无缺失的医疗数据特征作为样本输入,缺失值对应的数据特征作为标签,通过训练随机森林模型对缺失值进行预测并填补;对于缺失率小于 40%的特征,可以通过填充固定值、填充均值、填充中位数、极大似然估计等方法给缺失值寻找一个替代值,本文采用最常见的均值填补法。通过对肝移植手术数据的分析,发现数据中存 在异常值的情况,对于异常值的处理,本文采用的方法是对异常的数值设置为 0, 然后按照缺失情况进行填充。出血量为 0 是异常值)
构建源域与目标域
对原有的数据集进行拆分来构建源领域数据与目标领域数据。不同时间节点的医疗数据具有差异性和关联性,按照手术前、手术中、手术后的不同时间节点等时间间 距截取相应的医疗数据值,分成两个数据集,一个作为源域,另一个作为目标域。
这样分出来源域与目标域是同构的
4.辅诊模型
TCA-SVM
1. 源领域与目标领域划分:对患者的临床数据进行分时采样构成源域数据和目标域数据;
2. 迁移成分分析:利用 TCA 方法将源领域和目标领域映射到再生核希尔伯特空间同时进行降维,提取有效临床数据,减少源域数据和目标域数据之间的分布差距,解决了样本小、特征空间大的肝移植数据集给并发症预测模型的训练和预测性能带来的影响;
3. 多算法横向对比:基于 SVM 算法在源域数据上进行训练,在目标域数据上进行预测分类;
4. 多指标综合评级:通过对比综合评价模型效果,获取分类预测效果好、运算效率高的肝移植辅助诊断决策方法
术后并发症二分类预测
在对肝移植手术临床诊断过程中,通过术后的体征表现或病理结果判断患者是否发生了某种术后并发症,该诊断结果分为是和否两种。(小样本容易对小样本的过拟合以及对目标任务的欠拟合,适合简单的目标任务预测)
实验
基于 Tensorflow 框架
PCA 降维保留数据的前 50 个主成分;
在 TCA映射到 30 维希尔伯特空间
HDA由于源域与目标域数据特征维度不一致,因此先利用 PCA 降维使源领域与目标领域映射到 100 维的特征空间中实现特征对齐,再设置字典矩阵的维度 为100 X 80 ,从而使源领域与目标领域数据在 80 维的特征空间中实现分布对齐
高斯核 SVM
TCA 方法结合 SVM 算法在五种术后并发症上的预测准确率和 F1 值要优于其他几种方法
展望
需要改进方面:
目前术后并发症的预测准确率和 F1 值很高,但是缺乏一定的可解释性。将来需要基于专业医学知识的特征自适应选取,以获得具有可解释性的术后并发症预测模型。
目前基于 SVM、KNN 和 XGBoost 三种算法进行对比,可以训练更多的机器学习算法进行对比。
目前基于迁移学习的 HDA 方法与 TCA 方法相比,没有表现出明显的优势, 这是因为本文所划分出的源领域与目标领域数据同质,未来可以进一步研究源领域与目标领域的划分,使 HDA 模型表现出更优的效果。
参考文献
[1] Starzl TE, Marchioro TL,Vonkaulla KN, et al. Homo-transplantation of the liver in humans肝移植的临床意义[J]. Surg Gynecol Obstet,1963,117(117):659-676
[2] 韩红. 超声新技术在移植肝及其血管并发症血流动力学评估中的价值探讨[D]. 上海:复旦大学, 2009
[3] Bertacco A, Barbieri S, Guastalla G, et al. Risk factors for early mortality in liver transplant patients肝移植患者早期死亡的危险因素[J].Transplant Proc, 2019,51(1):179-183
[4] Salviano MEM, Lima AS, Tonelli IS, et al. Primary liver graft dysfunction and non-function:integrative literature review原发性肝移植功能障碍与无功能:综合文献综述[J]. Rev Col Bras Cir, 2019,46(1):2039
[5] 江春平, 朱岳. 移植肝原发性无功能[J].中华肝胆外科杂志,2003,9(5):271-275
[6] Sarhan MD, Osman AMA, Mohamed MA, et al. Biliary complications in recipients of living-donor liver transplant:a single-center review of 120 patients活体供肝移植受者的胆道并发症:120例患者的单中心回顾[J]. Exp ClinTransplant, 2017,15(6):648-657
[7] Syndman DR. Infection in solid organ transplantation实体器官移植感染[J]. Transplant Infectious Disease, 1999,1(1):21-28
[8] Romero FA, Razonable RR. Infections in liver transplant recipients肝移植感染[J]. World J
Hepatol, 2011,3(4):83-92
[9] MoonDB,LeeSG.LiverTransplantation肝移植[J].GutandLiver,2009,3(3):145-165
[10]Vera A, Contreras F, Guevara F.Incidence and risk factors for infections after liver
transplant:single-center experience at the University Hospital Fundación Santa Fe de
Bogotá, Colombia肝移植后感染的发生率和危险因素[J]. Transplant Infectious Disease, 2011,13(6):608-615
[11]Saner FH, Olde Damink SW, Pavlakovic G, et al. Pulmonary and blood stream infections in adult living donor and cadaveric liver transplant patients成人活体肝移植和尸体肝移植患者的肺部和血流感染[J].Transplantation, 2008,85(11):1564-1568
[12]Kim SI, Kim YJ, Jun YH, et al. Epidemiology and risk factors for bacteremia in 144
consecutive living-donor liver transplant recipients 144例连续活体肝移植受者菌血症的流行病学和危险因素[J]. Yonsei Med J, 2009,50(1):112-121
[13]Mukhtar A, Abdelaal A, Hussein M, et al. Infection complications and pattern of bacterial resistance in living-donor liver transplantation:a multicenter epidemiologic study in Egypt活体供肝移植的感染并发症和细菌耐药模式:埃及多中心流行病学研究[J]. Transplant Proc, 2014,46(5):1444-1447
[14]Bert F, Larroque B, Paugam-Burtz C, et al. Pretransplant fecal carriageof extended-spectrum β-lactamase-producing Enterobacteriaceae and infection after liver transplant, France[J]. Emerg Infect Dis, 2012,8(6):908-916肝移植后产生广谱β-内酰胺酶肠杆菌科的移植前粪便运输和感染,法国
[15]吴金道, 母小新, 韩国勇, 等. 2012-2015 年 1380 株肝移植术后感染病原菌的分
布及耐药性分析[J]. 现代药物与临床, 2015,30(12):1546-1549
[16]Kawecki D, Chmura A, Pacholczyk M, et al. Bacterial infections in the early period after liver transplantation:etiological agents and their susceptibility肝移植术后早期的细菌感染:病因及易感性[J]. Med SciMonit,2009,15(12):628-637
[17]刘建明, 杨永洁, 刘大钺, 等. 肝移植术后医院感染流行特征分析[J]. 中华医
院感染学杂志, 2011,21(19):4 022-4024
[18]Rentz AM, Halpern MT, Bowden R. The impact of candidemia on length of hospital stay, outcome, and overall cost of illness念珠菌血症对住院时间、结局和总疾病费用的影响[J]. ClinInfect Dis, 1998,27(4): 781-788
[19]Meersseman W, Vandecasteele SJ, Wilmer A, et al. Invasive aspergillosis in critically ill patients without malignancy无恶性肿瘤的危重患者的侵袭性曲霉菌病[J].Am J Respir Crit Care Med, 2004, 170(6):621-625
[20]Tortorano AM, Peman J, Bernhardt H, et al. Epidemiology of candidaemia in Europe:results of 28-month European Confederation of Medical Mycology (ECMM) hospital-based surveillance study欧洲念珠菌血症流行病学:欧洲医学真菌学联盟(ECMM)医院监测研究的28个月结果[J]. Eur J Clin Microbiol Infect Dis,
2004,23(4):317-322
[21]Denning DW. Aspergillosis in “nonimmunocompromised”critically ill patients “非免疫缺陷”危重病人的曲霉病[J]. Am J Respir Crit Care Med, 2004,170(6):580-581
[22]Saliba F, Delvart V, Ichaï P, et al. Fungal infections after liver transplantation: outcomes and risk factors revisited in the MELD era肝移植后真菌感染:MELD时代的结局和危险因素[J]. Clinical Transplantation,2013,27(4):454-461
[23]Carmelino J, Rodrigues S, Marques HP, et al. Biliary anastomosis in liver transplantation:with or without T-tube? 肝移植中胆道吻合:有或没有t管?Acta Med Port, 2017,30(2):122-126
[24]Kyoden Y, Tamura S, Sugawara Y, et al. Incidence and management of biliary complications after adult-to-adult living donor liver transplantation成人至成人活体供肝移植后胆道并发症的发生率及处理[J]. Clin Transplant, 2010,24(4):535-542
[25]Akamatsu N, Sugawara Y, Hashimoto D. Biliary reconstruction, its complications and management of biliary complications after adult liver transplantation: a systematic review of the incidence, risk factors and outcome成人肝移植术后胆道并发症的并发症和处理:对发生率、危险因素和结果的系统回顾[J]. Transpl Int, 2011, 24(4):379-392
[26] Riediger C, Muller MW, Michalski CW, et al. T-Tube or no T-tube in the reconstruction of the biliary tract during orthotopic liver transplantation: systematic review and meta-analysis t管或不t管在原位肝移植胆道重建中的应用:系统回顾和meta分析[J]. Liver Transpl, 2010,16(6): 705-717
[27]电 子 工 程 世 界 . 机 器 学 习 即 将 彻 底 颠 覆 医 疗 诊 断 系 统 [EB/OL].(2017-05-05).[2018-09-05].http://www.sohu.com/a/138440982_119709
[28]Weng SF, Reps J, Kai J , et al. Can machine-learning improve cardiovascular risk prediction using routine clinical data? 机器学习能否利用常规临床数据改善心血管风险预测[J]. PLoS One, 2017,12(4):e0174944
(数据集很大)采用英国 378256 例患者的常规临床医疗数据,分别训练随机森林、逻辑回归、梯度提升和神经网络四种不同的机器学习模型,并通 过 ROC 曲线下的 AUC 面积评价预测精度。结果显示,这四种机器学习算法在预 测心血管疾病方面都有不错的效果,其中神经网络技术表现最佳,其 AUC 值高达 0.764
[29]Mahesh Kumar S.V., Gunasundari R. Computeraided diagnosis of anterior segment eye abnormalities using visible wavelength image analysis based machine learning基于机器学习的可见波长图像分析在眼前段异常的计算机辅助诊断[J]. Journal of Medical Systems, 2018,42(7):1-12
[30]Rehme AK, Volz LJ, Feis DL, et al. Identifying neuroImaging markers of motor disability in acute stroke by machine learning techniques利用机器学习技术识别急性中风运动障碍的神经影像学标记物(医学影像方向)[J]. Cereb Cortex, 2015,25(9):3046-3056
[31]Asadi H, Kok HK, Looby S, et al. Out comes and complications after endovascular treatment of brain arteriovenous malformations:a prognostication attempt using artificial intelligence[J]. World Neurosurg, 2016,96:562-569
脑动静脉畸形血管内治疗后的产生和并发症:一种使用人工智能的预测尝试
[32]Hope TM, Seghier ML, Leff AP, et al. Predicting outcome and recovery after stroke with lesions extracted from MRI images从MRI图像中提取病变预测中风后的结果和恢复[J]. Neuroimage Clin, 2013, 2:424-433
[33]Mazzaferro V, Regalia E, Doci R, et al. Liver transplantation for the treatment of small hepatocellular carcinomas in patients with cirrhosis肝硬化患者小肝癌的肝移植治疗[J]. N Engl J Med, 1996,334(11):693-699
[34]Audet M, Panaro F, Piardi T, et al. Are the Hangzhou Criteria adaptable to hepatocellular carcinoma patients for liver transplantation in western countries? 杭州标准是否适用于西方国家肝癌肝移植患者? [J].Liver Transpl, 2009,15(7):822-823
[35]刘文洋.面向临床决策支持的贝叶斯网络医嘱推荐方法研究[D].北京理工大学,2016
基于历史诊断和医嘱数据,动态产生医嘱推荐列表
[36]Haug J D. Physicians' preferences for information sources:a meta-analytic study信息来源偏好:元分析研究[J].Bull Med Libr Assoc, 1997,85(3):223-232
[37]M. A. Hearst, S. T. Dumais, E. Osuna, J. Platt, and B. Scholkopf. Support vector machines[J]. IEEE Intelligent Systems and their Applications, 1998,13(4):18-28
[38]奉国和.SVM 分类核函数及参数选择比较[J].计算机工程与应用,
2011,47(03):123-124+128
[39]Cover TM, Hart PE. Nearest neighbour pattern classification[J]. IEEE transactions in
information theory, 1967,13
[40]T Chen, C Guestrin. XGBoost:A scalable tree boosting system[A]. Proceedings of
the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. New York:ACM, 2016:785-794
[41]Pan SJ, Yang Q. A survey on transfer learning. IEEE TKDE[J]. 22(10):1345-1359
[42]Jianhan Pan, Xuegang Hu, Peipei Li, et al. Domain adaptation via Multi-Layer Transfer Learning[J]. Neurocomputing, 2016,190:10-24
[43]龙明盛. 迁移学习问题与方法研究[D]. 北京:清华大学, 2014
[44]M. Long, J. Wang, G. Ding, J. Sun, and P. S. Yu. Transfer feature learning with joint distribution adaptation基于遗传算法的迁移特征学习[J].2013 IEEE International Conference on Computer Vision, 2013:2200-2207
[45]Pan SJ, Tsang IW, Kwok JT, Yang Q. Domain daptation via transfer component analysis[J]. IEEE TNN, 2011,22(2):199-210
[46]J Li, K Lu, Z Huang, L. Zhu, HT Shen. Heterogeneous domain adaptation through progressive alignment通过渐进对齐的异质域适应HDA[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019,30(5):1381-1391
[47]H Lee, A Battle, R Raina, AY Ng,”Efficient sparse coding algorithms” 高效稀疏编码算法in Proc[J]. NIPS, 2007,19:801
[48]刘明吉,王秀峰,黄亚楼.数据挖掘中的数据预处理[J].计算机科学, 2000, 27(4). [49]关大伟.数据挖掘中的数据预处理[D].长春:吉林大学,2006
[50]Genders S, Spronk S, Stijnen T, Steyerberg EW, Lesaffre E, Hunink M. Methods for calculating sensitivity and specificity of clustered data: a tutorial计算聚类数据的敏感性和特异性的方法:指南[J]. Radiology, 2012, 265(3): 910-916
其中这篇与我们项目相似
[31]Asadi H, Kok HK, Looby S, et al. Out comes and complications after endovascular treatment of brain arteriovenous malformations:a prognostication attempt using artificial intelligence[J]. World Neurosurgery, 2016,96:562-569
脑动静脉畸形血管内治疗后的产生和并发症:一种使用人工智能的预测尝试
样本数量相似,且用了多种机器学习方法
SCI分区不高,且用的是matlab等工具,对预测模型参数等的描述模糊
World Neurosurgery 2021年影响因子/JCR分区:2.104/Q4
https://xueshu.baidu.com/usercenter/paper/show?paperid=98bb1a84e5c05fee756d9065cb9a0dc8&site=xueshu_se
数据:提取了199例在我们机构中接受了血管内治疗的BAVM患者
预测方法:神经网络和支持向量机两种算法对数据进行挖掘与建模,其预测精度高于 90%,远远高于回归模型的预测精度,并分析各种因素对 BAVM 血管内栓塞治疗效果的影响比例
(使用MATLAB及其神经网络工具箱,以及NeuralTools-7进行监督机器学习分析,其中设计了一个具有s形隐藏和线性输出神经元的2层前馈网络。然后将数据随机分成90、5和5%的子集,使用Levenberg-Marquardt算法对网络进行训练,使用结果验证和测试,使用均方误差(MSE)监测模型的性能,并在直方图上描述预测误差。然后,计算接收机工作特征曲线来说明系统在每个数据集上的性能。此外,还计算了混淆矩阵或列联表,以更好地表示网络的性能。将所设计的网络及其计算出的加权矩阵导入MATLAB的Simulink工具箱中,以便于对未来数据集的结果进行预测
预测效果:从神经网络模型中可以观察到总体良好的接收者工作特征曲线,曲线下估计面积为0.76。模型的敏感性和特异性是可接受的,总体的准确性为97.5
2.5%,而“mikro”是一个聚合混淆矩阵的准确性度量,为97.5%。30天生存率的分级精度和回忆率均为>95%。最终的神经网络分类和相对误差分别计算为2.5%和3.9%,spearman r为0.100 þ/ 0.300, mikro为1.000。支持向量机模型也表现出了相对良好的性能,MSE为0.027 (SD
0.026),估计根(rMSE)为0.126 (SD
0.104),系统精度,由微计评估,为0.163。当交叉验证操作数被设置为与“省去一个”采样而不是“shuffle”采样一起工作时,支持向量机的性能略有改善,结果是MSE为0.026 (SD
0.153), rMSE为0.044 (SD
0.155), miro为0.026。)