慢性肾病阶段预测与白内障自动检测研究
1. 慢性肾病阶段预测研究
1.1 数据集
研究使用的数据来自IMEPEN基金会在2010 - 2014年期间,通过巴西卫生部的HIPERDIA项目收集的。数据涵盖了7266名被诊断患有慢性肾病(CKD)或影响肾功能的合并症(主要是高血压和糖尿病)患者的临床、社会经济和个人信息。这些患者来自巴西的Juiz de Fora市以及附近的36个城镇。数据的使用获得了Juiz de Fora联邦大学伦理委员会的批准。
数据集包含7266行患者信息和255列不同变量(包括数值和分类变量)。每行记录包含患者的个人细节(如身份证号、性别、年龄、种族、体重)、社会经济信息(如家庭收入、教育水平、出生地)以及临床数据(如血压测试、多种药物使用情况和最多8个血清肌酐值,2011 - 2014年每年2个)。
1.2 数据分析与过滤
在分析的数据集里,并非所有7266名患者都有血清肌酐值记录,因此部分患者没有疾病阶段记录。研究进行了数据过滤,排除了没有血清肌酐记录的患者,最终剩下5689名患者。
同时,研究根据每位患者的检查日期对数据集进行了重组,以建立患者在CKD各阶段临床状况的时间理解。数据集的行数从5689增加到了40100,这个结果数据被用作后续研究的最终数据集。
研究采用了五种不同的数据插补方法来处理缺失数据:
1. 用零替换
2. 用均值替换
3. 用中位数替换
4. 使用K近邻算法(KNN),设置两个邻居进行替换
5. 使用链式方程多重插补法(MICE),因为根据Pedersen等人的方法,该数据集类型可归类为随机缺失(MAR)。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



