中医机器学习医疗诊断与网络数据分析
1. 中医高血压数据处理
在中医医疗诊断研究中,数据是关键基础。存在一个LEVIS高血压中医数据库,它不仅存储了病例的相关信息,还存储了每个病例的13种中医证候标签。学术和非商业用户可以通过链接http://levis.tongji.edu.cn/datasets/index_en.jsp访问该数据库。
为了评估多标签分类模型在不同数据集上的性能,研究人员从该数据库中提取了五个单诊断数据集,这些数据集的信息分别来自望诊(面部诊断)、舌诊、问诊、切诊和其他诊断。具体信息如下表所示:
|诊断方式|信息内容|
| ---- | ---- |
|望诊|面色苍白、面色无华、面色萎黄、面色潮红等|
|舌诊|淡舌、红舌、暗红舌、淡红舌等|
|问诊|头痛、头晕、头眼胀痛、眩晕等|
|切诊|细、粗、细速、滑弦等|
|其他诊断|盗汗、心悸、肌肉抽搐痉挛等|
在对775个病例进行分析时,发现有四个病例在上述五个表中提到的特征之一存在空值。为了确保后续信息融合和分类模型构建任务的顺利进行,这四个病例从所有五个单诊断数据集中被移除。
此外,研究人员还发现数据集中一些标签出现的频率很低,这会严重影响分类方法的性能。因此,他们对数据集进行了如下处理:
1. 选择标签 :选择标签6、10和12,因为它们的阳性病例数量最多,且多标签方法应至少同时预测三个标签。
2. 确定待移除集 :选择在所有选定标签上标记为阴性的病例作为待移除集,以保留任何标签中的所有阳性病例。
3.
超级会员免费看
订阅专栏 解锁全文
992

被折叠的 条评论
为什么被折叠?



