基于正负关联规则挖掘的 COVID - 19 预测与分析
1. 引言
在当今世界,COVID - 19 是主要的人类杀手大流行病。在印度,大多数 COVID - 19 死亡病例的原因是并发症。它在全球夺走了数百万人的生命,截至目前,在印度也引发了数千例疾病。
COVID - 19 的常见症状包括发烧、疲劳和干咳。其他不太常见但可能影响部分患者的症状有喉咙痛、疼痛、头痛、鼻塞、味觉或嗅觉丧失、结膜炎、腹泻或皮肤皮疹等。有些 COVID - 19 阳性患者仅出现非常轻微的症状。
数据挖掘正应用于临床领域,“关联规则挖掘”是从大量数据集中提取频繁项集的最有效数据挖掘方法。其主要目标是从事务数据库中找出频繁项集,但该算法会忽略许多有价值的非频繁项集。这些低支持度的频繁项集可能会产生重要的负关联规则(高置信度)。本文旨在从“频繁”和“非频繁”项集中提取正(+ve)和负(-ve)关联规则,在医学领域同时应用正负规则挖掘有助于提取特定疾病的罕见症状。此前多数研究使用 Apriori 算法分析医疗数据中的频繁项集,用于研究 HIV、心脏病、癌症和肿瘤、糖尿病等疾病,而关于使用正负关联规则研究 COVID - 19 的工作非常少。
2. 方法
该方法聚焦于从频繁和非频繁项集中提取正负关联规则,考虑 COVID - 19 症状的样本文本数据集。从预处理数据集中获取“最小支持度”和“最小置信度”值以生成频繁项集,最后利用提升度从“频繁”和“非频繁”项集中生成正负关联规则。
2.1 数据来源与 COVID - 19 症状
模拟了包含 1000 名患者样本记录的 COVID - 19 数据集症状,如下表所示:
超级会员免费看
订阅专栏 解锁全文
16万+

被折叠的 条评论
为什么被折叠?



