复杂网络挖掘:支持诊断决策的新挑战
1 引言
在当今社会,关系无疑是生活的核心,而新技术让这些关系在不同层面得以展现并发挥益处。例如,信息和通信技术(ICT)推动了社会社区的发展,不仅促进了人与人之间的交流,还支持了患者参与和赋权。生物科技,如微阵列技术,不仅能同时表达数千个基因,还让我们更好地理解生物系统中的相互作用机制。
然而,新技术也带来了新挑战。尽管有大量工具可用于捕获、处理和共享信息,但我们不能简单地假设这些数据是独立同分布(i.i.d.)的。实际上,样本之间往往相互关联,这违反了 i.i.d. 假设。
近年来,机器学习领域开始将传统问题扩展到复杂交互系统和网络中。在这种情况下,传统算法不仅可能从实例间的链接信息中受益,还可能因无法准确推断而失效。
本文通过一个实际案例研究,介绍如何在复杂网络中挖掘知识,特别是展示特定类型的信息如何为机器学习中的分类问题带来益处。具体来说,我们将展示在考虑网络和差异特征提供的额外信息时,分类模型的准确性如何提高。
2 材料与方法
2.1 乳腺癌数据集
本文的案例研究采用威斯康星乳腺癌数据集。该数据最初来自威斯康星大学医院的 William H. Wolberg 博士,他会定期报告临床病例。数据也可从 UCI 机器学习数据库存储库获取,并且是 R 包 mlbench 的一部分。
整个数据集包含 699 个样本,但由于存在缺失值,有 16 个样本被移除。数据中存储了多个协变量,具体包括九个细胞学特征,这些特征在样本收集时按 1 到 10 的等级进行评分,1 表示最接近正常组织,10 表示最间变。这些特征包括:
- 肿块厚度
超级会员免费看
订阅专栏 解锁全文
1255

被折叠的 条评论
为什么被折叠?



