数据挖掘:从多媒体数据中提取价值
1 引言
在我们的生活中,新现象不断涌现。有时,我们需要花费数年时间手动构建一个模型来描述观察到的现象,并预测新事件。但更多时候,我们迫切需要这样的模型,却没有足够的时间去开发。以医学领域为例,我们希望了解如何治疗某种疾病,让患者尽快康复。
1993 年,我们开始将数据挖掘应用于体外受精疗法(IVF 疗法)这一医学问题。当时,IVF 疗法虽已使用十余年,但医生们仍未建立起关于该疗法功能和效果的清晰模型,主要原因在于生物、临床和医学事实之间的复杂关联。于是,医生们建立了一个数据库,记录患者的各项诊断参数和临床信息,包括超声图像中的卵泡数量和大小、临床数据以及激素数据。
我们使用决策树归纳法对这些数据进行分析,得到了一个决策树,展示了 IVF 疗法的有用决策规则。这个决策树对医生有两个重要作用:
1. 探索功能 :学习到的规则帮助专家更好地理解疗法的效果。决策树将知识明确呈现,专家可以通过追踪每条路径来理解规则。当专家在所有规则中发现一些自己过去已经总结出的规则时,对这些知识的信任度会提高,这也为他们思考 IVF 疗法的效果以及获取患者新的必要信息提供了新的动力,有助于提高疗法的成功率。
2. 预测功能 :经过一些实验,我们为 IVF 疗法的一个子诊断任务——过度刺激综合征的诊断建立了一个良好的模型。医生可以使用这个模型来预测新患者是否会出现过度刺激综合征。
不过,我们的实验也表明,目前的诊断测量还不足以全面描述整个 IVF 过程。但这些结果仍足以引发新的讨论,并为疗法的改进提供新的思路。
这个应用遵循了理论形成的经
超级会员免费看
订阅专栏 解锁全文
4335

被折叠的 条评论
为什么被折叠?



