肝炎临床数据集规则有趣性度量评估
1. 研究背景与目标
规则有趣性是数据库知识发现(KDD)的活跃领域之一。此前有诸多研究提出了有趣性度量方法并用于规则评估,但很多研究未从理论和实践有效性角度进行全面评估,对其能否助力发现真正有趣规则的实践有效性关注较少。
本研究旨在:
- 系统掌握传统有趣性度量方法。
- 通过实验将这些方法与人类真实兴趣进行对比。
- 探讨它们评估人类真实兴趣的性能,以及在基于人机交互的KDD中的应用。
研究选定医学数据挖掘领域,使用肝炎相关研究成果,因为医学数据挖掘在科学和社会层面都很重要,且需要人机交互支持来提升规则质量。
2. 传统规则有趣性度量
有趣性度量可根据多个因素分类,其中评估规则的主体(计算机或人类用户)是最重要的分类因素。计算机评估的为客观度量,人类用户评估的为主观度量。
度量类型 | 数量 | 特点 |
---|---|---|
客观度量 | 至少四十多种 | 基于规则相关实例的分布结构,数学意义上评估规则,但不包含领域知识,主要用于去除无意义规则 |
主观度量 | 约十几种 | 评估规则与人类用户预先设定的信念、偏差或规则模板的契合度,因内置领域知识在一定程度上有助于发现有趣规则,但依赖用户明确表达兴趣,难以发现绝对意外的知识,且很 |