基因组数据与注释中的关联规则挖掘
1. 关联规则基础
关联规则(AR)是数据挖掘中的重要概念,它描述了数据集中项目之间的关系。例如,AR Event(A), Event(B) ⇒ Event(C),支持度为 20%,置信度为 70%,这意味着当事件 A 和 B 发生时,事件 C 在 70%的情况下也会发生,并且这三个事件在所有情况中共同出现的频率为 20%。支持度和置信度是评估关联规则的两个重要统计指标,只有支持度和置信度超过用户定义的最小支持度(minsupp)和最小置信度(minconf)阈值的规则才会被提取。
提取关联规则是一个具有挑战性的问题,因为潜在关联规则的搜索空间随着项目集的大小呈指数增长,并且需要多次扫描数据集,这非常耗时。早期提出的 Apriori 算法是提取关联规则的有效方法,但它在处理相关或密集数据时性能会显著下降,并且会生成大量冗余规则。
例如,以下五条规则具有相同的支持度和置信度:
1. annotation ⇒ gene1↑
2. annotation ⇒ gene2↑
3. annotation ⇒ gene1↑, gene2↑
4. annotation, gene1↑ ⇒ gene2↑
5. annotation, gene2↑ ⇒ gene1↑
从用户的角度来看,规则 3 是最相关的,因为其他规则都可以从它推导出来,它是一个非冗余的关联规则,具有最小的前件和最大的后件,即最小非冗余 AR。
2. 相关工作
近年来,关联规则挖掘在基因表达数据分析中得到了广泛应用,旨在发现特定生物条件下的频繁基因模式。然而,这些应用存在一些问题:
超级会员免费看
订阅专栏 解锁全文
4613

被折叠的 条评论
为什么被折叠?



