生物信息学中模糊逻辑的应用:基因相似度测量方法解析
在生物信息学领域,准确衡量基因产品之间的相似度至关重要。这有助于我们理解基因的功能、进化关系以及疾病的发生机制。本文将详细介绍几种基于集合的基因相似度测量方法,包括成对聚合、词袋相似度、模糊测度相似度、增强模糊测度相似度和Choquet模糊积分相似度,并通过具体案例展示它们的应用。
1. 基于集合的相似度测量
考虑两个基因产品 (G_1) 和 (G_2),它们由本体 (O) 中的概念(注释)集合表示:
(G_1 = {T_{11}, …, T_{1n}})
(G_2 = {T_{21}, …, T_{2m}})
其中 (T_{ij} \in O),(i \in {1, 2})。每个术语 (T_{ij}) 都被赋予一个权重 (g_{ij} \in [0, 1]),在本文中该权重为其信息内容(IC)。
计算 (G_1) 和 (G_2) 之间的相似度 (s(G_1, G_2)) 有两种主要方法:向量空间方法和集合方法。
1.1 向量空间方法的局限性
在向量空间方法中,每个基因产品 (G_i) 由向量 (v_i \in R^N) 描述,其中 (N) 是本体 (O) 中的概念数量。如果 (T_j) 出现在 (G_i) 的表示中,(v_{ij} = 1);否则 (v_{ij} = 0)。当本体 (O) 中的概念数量很大((N >> 0))且注释集的基数((m) 和 (n))较小时,向量 (v_i) 会变得很长且稀疏,这会给后续的聚类等算法带来问题。例如,在基因产品注释中,典型的注释包含少于 10 个概念,而 2007 年 6 月的基因本体(GO)有 23,
超级会员免费看
订阅专栏 解锁全文
874

被折叠的 条评论
为什么被折叠?



