基因语义相似度计算与油田套管损坏定量分析
在生物学和石油工程领域,基因语义相似度计算以及油田套管损坏定量分析都是重要的研究方向。前者有助于深入理解基因功能和相互关系,后者则对保障油田的正常生产至关重要。
基因语义相似度计算
背景知识
基因可以用n维向量表示,向量由GO术语组成。传统上,基因向量是二进制值,1表示基因注释中存在该GO术语,0表示不存在。计算基因相似度最常见的方法是计算两个基因向量的余弦值:
[sim(G_1, G_2) = \frac{G_1 \cdot G_2}{\vert G_1 \vert \vert G_2 \vert}]
还有一种加权余弦度量方法,是将二进制向量中的非零值替换为基于该GO术语在语料库中出现频率的缩放值:
[w_i = \log(\frac{N}{n_i})]
其中,(N)是语料库中基因的总数,(n_i)是语料库中注释有该术语(t)的基因数量。但这两种方法在两个基因没有直接的GO术语注释时会计算出零结果,不利于语义差异测量。
相关定义
- 扩展版本(EV) :每个GO术语都必须遵守真路径规则,即其所有父术语都对该术语的语义有贡献。每个GO术语可以表示为一个有向无环图(DAG),从特定术语开始,以三个基因本体中的任何一个结束。术语(t)的扩展版本(EV(t))定义为:
[EV(t) = {t’ \vert t’ \in DAG(t)}]
例如,GO术语“细胞 - 细胞粘附”(GO: 0016337)的祖先术语包括GO: 0008150、GO: 0009987、GO: 0022610和GO:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



