生物信息与阿拉伯语元音分析研究
1. 物种分离中平均互信息的研究
在物种分离的研究中,为了改进相关方法,选择了闵可夫斯基距离。闵可夫斯基距离是其他一些距离函数的通用形式,其函数表达式为:
[
dist(x) = \left(\sum_{d=1}^{D} x_d^p\right)^{\frac{1}{p}}
]
这里的 (p) 是距离的阶数。若对其进行乘除 (D^{\frac{1}{p}}) 的操作,可得:
[
dist(x) = D^{\frac{1}{p}} \left(\frac{1}{D} \sum_{d=1}^{D} x_d^p\right)^{\frac{1}{p}} = AVG \cdot D^{\frac{1}{p}}
]
其中 (AVG) 代表数据所有维度上的一个常数值,对于较大的 (D),不同的 (D) 对应的 (AVG) 近似相同。
由于 (GT) 与 (dist(x)) 相关,为了让 (GT) 方程考虑到维度,最简单的解决办法是让 (GT) 与 (dist(x)) 中与维度相关的部分成比例,即 (GT \propto D^{\frac{1}{p}})。再使用与原始 (GT) 方程相同的标准化控制度量 (SF),广义 (GT) 方程变为:
[
GT = \frac{1}{p} \ln(SF) - \frac{1}{p} \ln(D)
]
原来的 (GT) 方程只适用于 (p = 1)(曼哈顿距离),而不适用于预期的欧几里得距离((p = 2))。
1.1 DNA 序列的平均互信息
互信息用于衡量两个随机变量的依赖关系,
超级会员免费看
订阅专栏 解锁全文
61

被折叠的 条评论
为什么被折叠?



