生物序列的可视化与分形分析
1. K - 框架与分形集
对于给定的 K,对应的正方形可表示为 K 个相同矩阵的直积:
[M^{(K)} = M \otimes M \otimes \cdots \otimes M]
其中每个 M 是一个 (2\times2) 矩阵:
[\begin{bmatrix}
g & c \
a & t
\end{bmatrix}]
为方便编程,用二进制数字 0 和 1 作为矩阵元素的下标,即 (M_{00}=g),(M_{01}=c),(M_{10}=a),(M_{11}=t)。(K\times K) 直积矩阵 (M^{(K)}) 的一般元素的下标由输入的 DNA K - 串 (s = s_1s_2\cdots s_K)((s_i\in{t, a, c, g}))计算得到。我们称这个 (K\times K) 正方形为 K - 框架。
在固定 K 的框架中,用偏向小计数的颜色编码描述,每个细菌基因组呈现出独特的模式,表明某些类型的字符串缺失或代表性不足。例如,许多细菌会避开包含字符串 ctag 的字符串,任何包含 ctag 作为子串的字符串称为 ctag - 标记字符串。标记不同 K 框架中的所有 ctag - 标记字符串,会得到如图所示的图片。随着 K 的增大,这些图片的大规模结构保持不变,但细节增多。当 (K\to\infty) 时,排除这些标记字符串占据的区域,可得到一个分形 F。自然会问,对于给定标记,分形 F 的分形维数是多少。
2. 给定标记的分形集的分形维数
在形式语言理论中,从字母表 (\sum = {t, g, c, a}) 开始
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



