29、生物序列的可视化与分形分析

delta

于 2025-11-06 09:04:13 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：生物信息学技术全景解析文章标签：生物序列分形分析 K-框架

本文链接：https://blog.youkuaiyun.com/delta/article/details/154589060

生物信息学技术全景解析专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

生物序列的可视化与分形分析

1. K - 框架与分形集

对于给定的 K，对应的正方形可表示为 K 个相同矩阵的直积：
[M^{(K)} = M \otimes M \otimes \cdots \otimes M]
其中每个 M 是一个 (2\times2) 矩阵：
[\begin{bmatrix}
g & c \
a & t
\end{bmatrix}]
为方便编程，用二进制数字 0 和 1 作为矩阵元素的下标，即 (M_{00}=g)，(M_{01}=c)，(M_{10}=a)，(M_{11}=t)。(K\times K) 直积矩阵 (M^{(K)}) 的一般元素的下标由输入的 DNA K - 串 (s = s_1s_2\cdots s_K)（(s_i\in{t, a, c, g})）计算得到。我们称这个 (K\times K) 正方形为 K - 框架。

在固定 K 的框架中，用偏向小计数的颜色编码描述，每个细菌基因组呈现出独特的模式，表明某些类型的字符串缺失或代表性不足。例如，许多细菌会避开包含字符串 ctag 的字符串，任何包含 ctag 作为子串的字符串称为 ctag - 标记字符串。标记不同 K 框架中的所有 ctag - 标记字符串，会得到如图所示的图片。随着 K 的增大，这些图片的大规模结构保持不变，但细节增多。当 (K\to\infty) 时，排除这些标记字符串占据的区域，可得到一个分形 F。自然会问，对于给定标记，分形 F 的分形维数是多少。