Regene:自动构建多分量狄利克雷先验
在RNA相似性搜索问题中,协方差模型(CM)是一种重要工具。本文将介绍CM模型、狄利克雷混合先验的相关内容,以及新工具Regene的构建和实验结果。
1. 协方差模型(CM)
协方差模型(CM)由Eddy和Durbin提出,用于表示特定的非编码RNA家族。它是随机上下文无关文法(SCFGs)的一个子集,被称为“轮廓SCFG”。
主要的产生式类型包括:
- (P → aXb):用于茎中的碱基对。
- (L → aX) 和 (R → Xb):用于单链碱基。
- (B → SS):用于分叉,分离具有多个茎的环。
每个非终结符称为“状态”,终结符(即序列的碱基)称为“发射”,这些术语借鉴自隐马尔可夫模型(HMMs)。
CM的构建过程如下:
1. 根据二级结构共识机械地构建状态。
2. 构建“引导树”,节点代表单链碱基、碱基对和具有多个茎的环。
例如,图1展示了一个虚构tRNA家族的共识二级结构和生成的数据结构。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(二级结构共识):::process --> B(构建状态):::process
B --> C(构建引导树):::process
C --> D(生成CM):::process
CM的使用方式是通过“遍历”状态,收集
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



