基于模糊随机模型的快速RNA二级结构预测
1. 随机结构生成与预处理时间优化思路
在RNA二级结构预测中,随机抽取有效碱基对的条件分布可在线性时间内推导得出,因此任何有效碱基对都能在O(n)时间内完成抽样。由于长度为n的结构最多有⌊(n - minHL) / 2⌋个碱基对,所以为给定输入序列生成一个随机候选结构的时间复杂度为O(n²)。
为了提升整体抽样算法在最坏情况下的性能,关键在于将预处理步骤所需的O(n³)时间复杂度至少降低到抽样策略的二次时间复杂度O(n²)。一种可行的方法是用启发式方法替代精确的内外概率计算,以得到给定输入序列的近似内外值。
2. 干扰类型与水平
对长度为n的输入序列r的精确内外概率进行干扰的方式如下:
对于每个X ∈ IGs和1 ≤ i, j ≤ n,按照以下公式重新定义对应的内部值:
αX(i, j) := max(min(αX(i, j) + αerr, 1), 0)
其中,αerr是从以下区间或集合中随机选取的:
- 相对误差:[−maxErrPercαA(i, j), +maxErrPercαA(i, j)] 或 {−fixErrPercαA(i, j), +fixErrPercαA(i, j)},其中maxErrPerc, fixErrPerc ∈ (0, 1] 定义百分比。
- 绝对误差:[−maxErrVal, +maxErrVal] 或 {−fixErrVal, +fixErrVal},其中maxErrVal, fixErrVal ∈ (0, 1] 是固定值。
所有外部值βX(i, j)(X ∈ IGs和1 ≤ i, j ≤ n)的随机误差也可