蛋白质二级结构预测的双向动力学
1. 双向输入输出隐马尔可夫模型(BIOHMMs)
1.1 参数化
BIOHMMs的贝叶斯网络参数指定了每个变量在其父母节点给定情况下的局部条件分布,主要包括 $P(Y_t|F_t, B_t, U_t)$、$P(F_t|F_{t - 1}, U_t)$ 和 $P(B_t|B_{t + 1}, U_t)$。若假设输入序列无缺失数据,则根节点的无条件分布(如 $P(U_t)$)无需建模。
通常会假设模型是平稳的,即上述条件分布不随时间变化,这是一种参数共享形式,能显著降低模型的自由度。在离散情况下,参数可用条件概率表明确表示,但当节点有多个父节点或变量状态空间较大时,表格会变得非常大。因此,常使用神经网络技术进行更受限的重新参数化。
可以引入三个独立的前馈神经网络来建模局部条件概率 $P(B_t|B_{t + 1}, U_t)$、$P(F_t|F_{t - 1}, U_t)$、$P(Y_t|F_t, B_t, U_t)$,也可以采用模块化方法,为每个状态使用不同的多层感知器(MLP)。在BIOHMMs中,模块化方法所需的子网络数量为 $n + m + nm$。
条件分布 | 含义 |
---|---|
$P(Y_t | F_t, B_t, U_t)$ |
$P(F_t | F_{t - 1}, U_t)$ |