蛋白质序列与结构搜索及芽孢杆菌操纵子结构预测
蛋白质序列与结构联合相似性搜索
索引结构分区
在蛋白质搜索中,索引结构的分区数量 q 对搜索时间和空间成本有重要影响。分区过少会增加查询框与最小边界矩形(MBR)的交集测试数量,从而增加搜索时间;分区过多则存在两个缺点:一是大部分单元格会稀疏或为空,产生空间成本;二是每个单元格变小,导致 MBR 数量增加,进而增加交集测试的 MBR 数量。实验表明,q = 10 能取得最优结果。
统计显著性计算
- p 值定义 :在搜索索引结构后,会为数据库中的每个蛋白质获得一定数量的投票。对于给定查询,蛋白质 x 的 p 值定义为在搜索空间中,具有 n 个点的随机生成蛋白质至少获得 v 票的概率。
- 计算方法 :设 X 为表示查询框与搜索空间中随机选择的点重叠数量的随机变量,其均值为 px,方差为 σx²。n 个随机选择的点与查询框重叠的总数 Xn 可表示为 n 个 X 相加。由于 X 是独立同分布的随机变量,根据中心极限定理,Xn 服从正态分布,均值为 n * px,方差为 n * σx²。因此,若已知 px 和 σx²,就可以使用正态分布计算 Xn 的分布,蛋白质的 p 值可计算为 P(Xn ≥ v)。px 和 σx² 的值通过在搜索空间中生成大量随机点并计算与查询框的重叠数量来确定,实验中生成了 10,000 个随机点进行估计。
后处理
统计所有蛋白质的显著性后,选择显著性最高的前 c 个蛋白质作为后处理的候选对象,c 是预定义的阈值。后处理的目的是找
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



