基于高阶组件的蛋白质序列分析
1. 实验结果与应用场景
在计算两个黏土立方体变形的实验中,实验结果展示了不同并发线程数下的平均运行时间。当并发线程数达到 4 个时,能实现近乎线性的加速。若增加问题规模(即模拟空间中的对象数量),对于更多的并发线程也能有类似的加速效果。例如,在对象均匀分布的“良好”场景下,8 个线程可实现 7.2 倍的加速。
在 Clayworks 示例中,高阶组件(HOC)处理多个用户并发操作对象所产生的数据。而接下来要介绍的示例,其输入数据来自用户从不同数据库中选择的数据。由于数据库规模较大,HOC 需处理的数据量远大于 Clayworks 应用。
2. 蛋白质序列分析与 Alignment - HOC
蛋白质序列分析是一个重要的实际网格应用,主要针对大量基因组数据进行分析。为实现这一目的,引入了 Alignment - HOC。它提供了通用比对算法的分布式实现,允许用户插入自己的代码,便于研究不同数据库中的基因组相似性,或在生物数据库上运行特定的基因组处理算法(如 3D 结构预测)。
3. 生物信息学中的比对问题
用于序列比对或蛋白质结构预测的基因组处理算法,通常会计算一个或多个结果矩阵,其时间复杂度为 (O(n^2)) 或更高((n) 为序列长度)。顺序处理大量数据会导致运行时间过长,因此需要多台联网计算机的计算能力来对整个数据库进行成对分析。一个典型大小接近 100 MB 的数据库,在标准计算机上进行基因组分析可能需要数月时间。
目前大部分可用的基因组处理软件是为单台 PC 或同质多处理器集群开发的,将这些软件移植到网格需要额外的时间和重复的重新实现,这会分散程序员开
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



