大型稀疏系统求解与凝血因子XIIa抑制剂的超级计算搜索
1. 大型稀疏系统求解
在大型稀疏系统的求解中,为了得到相关结果,选取了来自资源https://sparse.tamu.edu/的测试矩阵。这些矩阵包含24个对称矩阵和12个非对称矩阵,其特征(矩阵标题、阶数n、非零元素数量nnz和条件数cond)如表2所示。
| # | title | n | nnz | cond |
|---|---|---|---|---|
| 1 | apache2 | 7.15E + 05 | 2.77E + 06 | 3.05E + 06 |
| 2 | torso3 | 2.59E + 05 | 4.43E + 06 | 2.27E + 02 |
| 3 | c - big | 3.45E + 05 | 1.34E + 06 | 4.05E + 04 |
| 4 | ldoor | 9.52E + 05 | 2.37E + 07 | 1.69E + 08 |
| 5 | F1 | 3.44E + 05 | 1.36E + 07 | 3.52E + 06 |
| 6 | thermal2 | 1.23E + 06 | 4.90E + 06 | 4.30E + 06 |
| 7 | G3_circuit | 1.59E + 06 | 4.62E + 06 | 1.39E + 07 |
| 8 | H2O | 6.70E + 04 | 1.14E + 06 | 4.24E + 03 |
| 9 | sparsine | 5.00E + 04 | 7.99E + 05 | 2.78E + 06 |
| 10 | af_shell10 | 1.51E + 06 | 2.71E + 07 | 1.41E + 10 |
| 11 | boneS10 | 9.15E + 05 | 2.82E + 07 | 1.03E + 08 |
| 12 | appu | 1.40E + 04 | 1.85E + 06 | 1.71E + 02 |
| 13 | PFlow_742 | 7.43E + 05 | 1.89E + 07 | 1.02E + 12 |
| 14 | memchip | 2.71E + 06 | 1.48E + 07 | 1.41E + 07 |
| 15 | dielFilterV3real | 1.10E + 06 | 4.52E + 07 | 8.67E + 06 |
| 16 | dielFilterV2real | 1.16E + 06 | 2.48E + 07 | 8.91E + 06 |
| 17 | TSOPF_RS_b2383_c1 | 3.81E + 04 | 1.62E + 07 | 2.20E + 08 |
| 18 | Freescale1 | 3.43E + 06 | 1.89E + 07 | 1.03E + 10 |
| 19 | StocF - 1465 | 1.47E + 06 | 1.12E + 07 | 2.41E + 13 |
| 20 | Ga10As10H30 | 1.13E + 05 | 3.11E + 06 | 2.90E + 05 |
| 21 | bone010 | 9.87E + 05 | 3.63E + 07 | 4.42E + 08 |
| 22 | Ge99H100 | 1.13E + 05 | 4.28E + 06 | 6.40E + 03 |
| 23 | Flan_1565 | 1.56E + 06 | 5.95E + 07 | 1.21E + 08 |
| 24 | audikw_1 | 9.44E + 05 | 3.93E + 07 | 1.83E + 10 |
| 25 | rajat31 | 4.69E + 06 | 2.03E + 07 | 3.33E + 06 |
| 26 | Ga19As19H42 | 1.33E + 05 | 4.51E + 06 | 3.07E + 06 |
| 27 | Hook_1498 | 1.50E + 06 | 3.12E + 07 | 3.60E + 06 |
| 28 | atmosmodl | 1.49E + 06 | 1.03E + 07 | 1.05E + 03 |
| 29 | atmosmodd | 1.27E + 06 | 8.81E + 06 | 4.88E + 03 |
| 30 | Transport | 1.60E + 06 | 2.35E + 07 | 1.23E + 06 |
| 31 | ML_Geer | 1.50E + 06 | 1.11E + 08 | 6.32E + 08 |
| 32 | atmosmodj | 1.27E + 06 | 8.81E + 06 | 6.04E + 03 |
| 33 | Geo_1438 | 1.44E + 06 | 3.23E + 07 | 1.14E + 13 |
| 34 | vas_stokes_1M | 1.09E + 06 | 3.48E + 07 | 1.73E + 07 |
| 35 | Serena | 1.39E + 06 | 3.30E + 07 | 1.11E + 14 |
| 36 | circuit5M | 5.56E + 06 | 5.95E + 07 | 3.43E + 10 |
这些矩阵在规模范围(从1.4万到550万)和非零元素数量(从80万到1.1亿)方面具有很好的代表性。
在测试中,需要求解线性方程组Ax = f,其中右侧向量f是通过系数矩阵A乘以生成的精确未知向量xexact得到的。同时,测量了计算解x的相对误差$\frac{x - x_{exact}}{x_{exact}}$、相对残差$\frac{Ax - f}{f}$、使用的内存大小以及获得解所需的时间。所使用的计算系统特征如下表3所示:
| Vendor | Characteristics |
|---|---|
| Intel | 2CPU Intel(R) Xeon(R) CPU E5–2680 v3 @ 2.50GHz (12 core, HT disabled), 256 GB RAM, OS Ubuntu 20.04.3 LTS |
| AMD | 2 CPU AMD EPYC 7763 64 - Core, 1024 GB RAM, Aramid 3.1 (Red Hat Enterprise Linux 8.3) |
| Elbrus | 4 CPU E8C - SWTX@1.20 GHz (8 cores) (http://ineum.ru/e8c - swtx), 128 GB RAM, OS Elbrus 7.2 |
通过图表对比了USPARS与Intel® MKL PARDISO求解器,从图中可以很容易看出,对于表2中的矩阵样本,这两个求解器在所需内存、相对误差和相对残差方面取得了相似的结果。
下面是求解过程的mermaid流程图:
graph TD;
A[选择测试矩阵] --> B[生成精确未知向量xexact];
B --> C[计算右侧向量f = A * xexact];
C --> D[求解线性方程组Ax = f];
D --> E[测量相对误差、相对残差、内存使用和时间];
E --> F[对比USPARS与Intel® MKL PARDISO求解器];
2. 凝血因子XIIa抑制剂的超级计算搜索
在医学领域,血栓和出血并发症在导致死亡和残疾的原因中起着重要作用,尤其是在肿瘤学、血液学和免疫学等领域。因此,能够预防病理状况而不干扰正常止血的抗凝剂需求很高。血液凝固系统是一个由损伤激活的酶促反应级联,控制着纤维蛋白凝块的形成。凝血因子XIIa在连接内源性和外源性凝血途径的生化反应级联中的位置,使其成为开发新型抗凝剂的有前景的治疗靶点。
为了寻找凝血因子XIIa的抑制剂,对中国国家化合物库(CNCL)进行了虚拟筛选。CNCL是一个包含超过100万种低分子量有机化合物的数据库,位于张江高科技园区。筛选过程使用了对接方法,具体分为两个阶段:
1.
快速对接
:使用SOL对接程序的快速参数对整个CNCL数据库中的所有配体进行对接。
2.
标准对接
:对第一阶段中得分最高的配体,使用SOL对接程序的标准参数进行仔细对接。
对于第二阶段筛选出的最佳配体,使用PM7量子化学半经验方法和COSMO溶剂模型计算蛋白质 - 配体结合的焓。
2.1 中国国家化合物库(CNCL)
CNCL是一个以SDF格式存储的低分子量有机化合物二维结构数据库,由一个主数据库和几个较小的数据库组成,所有化合物都可订购和进行实验测试。主数据库可下载,分为七个部分,包含1271139个低分子量配体。
由于数据库规模巨大,首先使用Open Babel(版本3.1.1)根据以下标准过滤掉明显不感兴趣的配体:
- 过滤掉分子量小于200 Da的配体,因为这类化合物在药物中很少见。
- 仅保留内部旋转自由度(扭转)小于10的配体,因为对接非常灵活的配体耗时较长且结果往往不可靠。
- 过滤掉含有硼原子的分子,因为硼元素在SOL对接程序使用的MMFF94力场中未进行参数化。
- 仅保留在pH = 7.4 ± 0.1时总电荷为0或±1的配体,因为强电荷配体作为药物的前景不佳。
过滤后,数据库减少到977240个分子。使用Schrodinger Suite 2015的LigPrep模块获得最低能量的3D配体构象及其电荷状态。配体在CNCL数据库中按内部旋转自由度(扭转)数量的分布如下表1所示:
| 配体扭转数量 | 配体数量 |
|---|---|
| 0 | 501 |
| 1 | 4415 |
| 2 | 19778 |
| 3 | 62203 |
| 4 | 126093 |
| 5 | 185339 |
| 6 | 206442 |
| 7 | 176276 |
| 8 | 125786 |
| 9 | 70407 |
| TOTAL | 977240 |
2.2 凝血因子XIIa模型
凝血因子XIIa模型是基于蛋白质数据库中PDB ID为6B74的复合物结构构建的,该模型的制备和验证细节在相关研究中已有描述,并成功用于发现新的凝血因子XIIa抑制剂。
2.3 SOL程序
SOL对接程序的主要特点如下:
- 蛋白质 - 配体系统的能量通过MMFF94力场计算,配体在目标蛋白质活性位点的最佳位置对应于全局能量最小值,全局能量优化使用遗传算法(GA)。
- GA从随机生成第一代个体开始,这些个体对应于配体的不同位置。在多代进化过程中,固定大小的种群通过繁殖、交叉和突变等机制进化,具有最负目标能量函数的个体存活下来。
- GA的主要参数包括:默认种群大小为30000,默认代数为1000,默认独立GA运行次数为50,将这些默认参数视为标准GA参数。
- 为了加速程序,预先计算探针配体原子与覆盖目标蛋白质活性位点的三维网格节点上所有蛋白质原子的相互作用势(库仑和范德华)。
- 在对接过程中,蛋白质是刚性的,由势场网格表示,而配体由于扭转自由度是灵活的。目标能量函数是配体在蛋白质场中的能量和配体内应力能量的总和。
- 为了提高对接的可靠性,对每个配体进行多次独立的GA运行,然后将对应于不同独立GA运行中目标能量函数最负值的配体位置进行聚类。如果两个配体位置的所有原子坐标的标准偏差(RMSD)小于1 Å,则它们属于同一聚类。
由于使用标准GA参数对接整个CNCL数据库需要约3000000 CPU*小时,而没有如此强大的超级计算资源,因此确定了所谓的快速GA参数:种群大小10000,代数1000,运行次数5。平均而言,使用快速GA参数的SOL对接速度比标准参数快30倍。
下面是SOL对接程序的mermaid流程图:
graph TD;
A[准备蛋白质和配体数据] --> B[计算相互作用势和网格节点特征];
B --> C[设置GA参数(标准或快速)];
C --> D[进行GA运行];
D --> E[聚类GA运行结果];
E --> F[评估对接可靠性];
F --> G[计算SOL得分];
通过以上两个方面的研究,一方面在大型稀疏系统求解中对比了不同求解器的性能,另一方面通过超级计算搜索找到了18种潜在的凝血因子XIIa抑制剂,这些抑制剂属于新的化学类型,有望成为开发新型、更安全抗凝剂的基础。
2.4 对接过程的详细操作
具体的对接操作分为以下步骤:
1.
数据准备
- 从CNCL数据库获取低分子量配体的2D结构数据,存储为SDF格式。
- 利用Open Babel(版本3.1.1)根据特定标准过滤配体,如分子量、内部旋转自由度、元素组成和电荷等。
- 使用Schrodinger Suite 2015的LigPrep模块将过滤后的配体转换为3D结构,并获得其最低能量构象和电荷状态。
- 基于PDB ID为6B74的复合物结构构建凝血因子XIIa模型。
2.
快速对接阶段
- 设置SOL对接程序的快速GA参数:种群大小10000,代数1000,运行次数5。
- 预先计算探针配体原子与覆盖目标蛋白质活性位点的三维网格节点上所有蛋白质原子的相互作用势(库仑和范德华),并考虑简化版广义Born模型的去溶剂化效应。
- 对过滤和处理后的所有配体进行GA运行,蛋白质由势场网格表示,配体因扭转自由度而灵活。
- 对不同独立GA运行中目标能量函数最负值对应的配体位置进行聚类,若两个配体位置的所有原子坐标的标准偏差(RMSD)小于1 Å,则属于同一聚类。
3.
标准对接阶段
- 选择快速对接阶段中得分最高的配体。
- 设置SOL对接程序的标准GA参数:种群大小30000,代数1000,独立GA运行次数50。
- 重复上述GA运行、聚类等步骤,以获得更准确的对接结果。
4.
结合焓计算
- 对于标准对接阶段筛选出的最佳配体,使用PM7量子化学半经验方法和COSMO溶剂模型计算蛋白质 - 配体结合的焓。
2.5 结果分析
通过上述两个阶段的对接和计算,最终筛选出了18种化合物作为凝血因子XIIa抑制剂的候选物。这些化合物具有以下特点:
1.
化学多样性
:属于不同的化学类型,与之前报道的实验确认的凝血因子XIIa抑制剂的化学类型不同。
2.
潜在活性
:经过对接和结合焓计算,显示出对凝血因子XIIa可能具有抑制活性。
为了进一步验证这些候选化合物的抑制活性,需要进行体外和体内实验。体外实验可以通过测量凝血因子XIIa的活性变化来评估化合物的抑制效果,体内实验则可以在动物模型中观察化合物对凝血过程的影响。
3. 对比与展望
3.1 大型稀疏系统求解对比
在大型稀疏系统求解中,对比了USPARS与Intel® MKL PARDISO求解器。从所需内存、相对误差和相对残差方面来看,二者取得了相似的结果。同时,还对比了USPARS、Intel® MKL PARDISO和MUMPS在不同线程数下的计算时间。其中,USPARS和Intel® MKL PARDISO使用OMP并行化,MUMPS使用MPI并行化。通过这些对比,可以根据具体的计算需求和硬件资源选择合适的求解器。
| 求解器 | 并行化方式 | 线程数/进程数 | 计算时间对比 |
|---|---|---|---|
| USPARS | OMP | 1、8、24 | - |
| Intel® MKL PARDISO | OMP | 1、8、24 | - |
| MUMPS | MPI | 1、8、24 | - |
此外,还研究了USPARS求解器在不同架构(AMD和Elbrus)上的可扩展性。计算了不同线程数下的缩放因子,并通过图表展示了“问题矩阵”。结果表明,在x86架构和Elbrus架构上都存在可扩展性问题,且两种架构的“问题矩阵”集合有较大交集。
| 架构 | 线程数(p) | 缩放因子κ(p) |
|---|---|---|
| AMD | 8 | 3.96 |
| AMD | 16 | 5.19 |
| AMD | 24 | 6.27 |
| AMD | 128 | 7.55 |
| Elbrus | 8 | 3.18 |
| Elbrus | 16 | 3.74 |
| Elbrus | 24 | 3.93 |
| Elbrus | 32 | 3.86 |
3.2 凝血因子XIIa抑制剂研究展望
目前虽然通过超级计算搜索找到了18种潜在的凝血因子XIIa抑制剂,但还需要进一步的实验验证。未来的研究可以从以下几个方面展开:
1.
实验验证
:进行体外和体内实验,确定这些候选化合物的实际抑制活性和安全性。
2.
结构优化
:基于实验结果,对化合物的结构进行优化,提高其抑制活性和选择性。
3.
机制研究
:深入研究化合物与凝血因子XIIa的结合机制,为开发更有效的抗凝剂提供理论基础。
4.
拓展应用
:探索这些化合物在其他相关疾病治疗中的应用潜力。
下面是未来研究方向的mermaid流程图:
graph TD;
A[实验验证] --> B[结构优化];
B --> C[机制研究];
C --> D[拓展应用];
综上所述,大型稀疏系统求解和凝血因子XIIa抑制剂的超级计算搜索这两个研究方向都取得了一定的成果,但也面临着一些挑战。通过不断的研究和改进,有望在这两个领域取得更大的突破,为相关领域的发展做出贡献。
超级会员免费看
15

被折叠的 条评论
为什么被折叠?



