OpenFold项目蛋白质结构预测推理指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01176/article/details/148755628

OpenFold项目蛋白质结构预测推理指南

openfold Trainable, memory-efficient, and GPU-friendly PyTorch reproduction of AlphaFold 2 项目地址: https://gitcode.com/gh_mirrors/op/openfold

前言

OpenFold是一个开源的蛋白质结构预测工具，能够准确预测蛋白质的三维结构。本文将详细介绍如何使用OpenFold进行单体蛋白质结构预测的推理过程。

准备工作

在开始使用OpenFold进行预测前，需要完成以下准备工作：

环境配置：需要安装OpenFold的Conda环境，确保所有依赖项都已正确安装。
数据库下载：需要下载用于多序列比对的序列数据库，这些数据库对于生成准确的蛋白质结构预测至关重要。

模型参数获取

OpenFold支持两种模型参数：

DeepMind提供的参数：这些是AlphaFold原始模型参数
OpenFold训练的参数：这些是OpenFold团队自行训练的模型参数

两种参数都能提供相似的预测性能。可以通过提供的脚本下载这些参数文件，建议将参数文件存放在默认目录openfold/resources中，或者通过命令行参数指定自定义路径。

推理流程详解

输入准备

OpenFold的输入是FASTA格式的蛋白质序列文件，每个文件包含一个待预测的蛋白质序列。此外，模型还需要序列比对信息才能进行预测。

两种推理模式

1. 无预计算比对信息的推理

当没有预先计算好的序列比对信息时，可以使用以下命令让OpenFold自动完成序列比对和结构预测：

python3 run_pretrained_openfold.py \
    $INPUT_FASTA_DIR \
    $TEMPLATE_MMCIF_DIR 
    --output_dir $OUTPUT_DIR \
    --config_preset model_1_ptm \
    --uniref90_database_path $BASE_DATA_DIR/uniref90/uniref90.fasta \
    --mgnify_database_path $BASE_DATA_DIR/mgnify/mgy_clusters_2018_12.fa \
    --pdb70_database_path $BASE_DATA_DIR/pdb70 \
    --uniclust30_database_path $BASE_DATA_DIR/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
    --bfd_database_path $BASE_DATA_DIR/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
    --model_device "cuda:0"

关键参数说明：

INPUT_FASTA_DIR：包含FASTA文件的目录
TEMPLATE_MMCIF_DIR：用于模板匹配的MMCIF文件目录
各种*_database_path：指向序列数据库的路径

2. 使用预计算比对信息的推理

如果已有预计算的比对信息，可以使用以下命令：

python3 run_pretrained_openfold.py ${INPUT_FASTA_DIR} \
  $TEMPLATE_MMCIF_DIR \
  --output_dir $OUTPUT_DIR \
  --use_precomputed_alignments $PRECOMPUTED_ALIGNMENTS \
  --config_preset model_1_ptm \
  --model_device "cuda:0"

其中PRECOMPUTED_ALIGNMENTS是包含比对信息的目录，目录结构应包含针对不同数据库的比对结果文件。

配置选项详解

OpenFold提供了多种配置预设，主要分为以下几类：

使用模板建模：
- 无pTM评分：model_1, model_2
- 有pTM评分：model_1_ptm, model_2_ptm
不使用模板建模：
- 无pTM评分：model_3, model_4, model_5
- 有pTM评分：model_3_ptm, model_4_ptm, model_5_ptm