RFDiffusionAA 全原子蛋白质设计工具使用指南
RFDiffusionAA(RFDiffusion All Atom)是一个基于扩散模型的全原子蛋白质设计工具,专门用于生成高质量的蛋白质结构,特别擅长设计小分子结合蛋白。该项目由baker-laboratory开发,通过结合深度学习和分子动力学技术,为蛋白质工程提供了强大的计算工具。
环境准备与安装
安装Apptainer
首先需要安装Apptainer(原Singularity)容器运行时环境:
wget https://github.com/apptainer/apptainer/releases/download/v1.0.0/apptainer-1.0.0.tar.gz
tar -xzf apptainer-1.0.0.tar.gz
cd apptainer-1.0.0
./configure --prefix=/usr/local
make
sudo make install
克隆项目并获取必要文件
git clone https://gitcode.com/gh_mirrors/rf/rf_diffusion_all_atom.git
cd rf_diffusion_all_atom
wget http://files.ipd.uw.edu/pub/RF-All-Atom/containers/rf_se3_diffusion.sif
wget http://files.ipd.uw.edu/pub/RF-All-Atom/weights/RFDiffusionAA_paper_weights.pt
git submodule init
git submodule update
基本使用示例
小分子结合蛋白设计
要生成与OQO配体结合的蛋白质设计,使用以下命令:
/usr/bin/apptainer run --nv rf_se3_diffusion.sif -u run_inference.py \
inference.deterministic=True \
diffuser.T=100 \
inference.output_prefix=output/ligand_only/sample \
inference.input_pdb=input/7v11.pdb \
contigmap.contigs=['150-150'] \
inference.ligand=OQO \
inference.num_designs=1 \
inference.design_startnum=0
包含蛋白质基序的小分子结合设计
如果需要包含特定的蛋白质基序(如A84-87残基),使用以下命令:
/usr/bin/apptainer run --nv rf_se3_diffusion.sif -u run_inference.py \
inference.deterministic=True \
diffuser.T=200 \
inference.output_prefix=output/ligand_protein_motif/sample \
inference.input_pdb=input/1haz.pdb \
contigmap.contigs=['10-120,A84-87,10-120'] \
contigmap.length="150-150" \
inference.ligand=CYC \
inference.num_designs=1 \
inference.design_startnum=0
参数详解
关键参数说明
inference.deterministic=True:设置随机数生成器种子以确保结果可重现diffuser.T=100:指定去噪步数,数值越大生成质量可能越高但计算时间更长contigmap.contigs=['150-150']:指定生成蛋白质的长度为150个残基inference.ligand=OQO:指定要结合的配体名称inference.num_designs=1:指定生成的设计数量
输出文件说明
运行成功后会产生以下文件:
output/ligand_only/sample_0.pdb:设计的蛋白质PDB文件output/ligand_only/sample_0_Xt-1_traj.pdb:部分去噪的中间结构轨迹output/ligand_only/sample_0_X0-1_traj.pdb:网络在每个步骤对真实结构的预测
配置说明
项目使用YAML配置文件进行参数管理,主要配置文件位于config/inference/目录:
base.yaml:基础推理配置,包含输入输出路径、设计数量等基本参数aa.yaml:全原子模型专用配置,包含模型架构和训练参数
注意事项
- GPU支持:如果系统没有GPU,需要从命令中移除
--nv标志 - 序列设计:生成的蛋白质结构需要配合LigandMPNN等工具进行序列设计
- 可重现性:虽然设置了确定性参数,但不同硬件架构可能仍会产生微小差异
- 文件路径:确保输入PDB文件路径正确,输出目录有写入权限
典型应用场景
小分子药物靶点设计
RFDiffusionAA特别适合设计与小分子药物结合的蛋白质靶点,通过指定特定的配体分子,可以生成高度特异性的结合蛋白。
酶活性位点工程
通过包含特定的蛋白质基序,可以设计具有特定催化活性的酶蛋白,为合成生物学和工业生物技术提供新工具。
蛋白质结构优化
该工具也可用于优化现有蛋白质的结构,提高稳定性和功能性。
生态系统集成
RFDiffusionAA可以与以下工具集成使用:
- AlphaFold2:用于验证生成蛋白质结构的准确性
- ProteinMPNN:为生成的骨架设计最优氨基酸序列
- PyRosetta:进行进一步的蛋白质结构分析和优化
通过合理配置参数和结合其他生物信息学工具,RFDiffusionAA能够成为蛋白质设计工作流中的核心组件,为研究人员提供强大的计算设计能力。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考




