LigandMPNN:AI驱动的蛋白质与配体序列设计技术深度解析
【免费下载链接】LigandMPNN 项目地址: https://gitcode.com/gh_mirrors/li/LigandMPNN
LigandMPNN是一个基于深度学习的开源工具包,专门用于蛋白质序列设计和配体结合预测。该项目基于生物预印本平台bioRxiv上的创新研究成果构建,提供了一套完整的推理代码库,采用MIT许可协议,为药物发现和蛋白质工程领域带来革命性变革。
技术架构与核心原理
LigandMPNN建立在PyTorch深度学习框架之上,结合ProDy库的专业蛋白质结构处理能力。与传统的ProteinMPNN相比,该工具在处理输入数据时实现了质的飞跃,能够完整保留蛋白质的原始结构信息,包括残基索引、链标识符和插入代码,彻底告别了"X"占位符时代。
核心模型体系
项目提供多种专业模型,满足不同应用场景的需求:
-
ProteinMPNN模型:提供多种噪声级别配置,从0.02Å到0.30Å高斯噪声,适应不同的精度要求
-
LigandMPNN模型:专门针对配体结合场景优化,同样提供0.05Å到0.30Å的噪声级别选择
-
SolubleMPNN模型:仅使用可溶性蛋白质训练数据集构建的ProteinMPNN类模型
-
膜蛋白专用模型:包括全局标签膜MPNN和每残基标签膜MPNN,专门处理膜蛋白相关设计任务
-
侧链堆积模型:专门用于蛋白质侧链构象的预测和优化
环境配置与安装指南
系统要求
- Python 3.11或更高版本
- PyTorch 2.2.1
- ProDy 2.4.1用于PDB文件读写
安装步骤
- 克隆项目仓库
git clone https://gitcode.com/gh_mirrors/li/LigandMPNN
cd LigandMPNN
- 下载模型参数
bash get_model_params.sh "./model_params"
- 创建虚拟环境并安装依赖
conda create -n ligandmpnn_env python=3.11
pip3 install -r requirements.txt
核心功能特性详解
精准残基控制功能
LigandMPNN支持通过残基索引直接进行精确控制,用户可以:
- 固定特定氨基酸残基
- 重新设计选定残基
- 为特定残基添加偏置权重
智能置信度评估系统
模型基于Gaussian噪声加权参数实现了可靠性评分系统,输出包含:
overall_confidence:整体置信度评分ligand_confidence:配体相关置信度评分- 基于重新设计残基的序列恢复率计算
灵活的温度调节机制
用户可以通过调整采样温度参数来控制设计结果的多样性与保守性平衡。
实战应用场景分析
药物分子设计与优化
LigandMPNN能够高效预测和优化小分子与目标蛋白质的结合模式,在实验验证困难的候选药物分子筛选过程中展现卓越性能。
蛋白质功能工程改造
通过重新设计蛋白质序列,研究人员可以改变蛋白质的生物活性、稳定性或折叠特性,为酶工程和生物催化剂开发开辟新的技术路径。
复杂结构模拟预测
在构建蛋白-配体复合体三维模型时,LigandMPNN提供专业辅助,帮助深入理解分子间的相互作用机制。
详细使用示例
基础序列设计
使用默认设置运行ProteinMPNN模型:
python run.py \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/default"
温度参数调节
通过调整温度参数控制序列多样性:
python run.py \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--temperature 0.05 \
--out_folder "./outputs/temperature"
残基固定与偏置设置
固定特定残基并添加全局氨基酸偏置:
python run.py \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/fix_residues" \
--fixed_residues "C1 C2 C3 C4 C5 C6 C7 C8 C9 C10" \
--bias_AA "A:10.0"
批量序列生成
设计多个序列,设置批次大小和批次数:
python run.py \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/batch_size" \
--batch_size 3 \
--number_of_batches 5
配体MPNN专业应用
运行LigandMPNN模型进行专业设计:
python run.py \
--model_type "ligand_mpnn" \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/ligandmpnn_default"
高级功能配置
对称性设计
设计具有对称性的序列,如同源寡聚体或二态蛋白质:
python run.py \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/symmetry" \
--symmetry_residues "C1,C2,C3|C4,C5|C6,C7" \
--symmetry_weights "0.33,0.33,0.33|0.5,0.5|0.5,0.5"
多PDB文件处理
同时处理多个PDB输入文件,提高运行效率:
python run.py \
--pdb_path_multi "./inputs/pdb_ids.json" \
--out_folder "./outputs/pdb_path_multi" \
--seed 111
侧链堆积功能
快速侧链堆积
设计新序列并快速堆积侧链:
python run.py \
--model_type "ligand_mpnn" \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/sc_default_fast" \
--pack_side_chains 1 \
--number_of_packs_per_design 0 \
--pack_with_ligand_context 1
多样本侧链堆积
返回多个独立的侧链堆积样本:
python run.py \
--model_type "ligand_mpnn" \
--seed 111 \
--pdb_path "./inputs/1BC8.pdb" \
--out_folder "./outputs/sc_default" \
--pack_side_chains 1 \
--number_of_packs_per_design 4 \
--pack_with_ligand_context 1
评分功能详解
自回归评分
获取骨架-序列对的自回归概率评分:
python score.py \
--model_type "ligand_mpnn" \
--seed 111 \
--autoregressive_score 1\
--pdb_path "./outputs/ligandmpnn_default/backbones/1BC8_1.pdb" \
--out_folder "./outputs/autoregressive_score_w_seq" \
--use_sequence 1\
--batch_size 1 \
--number_of_batches 10
技术优势总结
高度可定制化设计
丰富的命令行参数配置满足各类专业设计需求,从基础序列生成到复杂的对称性设计,提供了完整的解决方案。
卓越的精确性保障
基于量化置信度评估系统,确保设计结果的可靠性和实用性,为科研工作提供有力支撑。
强大的环境兼容性
简洁的安装流程和清晰的运行指令,使得非专业编程背景的科研工作者也能轻松上手使用。
开放的科研生态
采用MIT许可协议,鼓励社区贡献和跨学科合作,加速生命科学领域的技术进步。
LigandMPNN不仅是一个技术工具,更是探索分子世界新边疆的重要平台。对于致力于生命科学前沿研究的科研人员而言,这个项目打开了无限可能的大门,无论是创造新型治疗药物还是推进对蛋白质功能的理解,LigandMPNN都将成为不可或缺的强大助手。
【免费下载链接】LigandMPNN 项目地址: https://gitcode.com/gh_mirrors/li/LigandMPNN
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



