如何快速使用Foldseek:蛋白质结构搜索与聚类的完整指南 🚀
Foldseek是一款超快速且高灵敏度的蛋白质结构比较工具,支持单体和多聚体搜索、聚类等核心功能,可在CPU运行,也支持GPU加速提升搜索速度,甚至能直接通过蛋白质序列输入进行超快速结构比较,无需预先获取结构文件。
📋 目录
Foldseek简介
Foldseek专为大规模蛋白质结构比较设计,能够快速比对海量结构数据(如AlphaFoldDB),并提供直观的结果展示。其核心优势包括:
- ⚡ 超高速搜索:比传统工具快数百倍,支持GPU加速
- 🎯 高灵敏度:精准识别远程同源结构
- 🧩 多聚体支持:分析蛋白质复合物的结构相似性
- 📊 多样化输出:包括表格、叠加PDB、交互式HTML报告
快速安装步骤
系统要求
- Linux/macOS系统
- 支持AVX2指令集的CPU(2013年后的Intel/AMD处理器)
- 可选:NVIDIA GPU(Ampere或更新架构,用于GPU加速)
一键安装
# Linux AVX2版本
wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz; tar xvzf foldseek-linux-avx2.tar.gz; export PATH=$(pwd)/foldseek/bin/:$PATH
# 或使用Conda
conda install -c conda-forge -c bioconda foldseek
安装完成后,运行
foldseek --help验证是否成功
核心功能使用教程
蛋白质结构搜索 🔍
使用easy-search模块快速搜索结构相似的蛋白质:
foldseek easy-search example/d1asha_ example/ result.html tmp --format-mode 3
关键参数说明
| 参数 | 用途 | 推荐值 |
|---|---|---|
-s | 灵敏度/速度权衡 | 7.5(快速)-9.5(高灵敏度) |
-e | E-value阈值 | 0.001(默认),值越大结果越多 |
--format-mode 3 | 生成交互式HTML报告 | - |
输出结果类型
- 📄 表格输出:默认格式,包含比对分数、E-value等
- 🔬 叠加PDB文件:使用
--format-mode 5生成 - 🌐 交互式HTML:使用
--format-mode 3生成,示例:
数据库创建与索引 🗄️
1. 从结构文件创建数据库
foldseek createdb example/ targetDB # 从PDB/mmCIF文件创建
foldseek createindex targetDB tmp # 生成索引(可选,加速多次搜索)
2. 从序列直接创建结构数据库
利用ProstT5语言模型预测结构特征:
foldseek databases ProstT5 weights tmp # 下载模型权重
foldseek createdb sequences.fasta seqDB --prostt5-model weights # 从FASTA创建
蛋白质结构聚类 🧩
使用easy-cluster模块对结构进行聚类分析:
foldseek easy-cluster example/ res tmp -c 0.9 --tmscore-threshold 0.6
主要输出文件
res_clu.tsv:聚类结果表格(代表结构→成员结构)res_repseq.fasta:代表结构序列res_allseq.fasta:所有成员序列
关键聚类参数
| 参数 | 用途 |
|---|---|
-c | 最小覆盖度(0.0-1.0) |
--tmscore-threshold | 结构相似性阈值(0.0-1.0) |
--lddt-threshold | LDDT评分阈值(结构质量) |
多聚体结构分析 🔗
1. 多聚体搜索
foldseek easy-multimersearch example/1tim.pdb.gz example/ result tmp
2. 多聚体聚类
foldseek easy-multimercluster example/ clu tmp \
--multimer-tm-threshold 0.65 \
--chain-tm-threshold 0.5 \
--interface-lddt-threshold 0.65
多聚体分析支持链级比对与界面LDDT评分,模块路径:src/workflow/MultimerCluster.cpp
GPU加速设置 ⚡
快速启用GPU支持
# 为GPU搜索准备数据库
foldseek makepaddedseqdb targetDB targetDB_padded
# GPU加速搜索
foldseek easy-search queryDB targetDB_padded result tmp --gpu 1
注意:需NVIDIA Ampere或更新架构GPU,模块路径:src/strucclustutils/
常见问题解决 ❓
内存不足怎么办?
- 使用
--sort-by-structure-bits 0减少内存占用(约35GB for AFDB50) - 单查询搜索使用
--prefilter-mode 1,无内存限制
如何获取预构建数据库?
# 下载PDB数据库
foldseek databases PDB pdb tmp
# 下载AlphaFoldDB
foldseek databases Alphafold/Proteome afdb tmp
支持数据库列表:Alphafold/UniProt、PDB、ESMAtlas30等
📚 更多资源
- 官方文档:README.md
- 教程视频:Foldseek使用教程
- 核心算法源码:src/workflow/
通过Foldseek,研究者可以轻松处理大规模蛋白质结构数据,快速发现结构相似性与进化关系。无论是单结构搜索还是全基因组范围的聚类分析,Foldseek都能提供高效可靠的解决方案! 💪
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





