大批量快速下载AlphaFold的PDB文件

网上没看到有相关内容,就一个用爬虫下载的,对于百万以上量级来说太慢了。

首先到AlphaFold的ftp(Index of /pub/databases/alphafold (ebi.ac.uk))上下载accession_ids.csv,包含alphafold预测的所有uniprot的accession,具体内容说明参考README.txt。如果官网下载有点慢可以复制链接到fdm下载。

下载后文件内容如下:

A0A2I1YHU5,1,933,AF-A0A2I1YHU5-F1,4
A0A5H2Z360,1,342,AF-A0A5H2Z360-F1,4
A0A6L5B7P9,1,275,AF-A0A6L5B7P9-F1,4

最后两列分别是alphafold的accession和version号,手动创建链接即可:

for line in f:
    spl = line.strip("\n").split("\t")
    AlphaFold_Accession, Version = spl[-2], spl[-1]
    AlphaFold_PDB_Link = f"https://alphafold.ebi.ac.uk/files/{AlphaFold_Accession}-model_v{Version}.pdb"
    

后续下载PDB文件也可以用python的requests,直接for循环太慢了可以用多线程下载:

import os
import requests
from concurrent.futures import ThreadPoolExecutor
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

os.makedirs("./AlphaFold", exist_ok=True)
count = 0

session = requests.Session()
session.trust_env = False  # 禁用环境代理

# 设置重试策略
retries = Retry(total=5, backoff_factor=1, status_forcelist=[500, 502, 503, 504])
adapter = HTTPAdapter(max_retries=retries)
session.mount('http://', adapter)
session.mount('https://', adapter)

def download(uniprot, link, count):
    # 在这里我是把1000个pdb文件写在一个文件里,可以根据自己需要修改
    try:
        response = session.get(link)
        response.raise_for_status()  # 如果响应状态码不是200,抛出HTTPError异常
        pdbcontent = "@".join(response.text.splitlines())
        with open(f"./AlphaFold/AlphaFold_{count // 1000}.txt", "a") as w:
            w.write(f"{uniprot}\t{pdbcontent}\n")
        return 1
    except (requests.exceptions.RequestException, ValueError) as e:
        print(f"Error downloading {line.strip()}: {e}")
        return 0

# 使用多线程下载
with open("./1.AlphaFoldDownloadLink.txt") as f:
    with ThreadPoolExecutor(max_workers=10) as executor:
        futures = []
        for line in f:
            uniprot, link = line.strip("\n").split("\t")
            futures.append(executor.submit(download, uniprot, link, count))
            count += 1
            if len(futures) >= 100:  # 控制每次提交的任务数量
                for future in futures:
                    future.result()  # 等待当前批次任务完成
                futures = []  # 清空当前批次任务

        # 处理剩余的任务
        for future in futures:
            future.result()

print(f"Total processed: {count}")

根据网络情况多开些线程的话大概可以一秒百来个吧

### 批量下载 AlphaFold3 预测的蛋白质结构 PDB 文件 为了实现批量下载 AlphaFold3 预测的蛋白质结构 PDB 文件,可以采用自动化脚本的方式。考虑到目标是从 Alphafold 数据库中获取大量文件并避免手动操作,下面介绍一种基于 Python 和命令行工具的方法。 #### 使用 Linux 命令行工具 `wget` 结合循环语句 对于已知 ID 列表的情况,可以直接利用 Linux 中强大的网络下载工具 `wget` 来完成这项工作。假设有一个包含所需蛋白质 ID 的文本文件(每行一个 ID),可以通过如下 shell 脚本来执行批量下载: ```bash #!/bin/bash while read p; do wget https://alphafold.ebi.ac.uk/files/AF-${p}-F1-model_v3.pdb -O ${p}.pdb done < protein_ids.txt ``` 这段 Shell 脚本读取名为 `protein_ids.txt` 的文件中的每一行作为变量 `$p`,构建完整的 URL 并调用 `wget` 进行下载[^3]。 #### 通过编程语言如Python 实现更灵活控制 当面对更加复杂的需求时,比如动态获取最新版本链接或是处理错误重试等情况,则推荐使用 Python 编写专门程序来进行管理。这里给出一段简单的例子说明如何借助 requests 库来抓取网页内容以及保存远程文件至本地磁盘: ```python import os import requests def download_pdb(protein_id, output_dir='.'): url = f"https://alphafold.ebi.ac.uk/files/AF-{protein_id}-F1-model_v3.pdb" response = requests.get(url) if not os.path.exists(output_dir): os.makedirs(output_dir) file_path = os.path.join(output_dir, f"{protein_id}.pdb") with open(file_path, 'wb') as pdb_file: pdb_file.write(response.content) with open('protein_ids.txt', 'r') as id_list: for line in id_list: prot_id = line.strip() try: download_pdb(prot_id, './pdbs') print(f'Successfully downloaded {prot_id}') except Exception as e: print(f'Failed to download {prot_id}: ', str(e)) ``` 此段代码实现了从给定的蛋白质 ID 文档中逐条读入 ID,并尝试将其对应的 PDB 文件存储于指定目录下。它还包含了基本异常捕获机制以应对可能出现的问题[^4]。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值