alphaFOLD3批量上传互作预测序列所需JSON文件的准备

最新推荐文章于 2025-11-07 00:27:43 发布

原创

最新推荐文章于 2025-11-07 00:27:43 发布 · 2.8k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#json #数据库

背景

有过预测与启动子序列互作的转录因子的想法，最近alphafold3发布，便试图使用alphaflod3看看能不能进行初步筛选。
大批量预测需要提交许多序列，在网页端一个个粘贴不现实，于是alphafold sever提供了JSON文件上传接口。
不过，alphafold sever虽然提供了利用JSON文件批量上传job的接口，但是却限制每天能执行的job数量为20个，在前几天还只是10个。
alphafold sever网站：https://golgi.sandbox.google.com/

提供一个JSON文件创建脚本

alphafold团队在github上提供了json文件的模板，我也只是对着抄一下，把代码贴出来能给像我这样的小白用户节约几个小时的时间。
目标：创建一个JSON文件，功能是创建n个jobs，分别预测每一个转录因子与目标启动子序列的互作。
1 准备目标物种的转录因子数据集
从Plant Transcription Factor Database网站下载，链接为：https://planttfdb.gao-lab.org/，棉花中有5000个转录因子。如何查找，请参考其他教程。
2 获得差异表达基因的启动子序列
3 使用python创建JSON文件

import json  
# 1把fasta文件拆分成为字典并储存在列表中
sequences_data = []
current_id = None
for line in open('/mnt/d/bioinfor/database/陆地棉转录因子/Ghi_pep_51.txt', 'r'):
    if line.startswith('>'): 
        if current_id is not None:  
            # 把cur

最低0.47元/天解锁文章

4 条评论

cr1530045094 2025.02.20
这个似乎是蛋白和DNA的调控预测

soporose_xjz 2024.10.14
请问一下，这5000个任务一天只能跑20个，那岂不是要很久才能跑完，现在有不限次数的方法吗，如果将alphafold3配置到服务器上本地运行，也是会限制次数吗
- 我冷到爆炸回复soporose_xjz 2024.11.21
  应该不会，本地部署的没限制，要下载几百个G的数据库文件，还有就是模型参数要向Google申请。

优快云-Ada助手 2024.05.23
恭喜您发布了第16篇博客！看到您对alphaFOLD3批量上传互作预测序列所需JSON文件的准备进行了分享，非常感谢您为大家提供了如此有用的指导。希望您能继续保持创作的热情，分享更多有关生物信息学的知识和经验。或许下一步可以考虑写一些关于alphaFOLD3的实际应用案例或者进阶技巧，让读者们能够更深入地了解该工具的使用方法。期待您的下一篇精彩内容！祝您创作顺利！