最近利用pymol批量下载结构文件的时候发现很多pdb格式的文件无法下载,而且pymol下载结构文件的时候默认是下载mmcif格式的,大概研究了一下这种情况的原因。
关于文件格式
PDB,PDBx/mmCIF
- PDBx和mmCIF格式是官方支持的文件格式
- PDB数据库中所有的结构都会有PDBx/mmCIF格式(而不是PDB格式)
- PDBx/mmCIF会将会不断扩展包含新的内容,但是也会保证向前兼容
使用PDBx/mmCIF而不是PDB的原因
- 由于PDB格式从2012年以来它的文件格式没有进行扩展,因此它支持的数据量会比较局限,之后的结构数据因为技术手段的革新会发生较大的变化,但是pdb格式的扩展性较弱。
- 之后的数据会主要是使用PBDx/mmCIF来保存结构的数据。
注:PDB数据库目前也会接受NMR和EM产生的PDB格式文件,这些PDB格式的数据文件也会被转换为PDBx/mmCIF储存下来,也就是说所有的结构都有PDBx/mmCIF格式文件,只有部分结构有PDB格式文件。