宏基因组分析,在微生物研究中应用广泛。目前已有许多文章介绍了宏基因组的应用,这些文章多以实战代码和可视化为主,但关于其分析原理和分析流程的文章并不多见。
本系列计划介绍宏基因组的基础分类、数据下载与处理、分析流程以及实战等多个内容,尽可能将多的有效信息压缩,方便小白们快速系统了解宏基因组分析原理与流程,以及帮助关从业人员回顾分析知识。
知识分享不易,欢迎转发打赏支持!
巧妇难为无米之炊,我们做任何分析的前提都得是先有数据才行,当然有钱的童鞋可以自己去设计实验、采样、委托测序公司测序,但没钱的伙伴们也不用慌,我们也可以从公共数据库中获取一些原始测序数据(rawdata),便是我们熟知的三大数据库啦,分别是NCBI(National Center for Biotechnology Information)、ENA(European Nucleotide Archive)、DDBJ。不过DDBJ的知名度和使用率貌似明显比不过前两者,因此我们只介绍前两个数据库如何查找并下载数据。
注意,不管是下载公共数据或者自己测序时,都需要注意对metadata的收集,即每个测序样本的标签信息。这部分信息非常重要!!!许多下游分析都依赖这些标签开展,比如差异分析、关联分析等
1. 数据搜索
1.1 NCBI
NCBI是一个综合数据库,其中包含非常多的子数据库,在首页的搜索界面可见,而我们想获取已经公开发布的项目及其对应的样本和测序数据时,可以关注BioProject、BioSample这两个数据库,通过搜索自己感兴趣的领域即可获得对应的项目数据。如果知道具体的项目编号、样本编号或者测序编号(Run ID或Accession ID)就可以更精准地获取想要的数据哦~

比如这里我想搜索一个和肥胖相关的宏基因组测序项目,就可以用“obesity”和“metagenomics”两个关键词在BioProject里面搜索,结果如下,选择第一个结果点进入看看,我们就能看到关于这个项目的所有信息,如下图所示


通过这个界面可知,这个项目是对30个法国人(15个肥胖,15个对照)的粪便、唾液和十二指肠引流液做了宏基因组测序,共得到了90个测序结果。其中,测序数据在SRA Experiments这部分,点击右侧对应的90即可得到所有的测序信息


至此,我们就完成了对NCBI测序数据的搜索啦,NCBI也支持网页端下载,如果想下载哪个测序数据的话,可以点击表格中的Run ID,在跳转页面中选择下载即可,如下图

但是这种只能一个一个下载,而且大小不能超过5G。数据量较大的时候还是建议用专门的下载工具来做,详细见下文
1.2 ENA
在学会如何在NCBI搜索数据之后,ENA也就很简单了,同样的采用关键词搜索,我们可以得到如下结果,展开project结果后,我们也同样发现了在NCBI中找到的这个项目,点击打开后就可以看到这个项目在ENA数据库中的储存形式啦



可以看到,其实ENA的表现形式与NCBI类似,都以表格的形式展现了项目的metadata,不过方便的是它可以直接批量下载原始数据,这点就非常nice
1.3 Gmrepo
可能有些童鞋会觉得上面两个数据库搜起数据来太麻烦啦,光靠关键词可能也没办法准确定位到我想要的数据,**更重要的是metadata非常杂乱!!!查找起来非常痛苦!**那么不要慌,这个数据库他来了。Gmrepo是一个专门对人体微生物组测序数据进行收集和整理的数据库,迄今为止已经收集并整理了353个测序项目和71,642个测序数据,涵盖了132个不同的表型,可以完美地解决大多数人的数据需求!
话不多说,我们直接登录,然后在右上角的Phenotypes里面选择All Phenotypes,这里就有非常多的方向了,我们依然选择肥胖,即Obesity,点击后即可展示所有相关信息

可以看到,这里详细展示了和肥胖相关的各类信息,甚至已经将biomarker展示出来了。当然,我们这里关注的更多是project,点击后便可展示所有项目的信息啦,何种表型一目了然,而且可以直接链接到NCBI,非常贴心!

💡
细心的小伙伴可以发现,我们这里搜索数据都是去搜索的Project,而不是直接搜Run(测序结果)。这是因为项目中的数据都是通过精心设计实验得来的,可以让我们更好地获得测序数据的背景信息,而如果直接拿一个测序下机数据过来可能就达不到这种效果
2. 数据下载
工欲善其事,必先利其器。虽然在数据库网页上我们可以直接下载数据,但是当数据量过大时再手动下载时就明显有些力不从心呀,而且对于宏基因组数据来讲,更多依赖于Linux式的大型服务器来做数据分析,因此,掌握如何用命令行去下载数据也是非常重要滴!
我们的教程在这里也算正式开始,以与肠道微生物关联比较紧密的结直肠癌(Colorectal Cancer, CRC)为例,在Gmrepo数据库中从项目PRJEB10878中分别选取5个健康个体以及5个CRC患者的粪便宏基因组测序数据开始分析,具体的metadata如下表:
| Run ID | Phenotype | Host age | Gender | BMI |
|---|---|---|---|---|
| ERR1018185 | Colorectal Neoplasms | 64 | Male | 23.10 |
| ERR1018186 | Colorectal Neoplasms | 73 | Male | 23.80 |
| ERR1018187 | Colorectal Neoplasms | 67 | Female | 24.70 |
| ERR1018188 | Colorectal Neoplasms | 56 | Male | 25.60 |
| ERR1018189 | Colorectal Neoplasms | 59 | Female | 20.70 |
| ERR1018193 | Health | 62 | Male | 21.70 |
| ERR1018195 | Health | 65 | Male | 20.70 |
| ERR1018203 | Health | 58 | Female | 21.60 |
| ERR1018205 | Health | 68 | Male | 21.70 |
| ERR1018209 | Health | 62 | Female | 21.40 |
对肥胖感兴趣的小伙伴也可以使用上面的项目数据开始分析哦,探索肠道菌群在肥胖中的奥秘
2.1 下载工具
2.1.1 wget/curl
这两个工具一般是服务器都会自带的数据下载工具,使用起来也非常简单,只要加上对应的链接(可以按照上述步骤从ENA网页获取)就可以啦。以样本ERR1018185为例,下载命令分别为:

最低0.47元/天 解锁文章
310

被折叠的 条评论
为什么被折叠?



