宏基因组分析实战(1)-数据下载

宏基因组分析,在微生物研究中应用广泛。目前已有许多文章介绍了宏基因组的应用,这些文章多以实战代码和可视化为主,但关于其分析原理和分析流程的文章并不多见。

本系列计划介绍宏基因组的基础分类、数据下载与处理、分析流程以及实战等多个内容,尽可能将多的有效信息压缩,方便小白们快速系统了解宏基因组分析原理与流程,以及帮助关从业人员回顾分析知识。

知识分享不易,欢迎转发打赏支持!

巧妇难为无米之炊,我们做任何分析的前提都得是先有数据才行,当然有钱的童鞋可以自己去设计实验、采样、委托测序公司测序,但没钱的伙伴们也不用慌,我们也可以从公共数据库中获取一些原始测序数据(rawdata),便是我们熟知的三大数据库啦,分别是NCBI(National Center for Biotechnology Information)、ENA(European Nucleotide Archive)、DDBJ。不过DDBJ的知名度和使用率貌似明显比不过前两者,因此我们只介绍前两个数据库如何查找并下载数据。

注意,不管是下载公共数据或者自己测序时,都需要注意对metadata的收集,即每个测序样本的标签信息。这部分信息非常重要!!!许多下游分析都依赖这些标签开展,比如差异分析关联分析

1. 数据搜索

1.1 NCBI

NCBI是一个综合数据库,其中包含非常多的子数据库,在首页的搜索界面可见,而我们想获取已经公开发布的项目及其对应的样本和测序数据时,可以关注BioProject、BioSample这两个数据库,通过搜索自己感兴趣的领域即可获得对应的项目数据。如果知道具体的项目编号、样本编号或者测序编号(Run ID或Accession ID)就可以更精准地获取想要的数据哦~


比如这里我想搜索一个和肥胖相关的宏基因组测序项目,就可以用“obesity”和“metagenomics”两个关键词在BioProject里面搜索,结果如下,选择第一个结果点进入看看,我们就能看到关于这个项目的所有信息,如下图所示


通过这个界面可知,这个项目是对30个法国人(15个肥胖,15个对照)的粪便、唾液和十二指肠引流液做了宏基因组测序,共得到了90个测序结果。其中,测序数据在SRA Experiments这部分,点击右侧对应的90即可得到所有的测序信息



至此,我们就完成了对NCBI测序数据的搜索啦,NCBI也支持网页端下载,如果想下载哪个测序数据的话,可以点击表格中的Run ID,在跳转页面中选择下载即可,如下图

但是这种只能一个一个下载,而且大小不能超过5G。数据量较大的时候还是建议用专门的下载工具来做,详细见下文

1.2 ENA

在学会如何在NCBI搜索数据之后,ENA也就很简单了,同样的采用关键词搜索,我们可以得到如下结果,展开project结果后,我们也同样发现了在NCBI中找到的这个项目,点击打开后就可以看到这个项目在ENA数据库中的储存形式啦




可以看到,其实ENA的表现形式与NCBI类似,都以表格的形式展现了项目的metadata,不过方便的是它可以直接批量下载原始数据,这点就非常nice

1.3 Gmrepo

可能有些童鞋会觉得上面两个数据库搜起数据来太麻烦啦,光靠关键词可能也没办法准确定位到我想要的数据,**更重要的是metadata非常杂乱!!!查找起来非常痛苦!**那么不要慌,这个数据库他来了。Gmrepo是一个专门对人体微生物组测序数据进行收集和整理的数据库,迄今为止已经收集并整理了353个测序项目和71,642个测序数据,涵盖了132个不同的表型,可以完美地解决大多数人的数据需求!

话不多说,我们直接登录,然后在右上角的Phenotypes里面选择All Phenotypes,这里就有非常多的方向了,我们依然选择肥胖,即Obesity,点击后即可展示所有相关信息


可以看到,这里详细展示了和肥胖相关的各类信息,甚至已经将biomarker展示出来了。当然,我们这里关注的更多是project,点击后便可展示所有项目的信息啦,何种表型一目了然,而且可以直接链接到NCBI,非常贴心!

💡
细心的小伙伴可以发现,我们这里搜索数据都是去搜索的Project,而不是直接搜Run(测序结果)。这是因为项目中的数据都是通过精心设计实验得来的,可以让我们更好地获得测序数据的背景信息,而如果直接拿一个测序下机数据过来可能就达不到这种效果

2. 数据下载

工欲善其事,必先利其器。虽然在数据库网页上我们可以直接下载数据,但是当数据量过大时再手动下载时就明显有些力不从心呀,而且对于宏基因组数据来讲,更多依赖于Linux式的大型服务器来做数据分析,因此,掌握如何用命令行去下载数据也是非常重要滴!

我们的教程在这里也算正式开始,以与肠道微生物关联比较紧密的结直肠癌(Colorectal Cancer, CRC)为例,在Gmrepo数据库中从项目PRJEB10878中分别选取5个健康个体以及5个CRC患者的粪便宏基因组测序数据开始分析,具体的metadata如下表:

Run ID Phenotype Host age Gender BMI
ERR1018185 Colorectal Neoplasms 64 Male 23.10
ERR1018186 Colorectal Neoplasms 73 Male 23.80
ERR1018187 Colorectal Neoplasms 67 Female 24.70
ERR1018188 Colorectal Neoplasms 56 Male 25.60
ERR1018189 Colorectal Neoplasms 59 Female 20.70
ERR1018193 Health 62 Male 21.70
ERR1018195 Health 65 Male 20.70
ERR1018203 Health 58 Female 21.60
ERR1018205 Health 68 Male 21.70
ERR1018209 Health 62 Female 21.40

对肥胖感兴趣的小伙伴也可以使用上面的项目数据开始分析哦,探索肠道菌群在肥胖中的奥秘

2.1 下载工具

2.1.1 wget/curl

这两个工具一般是服务器都会自带的数据下载工具,使用起来也非常简单,只要加上对应的链接(可以按照上述步骤从ENA网页获取)就可以啦。以样本ERR1018185为例,下载命令分别为:


                
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值