测序数据处理 —— 数据上传
NCBI
的重要性不用说明,你知道的,它很重要。
在发表文章时,一般都会要求公开文章中使用的数据。例如,将测序数据上传到 NCBI
的 GEO
或者 SRA
服务器中,然后在文章中使用数据库提供的编号,方便其他人检索和使用。
下面,我们简单介绍一下 NCBI
测序数据的上传流程。
注意:请确保读完整个文档再开始上传数据,切记!!
上传到 SRA
将数据上传到 NCBI SRA
数据库,需要对这份数据进行一个描述,包括前期项目情况、样本属性及制备情况等。而BioProject
和 BioSample
就是用来描述研究项目的、研究背景、材料属性等基本 信息。
一个 BioProject
代表一项测序研究项目,可包含多个 BioSample
,也可以包含多次实 验 experiments
,所以在提交数据前,先申请 BioProject
号和 BioSample
号。
通常 BioSample
编号以 SAMN
开头,如 SAMN*****
;BioProject
编号以 PRJNA
开头,如 PRJNA*****
。 这两个编号在后续 SRA
提交过程中会用到。
向 SRA
提交数据一般包括以下几个步骤:
-
创建
BioPreject
和BioSample ID
-
BioProject
和BioSample
创建完成后,再转到SRA
的网页,创建New Submission
,并完成信息填写; -
完成上述步骤后,网页上
NCBI
会给出一个登录FTP
的账号和网址链接; -
登录后用账号可直接上传(复制粘贴),或用软件
FileZilla
或Aspera
上传; -
生成相应的
GSE
编号,供发表文章使用。
1. 注册账号
已有账号请跳过!!
进入 NCBI
官网,点击登录
点击注册
不要注册自己的账号,要用老板的账号注册,已经注册完可以跳过该步骤
一般使用 ORCID
即可
登录后点击 Submit
进行上传数据界面
点击 My submissions
2. 创建 BioSample
选择 BioSample
点击 New submission
进入提交者信息界面
2.1 SUBMITTER
填写个人基本信息,如果已经提交过会自动填补,无需修改,点击 continue
直接进入下一步。
提示:email
选项中,两个邮箱中要留一个该测序项目负责人的常用邮箱,因为后期如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件到 NCBI
才会被受理。
2.2 GENERAL INFO
- 选择数据释放时间,可以立即释放或特定时间点释放,一般选哪一个都不影响。如果数据比较重要,可以选择较晚的时间点,等文章发表之后再回来修改释放时间。
- 选择样本类型,是选择多样本还是单样本上传,一般都是多个样本。
2.3 SAMPLE TYPE
根据样品实际情况选择样本来源。这里选择人类
2.4 ATTRIBUTES
- 样本信息,可以直接在线填写
- 或者下载表格到本地,填完之后再上传
一般先下载 Excel
表格,在本地填写相关信息,表格中每一列该怎么填都有相应的说明。