测序数据处理 —— 数据上传

测序数据处理 —— 数据上传


NCBI 的重要性不用说明,你知道的,它很重要。

在发表文章时,一般都会要求公开文章中使用的数据。例如,将测序数据上传到 NCBIGEO 或者 SRA 服务器中,然后在文章中使用数据库提供的编号,方便其他人检索和使用。

下面,我们简单介绍一下 NCBI 测序数据的上传流程。

注意:请确保读完整个文档再开始上传数据,切记!!

上传到 SRA

将数据上传到 NCBI SRA 数据库,需要对这份数据进行一个描述,包括前期项目情况、样本属性及制备情况等。而BioProjectBioSample 就是用来描述研究项目的、研究背景、材料属性等基本 信息。

一个 BioProject 代表一项测序研究项目,可包含多个 BioSample,也可以包含多次实 验 experiments,所以在提交数据前,先申请 BioProject 号和 BioSample 号。

通常 BioSample 编号以 SAMN 开头,如 SAMN*****BioProject 编号以 PRJNA 开头,如 PRJNA*****。 这两个编号在后续 SRA 提交过程中会用到。

SRA 提交数据一般包括以下几个步骤:

  1. 创建 BioPrejectBioSample ID

  2. BioProjectBioSample 创建完成后,再转到 SRA 的网页,创建 New Submission,并完成信息填写;

  3. 完成上述步骤后,网页上 NCBI 会给出一个登录 FTP 的账号和网址链接;

  4. 登录后用账号可直接上传(复制粘贴),或用软件 FileZillaAspera 上传;

  5. 生成相应的 GSE 编号,供发表文章使用。

1. 注册账号

已有账号请跳过!!

进入 NCBI 官网,点击登录

点击注册

不要注册自己的账号,要用老板的账号注册,已经注册完可以跳过该步骤

一般使用 ORCID 即可

登录后点击 Submit 进行上传数据界面

点击 My submissions

2. 创建 BioSample

选择 BioSample

点击 New submission 进入提交者信息界面

2.1 SUBMITTER

填写个人基本信息,如果已经提交过会自动填补,无需修改,点击 continue 直接进入下一步。

提示:email 选项中,两个邮箱中要留一个该测序项目负责人的常用邮箱,因为后期如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件到 NCBI 才会被受理。

2.2 GENERAL INFO
  1. 选择数据释放时间,可以立即释放或特定时间点释放,一般选哪一个都不影响。如果数据比较重要,可以选择较晚的时间点,等文章发表之后再回来修改释放时间。
  2. 选择样本类型,是选择多样本还是单样本上传,一般都是多个样本。

2.3 SAMPLE TYPE

根据样品实际情况选择样本来源。这里选择人类

2.4 ATTRIBUTES
  1. 样本信息,可以直接在线填写

  1. 或者下载表格到本地,填完之后再上传

一般先下载 Excel 表格,在本地填写相关信息,表格中每一列该怎么填都有相应的说明。

### Redis Geo 数据库与 GEO 表达谱数据库的区别 关于Geo数据库中的数据详细程度,需区分讨论的是Redis的地理位置数据结构(GeoHash)以及生物信息学领域中的GEO数据库。以下是两者的具体分析: #### 1. **Redis 地理位置数据结构 (GeoHash)** Redis 的地理功能主要依赖于 GeoHash 算法来处理空间索引和距离计算问题[^1]。其核心在于通过将经纬度编码成一个可比较的字符串(即 GeoHash),从而能够快速完成范围查询、半径查找等功能。 - **数据存储细节**:Redis 中的地理位置数据通常只保存 Point 和 Member 类型的信息。Point 是指具体的经纬度坐标;而 Member 则是一个带有标签的对象,它不仅包含了实际的位置还可能附加其他元数据。 - **精度控制**:由于采用了 GeoHash 编码方式,在不同长度下可以提供不同程度的空间分辨率。例如较短的哈希串对应较大的区域覆盖面积但较低精密度,反之亦然。 因此对于 Redis 来说,“数据详尽度”的概念更多体现在如何设置合理的参数以满足应用需求上——比如指定搜索半径大小或者调整 geoadd 命令时使用的浮点数位数等操作都会影响最终呈现出来的结果集规模及其准确性。 #### 2. **GEO 生物信息学数据库** 相比之下,GEO(Gene Expression Omnibus)作为NCBI维护的一个公共高通量基因组资源仓库,则完全服务于生命科学研究人员,专注于收集并分发各种类型的分子丰度测量实验产生的原始及经过初步加工后的资料集合[^2]。 当提到从该平台获取的数据“详细程度”,这实际上取决于几个因素: - **样本描述文件(Sample Description File)**: 每份提交至GEO系统的记录都附带有一系列元属性字段(如物种名、组织类型等等),这些构成了我们理解整个研究背景的基础框架; - **平台技术规格**: 不同测序方法所产出的结果自然存在差异性,illumina芯片可能会给出探针强度数值矩阵形式的表现模式图谱,RNA-seq则倾向于报告转录本计数列表; - **预处理状态**: 部分项目仅上传未经任何修正过的原始读段序列档案(.fastq/.sra), 而另一些已经完成了标准化流程诸如归一化处理之后再公开分享给社区成员进一步挖掘利用价值所在. 所以针对特定课题而言,使用者可以根据自身需要挑选适合版本级别的素材来进行后续统计建模工作之前先做好充分调研功课是非常必要的举措之一. ```python # 使用 R 语言加载 GEO 数据的例子 library(GEOquery) gse <- getGEO("GSE8970", GSEMatrix = TRUE)[[1]] print(dim(gse)) # 查看数据维度 head(exprs(gse)) # 显示部分表达值 ``` 上述脚本展示了怎样借助 `GEOquery` 包一键抓取目标编号下的全套内容,并简单浏览了一下内部构成概况以便初学者入门学习参考之用。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

名本无名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值