记录一下关于SRA数据的拆分

最近下了很多sra数据,但是在拆分上耗费了大量时间。简单总结一下:

1.拆分数据之前先看一下SRR Run的页面确定这个数据的类型,单细胞还是bulk,单端还是双端,是不是标准的10x,一共有几条序列等等。

2.数据可以使用kingfisher get下载。可以下载sra或者fastq。但有的时候直接下载fastq数据他拆分的不对,就要重新下载,很耽误事。踩了几次坑之后改成了下载sra自己拆分。

3.拆分工具可以选择fastq-dump或者fasterq-dump。fastq-dump可以添加--gzip拆分成gz格式但速度慢,fasterq-dump可以使用-e参数进行多线程拆分,速度更快。总结一下之前踩坑的经验,如果是不需要I5序列的10x测序数据,一般kingfisher直接拆分没啥问题,或者是用--split-3拆分。(但split-3有时候也会出现拆的不对的问题,具体原因不清楚)如果需要index,用--split-files拆分,且尽量用fastq-dump,比较稳定。fasterq-dump不知道为什么用过几次拆出来的数据很奇怪。

*可以用zcat查看自己的文件,看一下拆出来的数据看起来是否靠谱

更新:SRA可以看序列大小,ls -lh一下之后比较看是否拆错了

### 向NCBI提交叶绿体基因组数据 为了成功向NCBI提交叶绿体基因组数据,需遵循一系列特定流程以确保数据被正确接收并纳入数据库。以下是详细的指南: #### 准备工作 在准备阶段,确保所有的实验设计、样本采集以及测序过程都已按照标准操作程序完成,并记录详尽的信息用于后续元数据分析。 #### 创建账户和登录 访问[National Center for Biotechnology Information](https://www.ncbi.nlm.nih.gov/)网站,注册BioProject账号以便于管理和追踪提交的数据集。如果已有账号,则直接登录即可[^1]。 #### 提交项目描述 通过BioProject入口创建新的研究条目,提供关于此次工作的背景介绍,包括但不限于物种名称、地理分布、采样地点等重要细节。这一步骤对于理解所提交序列的意义至关重要。 #### 数据整理与验证 将获得的原始读取文件转换成适合上传的形式——通常为FASTA或GenBank格式。利用工具如`blastn`或其他质量控制软件来评估组装质量和准确性。确认无误后打包待传资料。 #### 使用SRA Toolkit进行本地处理 安装[SRA Toolkit](http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software),它允许研究人员在个人计算机上预览即将发送给NCBI的内容。此步骤有助于提前发现潜在问题并及时修正。 ```bash fastq-dump --split-files SRR065398 ``` 上述命令展示了如何使用`srapath`获取指定编号下的序列档案,并将其拆分为独立的FASTQ文档供进一步分析。 #### 正式递交材料 当一切就绪之后,在线填写必要的表格并将压缩后的文件夹上传至服务器。务必仔细阅读每一页提示说明,特别是有关版权归属声明的部分。 #### 获取反馈意见 一旦审核人员收到申请表单及相关附件,会尽快给予回应。期间可能要求补充额外证据支持某些结论;因此保持沟通渠道畅通非常重要。 #### 发布公开链接 最终版本经过批准发布到公共平台之前,作者有机会再次审阅所有信息是否准确无遗漏之处。正式上线后即生成独一无二的DOI号方便他人引用查阅。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值