NCBI SRA数据预处理

SRA数据的的处理流程大概如下

一、SRA数据下载、

NCBI 上存储的数据现在大都存储为SRA格式。

下载以后就是以SRA为后缀名。

这里可以通过三种方式下载SRA格式的数据。

1.通过http方式,2.通过ftp方式,3.通过Aspera

Aspera可以在NCBI网站上下载。

参阅:http://www.ncbi.nlm.nih.gov/books/NBK47540/


二、SRA格式转换成FASTQ格式

./fastq-dump -O /path/  /data/GEO/SRA/SRR058977.sra

fastq-dump可以在ncbi官方网站下载,这里面包含一系列的转换工具;

参阅:http://www.ncbi.nlm.nih.gov/books/NBK56560/

http://eutils.ncbi.nih.gov/Traces/sra/?view=software

转换成FASTQ,SFF,lllumina native,AB SOLiD native等格式;


另,转换FASTQ以后要转换成FASTA 命令如下:

awk '{if(FNR%4==1) print ">",$0; else if(FNR%4==2) print $0;}' a.fastq >a.fasta


————————----------------------------------------------------------------

以上部分为预处理部分:

当然我做的方向是比对方向,就可以用fasta做比对工作了。

………………………………………………………………………………………………………………………………………………………………………………………………

后面还可以做其他反面的研究:

3.去接头(此步要注意是否有接头,一般RNA-SEQ数据应该是没有接头的)

4.用tophat寻找可变剪切

tophat -r 42 -G genome.fa -o PF genomeIndex SRR058977.fastq

5.用cufflinks找不同组织中的差异

cuffdiff genomeAnnotation.gff   ../BF/accept.bam ./accept.bam

来源:http://blog.sciencenet.cn/blog-565558-626137.html

…………………………………………………………………………………………………………………………………………………………


可能会用到的修改目录权限的linux命令

Linux改变分区权限(简单好用版)

原理:

1.在Linux和Unix世界里,一切都是以文件的形式存在的。文件夹是文件,文件是文件,设备也是文件。
2.分区在挂载后,会在 /media/ 下以文件夹的形式显现
3.chmod用于修改权限 而chmod ugo+rwx 用于给所有的用户和用户组添加所有的权限

步骤:
1.假设需要修改权限的分区名为x
2.挂载x
3.赋权

代码:
sudo chmod ugo+rwx /media/x




### 如何从NCBI下载原始数据文件 #### 使用EBI作为替代源 由于直接从NCBI下载可能会遇到较慢的速度问题,可以考虑使用欧洲生物信息学研究所(EBI)来代替。因为这两个机构之间的数据库资源是共享的,这意味着可以从EBI获取相同的数据集而无需担心速度上的瓶颈[^1]。 #### 利用SRA工具包进行下载 对于希望直接通过命令行操作并更灵活控制下载过程的情况来说,安装并配置好`SRA Toolkit`是一个不错的选择。此套件允许用户基于特定样本编号(SRA accession number),即所谓的"SRA号", 来检索和下载来自NCBI SRA数据库中的序列读取档案(Sequence Reads Archives)。具体步骤如下: 1. 访问[SRA ToolKit官方GitHub页面](https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit)[^4],按照说明完成软件包的下载与安装; 2. 获取目标样品对应的唯一识别码(Accession Number),这通常可以在论文补充材料或者公共基因表达综合(GEO)项目描述页找到; 3. 执行预处理命令以准备环境变量设置等必要条件; ```bash prefetch --option-file accessions.txt ``` 上述代码片段展示了如何批量下载多个由文本列表指定的目标记录。其中`accessions.txt`应包含一行或多行有效的SRA访问ID。 4. 对于单个条目,则可以直接调用带有相应参数值的`fastq-dump`指令来进行转换成FASTQ格式输出: ```bash fastq-dump SRRxxxxxx ``` 这里假设`SRRxxxxxx`代表具体的某一条目的标识符。 #### 探索SRA结构化层次关系 值得注意的是,在尝试定位所需的具体实验或运行之前,了解SRA内部是如何组织这些元数据是非常有帮助的。整个体系被划分为四个主要级别:研究(BioProject), 实验室提交批次(BioSample), 测序计划(Experiment), 和实际执行过程中产生的每一轮次的结果(Run)。理解这一架构有助于更加精准地锁定感兴趣的资料位置[^3]。
评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值