RNA-seq数据处理流程（以胶质瘤数据为例）

胶质瘤RNA-seq数据处理流程详解

最新推荐文章于 2025-08-22 11:01:26 发布

原创

最新推荐文章于 2025-08-22 11:01:26 发布 · 1.3w 阅读

62 ·

CC 4.0 BY-SA版权

文章标签：

#RNA-seq #hisat #Htseq #测序 #二代测序

一、下载比对参考基因组文件，为HISAT2配置index

配置index需要基因组注释文件（通常为gtf格式）以及基因组序列文件（fasta格式）。多个数据库提供此注释文件，此处采用ensemble提供的文件。

# 从ensemble中下载最新版本的人类基因组注释文件（gtf格式）
wget ftp://ftp.ensembl.org/pub/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh38.89.gtf.gz

# 下载人类基因组序列
wget ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna_index/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

#配置HISAT2的index
hisat2-build -p 8 Homo_sapiens.GRCh38.dna.toplevel.fa GRCh38_ensembl_dna 1>build_index.log&

#配置index用时约2小时，结果文件为下图所示

hisat_index.png-24.4kB

二、下载sra数据

进入GEO页面输入id号，进入sra study的ftp下载页面，复制sra文件的链接，在linux下执行以下命令进行下载。

image_1bnhvvb621t1m65f1e3137618cdm.png-65.5kB

nohup wget -c [文件链接] > download.log&

三、将sra文件转换成fastq.gz格式

每秒可生产1M文件，工具不支持多线程。

#对文件夹下的所有sra文件批量处理
for i in *sra
do
echo $i

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

寂桐

关注关注

7
点赞
踩
62

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

RNA-seq分析：Step3（数据预处理）

沉香best的博客

08-21

3665

RNA-seq是一种高通量基因表达分析技术，常用于研究生物体内基因表达的变化。在进行RNA-seq之前，需要进行预处理工作以优化实验结果。预处理包括：1）样本质量控制，包括检验RNA完整性和纯度；2）RNA文库制备，包括选择RNA样本、RNA转录成cDNA、文库构建等；3）测序平台选择，包括Illumina、IonTorrent等；4）数据质量控制，包括去除低质量序列、去除接头序列、过滤低复杂度序列等；5）比对和定量，包括将测序序列映射到参考基因组、计算基因表达量等。预处理的好坏直接影响后续分析结果的可靠性

RNA-seq 分析流程 —— 概述

dxs18459111694的博客

05-23

4468

接下来我们要介绍的是RNA-seq数据的处理分析流程，根据RNA-seqshort-readlong-read而我们一般的RNA-seq测序数据分析流程算法

参与评论您还未登录，请先登录后发表或查看评论

RNA-seq数据分析（分析策略，比对，转录组组装，转录本定量）

weixin_43927366的博客

03-13

7080

分析策略通过综合分析RNA-seq分析流程中不同步骤的工具性能发现不同的分析工具和方法对分析结果的准确度和分析时间影响巨大。HISAT2表现出最快的速度和最准确的拼接比对，但是没有STAR的敏感度高。StringTie在速度和准确度上都优于Cufflinks。长读段方法如IDP和Iso-Seq会识别许多短读段技术没有识别到的多外显子转录本，但是会丢失一些单外显子转录本。通常，在从头组装工具中，Oases表现最佳。不经过比对的工具如和kallisto。

RNA-seq数据分析

yiyaaaaaaaa的博客

03-02

8372

一、数据收集 1.NCBI GEO数据库收集相关RNA-seq数据样本信息以及引用文献可以点击对应链接查看 2.SRA Run Selector 查看数据单双端类型（SINGLE or PAIRED)及分组信息可以点击Accession List下载对应的SRR_Acc_List.txt 二、RNA-seq 处理流程使用HISAT, StringTie and Ballgown处理流程 <一>下载并解压SRA文件 1.根据下载的SRR_Acc_List.txt下载原始sra文件至SRR

高通量测序数据分析：RNA-seq

qq_41134363的博客

06-20

3万+

如何用R语言获取TCGA和GTEx数据库中60例胶质瘤样本和60例正常样本的RNA-seq数据，

05-12

好的，用户的问题是关于如何使用R语言从TCGA和GTEx数据库下载60例胶质瘤样本和60例正常样本的RNA-seq数据。首先，我需要回忆一下TCGA和GTEx的数据获取方法，以及常用的R包。首先，TCGA的数据通常可以通过GDC Data ...

Neuro-Oncology | IF:15.9 & CUT&Tag和RNA-seq联合解析胶质母细胞瘤的耐药性

Igenebook的博客

11-16

718

胶质母细胞瘤(GBM)仍然是最常见和最致命的恶性原发性脑肿瘤，目前5年生存率为7.2%。标准治疗包括手术切除大块肿瘤，然后进行体外放射治疗和TMZ辅助化疗。胶质瘤干细胞(Glioma stem cells, GSCs)具有良好的DNA修复能力，能够有效地修复标准治疗引起的DNA损伤，从而产生耐药性。表观遗传修饰因子KDM1A/LSD1在胶质母细胞瘤中高表达，然而，KDM1A在TMZ耐药中的作用机制仍然不清楚。

单细胞转录组分析（scRNA-seq）

大甘的博客

03-04

4562

单细胞转录组测序（Single-cell RNA sequencing，scRNA-seq）是一种高通量测序技术，可以在单细胞水平解析基因表达情况，揭示细胞异质性，探索稀有细胞类型，并研究细胞状态转换及动态调控机制。与传统的。

《NC》| SCEVAN:从scRNA-seq中检测肿瘤克隆拷贝数亚结构

最新发布

weixin_47195452的博客

08-22

845

在对低质量细胞和基因进行初步过滤后，算法首先会自动识别出一小部分可信度高的非恶性细胞，并将它们的表达谱作为基准，计算出所有细胞相对于这个正常基线的基因表达差异矩阵。此外，一个位于2号染色体上的扩增事件在外周区域是克隆性的（所有肿瘤细胞都存在），但在部分核心区域则转变为亚克隆性的（仅部分肿瘤细胞存在），这揭示了肿瘤在空间扩张过程中的动态演化过程。在分析的多个病例中，大部分情况下转移灶的克隆结构与原发灶高度相似，显示出很高的相关性，这表明转移细胞直接来源于原发灶的主要克隆。在解析复杂肿瘤生物学问题上的能力。

RNA-SEQ的上游分析及数据处理

acetyl_coa1741的博客

07-08

1081

RNA-SEQ的上游分析及数据处理

RNA-seq数据分析实用方法(2015)

10-11

RNA-seq数据分析实用方法，包含了RNA-seq数据分析的各个方面。

RNA-Seq数据分析使用方法

weixin_73362123的博客

03-03

2668

质量问题通常来自测序本身或前面的文库制备。包括：可信度低的碱基序列特异性的偏差 3’/5’位置偏差聚合酶链反应(PCR)假象未修剪的接头序列污染通过过滤、修剪、纠错或偏差订正被矫正。质量控制和预处理软件 1FastQC 输入文件可以是FASTQ(未压缩或压缩的)或SAM/BAM文件。生成html的质量报告，包括：读段的数目及质量编码可视化有关碱基质量和内容读取长度及k-mer内容有含糊不清的碱基过度代表的序列和重复的信息 1.2html结果文件解读左侧会有Summary可以

RNA-seq数据上游分析流程（从原始数据开始）

weixin_40640700的博客

03-25

3万+

数据分析的基本思路（1）从ncbi的geo或者其它数据库中查找自己感兴趣的RNASeq数据，至少要求给出如下信息：该套数据所发表的文章的名字：该套数据的下载网址：该套数据基本情况介绍（简介以及该套数据包含多少个样本，分为多少种类型，以及每种类型有多少个样本）（2）对芯片数据进行质量控制评价及处理（如果质量差的话，每个样本都应该处理），可以用软件Fastqc+Trimmomatic配合使用,也可以用其它软件替换（3）用TopHat2 + Cufflinks+Hisat系列软件进.

一篇文章详解：RNA-seq 数据分析加速

bio2s

09-01

882

RNAseq，即通过高通量测序技术进行转录组测序分析技术，作为研究RNA的表达水平以及表达差异基因的应用，在过去的十几年内迅速发展。而今，RNAseq在转录本变异检测，基因融合检测，可变剪切检测等场景均有大规模的应用。转录本变异检测，是指通过比较样本RNA序列和参考基因组对应序列，来寻找单碱基多态性和小片段的插入缺失，其结果大多用于治病位点的判断或性状相关的研究。融合基因是指两个或多个基因首尾相连，置于同一套调控序列控制之下，构成的嵌合基因，其表达产物为融合蛋白。在某些癌症中，融合基因的检测成为了重要的检测

脑胶质瘤的数据处理代码

rookie的博客

11-10

298

import pandas as pd import time import os from collections import Counter import numpy as np import cv2 import SimpleITK from tqdm import tqdm import datetime import json import os import re import fnmatch from PIL import Image import numpy as np from pyco

RNA-seq分析流程

wangprince2017

01-23

1357

注意事项默认阅读顺序：从右→左，顺时针方向。图片信息量太大，建议右键→查看图像，放大图片后细看。分析流程参考资料 2016_Genome Biology_A survey of best practices for RNA-seq data analysishttps://en.wikipedia.org/wiki/RNA-Seqhttps://en.wikipedia.org/wiki/MicroRNA_sequencing ...

生物安装软件信息

dengyidan1042的博客

04-25

1369

1.SNAP（可伸缩的核苷酸比对程序）：https://github.com/chiulab/surpi SNAP是一种快速、准确的短DNA比对器。它针对100个或更高的现代读取长度进行了优化，并利用这些读取通过基于哈希的索引方案快速对齐数据。 2.GenomeTools（gt 通用的开源基因组分析软件）:http://genometools.org/index.htm...

NCBI数据库—上传16S rRNA测序数据

薛定谔的 zx_zhang的博客

09-30

1万+

NCBI上传16S rRNA测序数据 1.登陆NCBI官网 NCBI官网链接 2.选择上传序列类型上传16S rRNA测序数据，直接选16S rRNA就可以，然后弹出上传数据集的类型，选择SRA 3.注册NCBI账号选择SRA后，会弹出如下的一些提示信息，直接选择submit即可； 3.1 进入提交信息页面进入正式提交信息的页面；注意此处的“My submissions”选项，注册完账号后，仍需返回这里 3.2 注册NCBI账号选择右上角的登陆账号—>选择ORCID登陆/注册（已经申请

RNA-seq：转录组数据分析处理（上）