RNA-Seq上游分析(LINUX)(简洁版本)

1.准备样本文件

ls *TR_R1.fastq.gz | cut -f 1 -d "_" | sort | uniq  > sample_ids.txt 

#查看左右以TR_R1.fastq.gz结尾的文件,使用cut命令,以“_”为分隔符(-d "_"),选择第一个字段(-f 1),进行排序和去重,写入sample_ids.txt文本文件中。

2. Fastqc先看一下原始数据质量(Fastqc这步可做可不做,可直接做后边的Trimmomatic)

fastqc *fastq.gz -o ./fastqc_initial -t 8 

cd ./fastqc_initial/
multiqc .

##搜索当前目录,选择FastQC的输出文件,使用8个计算机内核,制作所有样本的汇总html报告。下载网页打开.html文件

3. Trimmomatic修剪

#!/bin/bash
 
#$ -cwd
#$ -S /bin/bash
#$ -l p=10
cd /data/raw_data
java -jar /data/software/Trimmomatic-0.39/trimmomatic-0.39.jar  PE -threads 36 -phred33  B-3HC_R1.fq.gz  B-3HC_R2.fq.gz B-3HC_1.clean.fq.gz  B-3HC_unpaired1.fq B-3HC_2.clean.fq.gz  B-3HC_unpaired2.fq ILLUMINACLIP:/data/software/Trimmomatic-0.39/adapters/TruSeq3-PE.fa:2:30:10  LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 #HEADCROP:10   ##是否在质控时就加上“HEADCROP:10”,修剪前10个碱基

4. 查看质控结果

mkdir fastqc_trimming   #创建一个名为 fastqc_trimming 的新文件夹

fastqc *.fastq.gz -o fastqc_trimming/ -t 10

multiqc .

5. 与参看基因组比对

hisat2 -p 10 -x /data/database/genomes/human/hisat2_index/Human_GRCh38_p14_hisat2 -1 ${i}_1.clean.fq.gz -2 ${i}_2.clean.fq.gz -S /data/male/${i}.sam

samtools view -b input.sam | samtools sort -o output.bam #bam文件排序

samtools index -@ 8 -b input.bam   #建立bam的索引文件

6. 基因定量得到count文件

featureCounts -T 10 -t exon -g gene_id –a /data/database/genomes/human/GCF_000001405.40_GRCh38.p14_genomic.gtf -p -o /data/04.count/${i}_counts.txt ./${i}.bam

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值