转录组分析数据质控

用fastqc进行数据质控:

Babraham Bioinformatics - Public Projects Download在官网进行下载

fastqc在windows系统下运行完全没问题

把这个文件下载下来

这里主要要配置环境变量:主要是fastqc的和java的

在文件夹中运行cmd

这样输入就讲fastqc打开了

这里用一个名为ERR499.R1.fq的文件演示一下:

<<ERR499.R1.fq>>

直接导入fastqc:

下面来解析结果:

整体在28以上,还可以,如果在红区的太多就是不好的

蓝色就是好的,有其他颜色就是不好的

是单峰,不是双峰

人一般是49%

如果出现双峰:

1.就说明可能测到了杂质物种的峰值

2.片段打断不均匀

下面我们要去除adapt,这里安装cutadapt:

为什么要去除adaptor:

一般来说,测序公司会提供相关的适配子序列信息。如果你自己从网上下载数据,通常可以根据文章中的描述来查找这些信息。比如,文章里可能会提到适配子序列是否包含在内,或者可以查看该测序实验的建库类型。如果是Illumina平台进行的测序,我们就可以查找Illumina的出塞序列(例如,I7或I5的引物序列),这可以通过Illumina的官方文档或者其他资源找到。

假设现在我们确定了适配子的序列,接下来就要处理适配子去除的问题。比如,在70bp的测序中,如果读长只有40bp或50bp,那么在测序时,读长不足时,可能会测到部分适配子序列。对于Illumina平台的测序,如果你只获得了40bp的序列,这意味着你有30bp的适配子序列是需要去除的。

因为测序结果可能会带有30bp的适配子序列,如果不去除,接下来的比对就无法正确进行,因为最终比对的序列(假设是70bp)会与基因组序列不匹配。所以,我们需要先去除适配子序列(30bp),然后剩下的40bp才能用于正确的比对,得到可靠的结果。

接下来,我们就可以进行去除适配子的计算(通常用工具如cutadapt、Trimmomatic等)。

具体操作:

cutadapt -a AGATCGGAAGAGCACACGTCTGAACTCCAGTC ERR500.R1.fq -m 30 --output=ERR500.cutAd1.fq

去完adapter后序列长度不一样了

去除N(也就是未知碱基):

read里面都可能会出现n的序列,如果这个n达到了5%或者10%的时候我们就要把它去除掉

这里我

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值