生信技能56 - 去除重复BAM文件的窗口reads计数方法

1. 输入去除重复的BAM文件

一般采用BWA MEM比对到参考基因组,对得到的BAM文件去除PCR重复,将去除重复的BAM文件作为窗口reads计数的输入文件。

去除重复方法参考本人文章:
生信软件23 - Samtools和GATK去除PCR重复方法汇总

2. 窗口文件制作

左到右列分别为: 染色体名称、窗口编号、窗口开始位置、窗口结束位置、 是否进行reads计数(1表示否,0表示是)

对着丝粒、端粒和高度重复区域需设置将reads计数设置为1,即不对该窗口reads进行计数。

一般将窗口划分为1000kb 、 200kb、 100kb 和 20kb。

窗口划分参考本人文章:
生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

以下为100kb窗口文件。

### lncRNA-seq 数据分析方法、工具及流程 #### 方法概述 lncRNA(长链非编码RNA)是一类长度超过200个核苷酸的非编码RNA分子,具有重要的调控功能。lncRNA-seq数据分析通常涉及多个阶段,包括质量控制、序列比对、表达定量、差异表达分析和功能注释等[^1]。 #### 主要工具 以下是常用的lncRNA-seq数据分析工具及其用途: 1. **FastQC**: 用于评估原始测序数据的质量。 2. **Trimmomatic 或 Cutadapt**: 对低质量碱基或接头污染进行修剪处理。 3. **STAR 或 HISAT2**: 高效的比对工具,支持短读长和长读长RNA-seq数据的映射到参考基因组上[^2]。 4. **StringTie 或 Cufflinks**: 进行转录本组装并估计基因和转录本水平上的表达量。 5. **Salmon**: 基于k-mer计数的快速表达量化工具,适用于准映射(quasi-mapping)。 6. **DESeq2 或 edgeR**: 实施差异表达分析的核心包,基于负二项分布模型检测显著变化的lncRNA。 7. **LNCipedia 或 NONCODE**: 提供已知lncRNA注释息的数据库资源。 8. **GO enrichment 和 KEGG pathway analysis**: 使用clusterProfiler R包执行功能富集分析,探索潜在物学意义。 #### 分析流程 完整的lncRNA-seq数据分析流程如下所示: 1. **质控与预处理** - 利用FastQC检查raw reads的整体质量状况; - 应用Trimmomatic去除适配器残留及不合格reads。 2. **比对至参考基因组** - STAR或者HISAT2将cleaned reads定位到目标物种的标准基因组序列之上; 3. **新转录本发现与重构** - StringTie依据比对结果重建可能存在的未知isoforms,并成gtf文件表示预测得到的新结构单元; 4. **表达值计算** - Salmon提供了一种无需显式比对即可高效估算FPKM/TPM数值的方式; 5. **统计检验寻找不同条件下特异性改变的目标** - DESeq2通过比较两组样本间的均值方差关系找出有意义的变化趋势; 6. **下游解读环节** - 结合外部知识库如LNCipedia验证候选对象身份属性, - 并借助手段推测其参与的具体号通路机制等等[^3]^. ```bash # 示例脚本:基本的数据处理命令片段 fastqc input.fastq.gz -o output_directory/ trimmomatic SE -phred33 input_trimmed.fq ILLUMINACLIP:adapters.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 star --runThreadN 8 --genomeDir /path/to/genome/index --readFilesIn trimmed_reads.fq --outFileNamePrefix ./aligned_ stringtie aligned.bam -p 8 -G reference.gtf -o assembled_transcripts.gtf salmon quant -i transcripts_index -l A -r reads.fq -o salmon_output ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值