参考基因组中的特殊序列

若参考基因组序列不包含chr*random 和 chrUn序列,原来属于chrrandom 和 chrUn的read可能比对到chr1-22,chrX,chrY上相似区域,造成假阳性比对,后续这些reads提供的信息不可靠。通过增加这一部分参考序列,使来自这些区域的reads正确比对,减少假阳性。后续分析不考虑chrrandom 和 chrUn*。

human GRCh37
unlocalized sequences”:知道染色体但不知具体位置的序列
unplaced sequences”:知道来自人类基因组序列,但不知与染色体的关系
alternate loci”:来自基因组特定区域,代表该区域序列的多样性
human hg19…
chr*_random sequences” : 知道来自哪条染色体但不知具体位置的序列

The chr*_random sequences are unplaced sequence on those reference chromosomes.

chrUn_* sequences” : 知道来自人类基因组序列,但不知与染色体的关系

The chrUn_* sequences are unlocalized sequences where the corresponding reference chromosome has not been determined.

高粱super玉米scoffold
基因组组装时部分片段无法挂载到染色体上,因此除了染色体外还有一些片段留在参考基因组当中,有的基因组将这些片段之间加N链接成super序列,也有的直接不处理以scoffold出现
水稻sy和un
Sequences from BACs and the Syngenta assembly of Nipponbare that could not be anchored are on separate pseudomolecules, the Unanchored and the Syngenta chromosomes.

### 如何使用 BWA 进行参考基因组比对 #### 准备工作 为了成功执行基于 BWA 的序列比对,需准备两个主要文件:一个是经过索引处理后的参考基因组 FASTA 文件;另一个则是待比对的读段(read)FASTQ 文件。对于 WGBS 数据而言,由于其特殊性质,在建库过程中会引入一些特有的偏差,因此建议采用专门针对 bisulfite 测序设计的算法来构建索引并完成后续操作[^1]。 #### 安装软件包 确保已安装最新版本的 BWA 和 SAMtools 工具集。可以通过官方 GitHub 页面获取源码编译版或是利用 Conda 环境管理器快速部署环境。 #### 构建参考基因组索引 通过 `bwa index` 命令创建用于比对的索引数据库: ```bash bwa index ref_genome.fa ``` 此命令将会生成一系列与输入 FASTA 文件关联的小型辅助文件,这些文件包含了加速比对过程所需的全部信息。 #### 执行比对流程 一旦完成了上述准备工作,则可以调用 `bwa mem` 或者专门为 Bisulfite 序列优化过的子程序来进行实际的数据匹配作业。考虑到 WGBS 特殊情况下的 C-to-T 转换特性,推荐选用 bwasw 模式配合特定参数设置以提高准确性: ```bash bwa mem -M -t 8 ref_genome.fa sample_R1.fastq.gz sample_R2.fastq.gz | samtools view -bhS - > aligned_reads.bam ``` 这里 `-M` 参数用来标记短片段末端不精确配对的情况,而 `-t` 后面跟的是线程数设定,可以根据计算机硬件条件适当调整。最后一步是将标准输出重定向至 BAM 格式的二进制文件中保存下来以便进一步分析。 #### 结果验证与质量控制 获得初步比对结果之后,应当立即对其进行严格的质量评估。这通常涉及到统计有效映射率、重复比例以及 GC含量分布等多个方面。借助 Picard Tools 中的相关模块或 MultiQC 报告生成功能可简化这一环节的工作量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值