用k-mer分析进行基因组调查:(四)用GenomeScope评估基因组特征

本文介绍了如何使用k-mer分析进行基因组特征评估,重点讲解了GenomeScope工具在二倍体和多倍体物种中的应用。GenomeScope1.0适用于二倍体,而GenomeScope2.0则扩展到多倍体物种,能估算基因组大小、杂合度、重复序列比例和GC含量等。文章提供了软件使用步骤和参数设置建议,并提到了Smudgeplot在评估物种倍性中的作用。

(全文约3500字)

**【推荐】用Smudgeplot评估物种倍性后,用组合jellyfish+GenomeScope1.0做二倍体物种的基因组调查,用组合KMC+GenomeScope2.0做多倍体物种的基因组调查。**

# 1. k-mer进行基因组调查的软件概况
k-mer进行基因组调查分为**k-mer频数统计**和**基因组特征评估**两步。
- GenomeScope可以实现第二步基因组特征评估。
- 需要在jellyfish/KMC等软件的第一步结果k-mer频数分布表的基础上,GenomeScope才可实现。

推荐第一步获取k-mer频数分布表的命令:
1. jellyfish
```
jellyfish count -C -m 21 -s 1000000000 -t 10 *.fastq -o sample.jf #计算k-mer频率,生成sample.jf
jellyfish histo -t 10 sample.jf > sample.histo #生成k-mer频数直方表sample.histo和k-mer直方图
```

2. KMC
```
mkdir tmp
ls *.fastq.gz > FILES
kmc -k21 -t16 -m64 -ci1 -cs10000 @FILES kmcdb tmp #计算k-mer频率
kmc_tools transform kmcdb histogram sample.histo -cx10000 #生成k-mer直方图
```

# 2. GenomeScope概况
- GenomeScope可以利用第一步jellyfish或KMC等其他软件分析得到k-mer频数分布表(sample.histo文件)实现第二步**基因组特征评估**。
- GenomeScope1.0在2017年发表,用于二倍体物种的基因组调查;2020年又发表了GenomeScope 2.0版本,用于多倍体物种的基因组调查,并发布了用于判断物种倍性的Smudgeplot。
- **GenomeScope1.0**的基因组特征结果包括基因组大小(genome size),杂合度(heterozygosity),重复序列比例,GC含量等;
- **GenomeScope2.0**的基因组特征结果包括基因组大小(genome size),杂合度(heterozygosity),重复序列比例,GC含量,基因型比例,和基因组结构(同源/异源多倍体)等。
- GenomeScope有网页版和Linux本地版,功能一样;推荐网页版,免去安装的麻烦。

# 3. GenomeScope1.0 网页版【推荐】—— 适用于二倍体物种
GenomeScope1.0 网页版:http://qb.cshl.edu/genomescope

1. 上传第一步获得的k-mer频数分布表sample.histo文件;
2. 设置参数Kmer length为第一步选择的k-mer长度值,这里是17;
3. 参数Read length为序列读长,一般为150;
4. 参数Max kmer coverage默认是1000。

    建议按照物种情况修改,比如10000,以统计更准确。
    
    这个参数太小,可能造成过滤过多的Kmer,导致估计的基因组大小偏小的情况。
    
    这个参数太大则可能把高拷贝数量的DNA,比如叶绿体DNA,包括进Kmer的统计,造成GenomeScope算法的误差,所以还是不推荐使用-1或太大的值。
5. 提交后几分钟就可以得到结果,保存结果图片可用于发表。

<img src="https://github.com/yanzhongsino/yanzhongsino.github.io/blob/hexo/source/images/omics_genome.survey_GenomeScope1.0.png?raw=true" width=80% ti

<think>嗯,用户想了解如何生成和解读基因组的k-mer分析图。首先,我得回忆一下k-mer分析的基本概念。k-mer是指将基因组序列切成长度为k的短串,用来评估基因组的大小、杂合度、重复序列等特征。好的,生成k-mer分析图通常需要几个步骤:数据准备、k-mer计数、生成直方图,然后用工具分析。 然后,用户可能需要具体的步骤指导。常用的工具有Jellyfish、KMC、GenomeScope等。比如,用Jellyfish进行k-mer计数,然后用GenomeScope来拟合模型,生成图表。需要详细说明每个步骤的命令和参数,比如运行jellyfish count,然后histo生成直方图数据,再用GenomeScope网站上传数据。 接下来是解读部分。k-mer分布图的横轴是k-mer的出现次数,纵轴是频率。主峰对应基因组单拷贝区域,杂合峰可能在主峰右侧,重复序列可能在更高次数。需要解释不同峰的意义,以及如何计算基因组大小,比如用总k-mer数除以深度。 用户可能还关心注意事项,比如k值的选择,数据质量的影响,以及重复序列和杂合度对结果的影响。需要提醒他们质量控制的重要性,以及参数调整的必要性。 最后,生成相关的问题,比如工具选择、参数优化、结果差异的原因,以及应用场景。这些能帮助用户深入理解k-mer分析的不同方面。 还要检查是否引用了提供的资料,但看起来引用部分是关于其他工具的,可能和k-mer分析无关,但用户示例中的引用可能需要在回答中自然加入,比如提到GenomeScope时可以引用相关的文献或工具说明。不过给定的引用[1]、[2]、[3]似乎不直接相关,可能不需要强行引用,或者可以提到相关工具如Jellyfish是否有文献支持,但如果没有的话,可能不需要添加引用标识。根据用户给的示例,引用是在回答中的某些地方添加,比如提到基因组大小计算时,如果有相关引用可以加上,但可能这里不需要,所以可能不需要添加引用标识。</think>### 生成基因组k-mer分析图的步骤及解读 #### **1. 生成k-mer分析图的步骤** **1.1 数据准备** - 输入文件:原始测序数据(一般为FASTQ格式的短读序列) - 工具选择:常用工具包括`Jellyfish`、`KMC`或`GenomeScope` ```bash # 使用Jellyfish进行k-mer计数示例 jellyfish count -m 21 -s 100M -t 16 -C <(zcat reads_1.fastq.gz) <(zcat reads_2.fastq.gz) -o kmer_counts.jf jellyfish histo kmer_counts.jf > kmer_histogram.txt ``` **1.2 生成k-mer频谱图** - 通过`GenomeScope`或`R脚本`绘制直方图: - 将`kmer_histogram.txt`上传至[GenomeScope网站](http://genomescope.org),设置参数后自动生成图表。 - 或使用R语言手动绘制: ```R data <- read.table("kmer_histogram.txt") plot(data$V1, data$V2, type='l', xlab="k-mer frequency", ylab="Number of k-mers") ``` #### **2. 解读k-mer分析图** **2.1 典型k-mer分布特征** - **主峰(单拷贝区域)**:对应k-mer出现频率的峰值,深度为$d$(如$d=50$)。 - **杂合峰**:位于主峰右侧(约$d/2$处),由杂合位点导致的双峰分布。 - **重复序列峰**:出现在更高频率区域(如$2d$或$3d$),对应重复序列的多次覆盖。 **2.2 基因组大小估算** 基因组大小$G$计算公式: $$ G = \frac{\text{总k-mer数} \times k}{\text{主峰深度} \times (k - 1)} $$ 例如,若总k-mer数为$1.2 \times 10^9$,$k=21$,主峰深度$d=50$,则: $$ G \approx \frac{1.2 \times 10^9 \times 21}{50 \times 20} = 2.52 \times 10^8 \text{ bp} $$ **2.3 杂合度与重复序列评估** - **高杂合度**:表现为主峰右侧的明显次峰,可能影响组装连续性。 - **高重复比例**:主峰右侧的长尾分布,需结合组装工具优化参数。 #### **3. 注意事项** - **k值选择**:一般取奇数(如21、31),避免回文序列干扰。 - **数据质量**:低质量数据会导致k-mer分布噪声增加,需先进行质控(如`Trimmomatic`过滤)。 - **模型拟合**:使用`GenomeScope`时需检查拟合曲线与实际数据的匹配度,避免过拟合或欠拟合。 --- ###
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值