全基因组重测序

全基因组重测序

概述

全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。SBC将不同梯度插入片段(Insert-Size)的测序文库结合短序列(Short-Reads)、双末端(Paired-End)进行测序,帮助客户在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异,实现遗传进化分析及重要性状候选基因预测。

技术路线

提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DN段(0.2~5Kb),加上接头, 进行cluster制备 (Solexa)或E-PCR (SOLiD),最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。下图以Solexa为例,说明整个实验方案。

双末端(Paired-End)测序原理(from www. Illumina.com)

测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。

测序深度对基因组覆盖度和测序错误率的影响
(HOM:纯合体 HET:杂合体)


全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性(SNP),插入缺失(InDel,Insertion/Deletion)和结构变异(SV,Structure Variation)位点。SBC可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异, 同时完成SNP及基因组结构注释。


全基因组重测序生物信息学分析流程



1.数据量产出
总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。

2.一致性序列组装
与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布
提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

4.InDel检测及在基因组的分布
在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。

5.Structure Variation检测及在基因组中的分布
目前SBC能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

全基因组重测序案例研究

DNA突变可诱发癌症。吸烟过程中所释放的>60种致癌化学物质可与DNA结合并对DNA链上的鸟嘌呤和腺嘌呤进行化学修饰从而产生大的加合物,该加合物改变了DNA双螺旋的结构,如果不被核苷酸剪切修复或其他的途径进行纠正,那么DNA在复制时就会按照non-Watson-Crick方式进行复制并阻止RNA聚合酶进行转录,从而引发癌症。Erin D. Pleasance等[5]近日在Nature杂志上发表文章,他们用第二代测序技术(AB SOLiD)对一个小细胞肺癌(Small-cell lung cancer, SCLC)细胞系NCI-H209基因组进行测序,以探讨烟气中的致癌物质引发了该细胞系基因组中哪些特定碱基及其周围序列的突变及细胞损伤修复路径。

测序基本数据:测序片段长度为25bp;Mate-Pair测序;产生的数据量:112Gb、39×覆盖度(NCI-H209细胞系),90Gb、31×覆盖度(正常细胞系,reference genome)。


研究结果如下:

①NCI-H209细胞系基因组中,共检测到22,910个碱基替换、65个插入缺失(Indels)、58个结构变异;在基因组的编码区,除了发现RB1 和TP53基因发生点突变和MLL2基因由于发生了G>T的颠换,从而产生了pre-stop codon外,有94个点突变直接改变了氨基酸序列,有36个属同义突变。

②特定的碱基及其周围序列易被烟气中的多环芳烃和丙烯醛诱变。在NCI-H209细胞系基因组中,G>T/C>A是最为普遍的颠换现象,发生频率为34%;其次是G>A/C>T(21%)和A>G/T>C(19%);CpG岛外的CpG二核苷酸多发生G>T颠换,而CpG岛内的CpG二核苷酸多发生G>C颠换,说明烟气中的致癌物偏好引起甲基化的CpG二核苷酸发生颠换(图1-5)。

③检测到转录偶联修复(Transcription-coupled repair)和表达相关的修复(Expression-linked repair)在起作用。

转录偶联修复作用机制:鸟嘌呤和腺嘌呤上大的加合物是吸烟过程中所释放的致癌化学物质引起DNA损伤的主要形式,这些大的加合物阻止了转录链上RNA聚合酶的转录过程,而转录受阻的RNA聚合酶招募核苷酸剪切修复相关因子对受损的核苷酸进行修复以避免突变发生。在TP53基因突变的肺癌细胞中,G>T颠换常出现在非转录链,表明在转录链上相同的损伤已被识别和修复。在本研究中,转录链上G和A碱基替换频率比非转录链上少,由此看来嘌呤是烟气致癌物质主要诱变靶标。另外,在NCI-H209细胞系中,转录链和非转录链上发生不同类型的突变(G>T、A>G、A>T)两条链基因表达水平也有差异,这就意味着转录偶联修复机制识别、修复不同加合物损伤的能力不同。
表达相关的修复(Expression-linked repair)作用机制:这是一种新的、更为普遍的修复机制,即,高表达的基因中,转录链及非转录链的突变频率都较低。在NCI-H209细胞系中,转录链和非转录链上发生G>A的突变,两条链上基因表达水平都很高,这就说明表达相关的修复作用比转录偶联修复作用更为重要。

④在SCLC细胞系中,CHD7基因发生了重排。在NCI-H209细胞系中,CHD7基因3~8外显子发生连续重复,而另外2个LU-135、NCI-H2171细胞系则携带PVT1-CHD7融合基因,说明在肺癌中CHD7基因发生了周期性重排(图1-6)。
以上结果表明,第二代测序技术已成为研究与癌症相关的基因突变过程、细胞损伤修复路径、基因调控网络的强有力工具。


<think> 我们正在讨论全基因组重测序解读的含义。根据引用[1]和引用[2],全基因组重测序(Whole Genome Resequencing, WGS)是指对已知参考基因组的物种个体进行全基因组测序,通过比对参考基因组识别变异,进而进行群体遗传学分析、功能基因挖掘等研究。 全基因组重测序解读的核心在于对测序数据的分析和生物学意义的阐释,主要包括以下步骤: 1. **变异检测**:识别个体基因组相对于参考基因组的变异,包括: - 单核苷酸变异(SNV) - 插入缺失(Indel) - 结构变异(SV),如拷贝数变异(CNV)、倒位、易位等 - 杂合性缺失(LOH)等[^2] 2. **功能注释**:对检测到的变异进行功能预测,包括: - 基因编码区变异(如错义突变、无义突变) - 调控区域变异(如启动子、增强子) - 非编码RNA区域变异 - 变异有害性预测(如SIFT, PolyPhen-2评分) 3. **群体遗传学分析**:结合群体数据,分析变异的群体特征,例如: - 等位基因频率(Allele Frequency) - 群体分化指数($F_{ST}$) - 选择清除信号(如Tajima's D) - 连锁不平衡(LD)分析[^1] 4. **表型关联**:将变异表型或疾病关联,例如: - 全基因组关联分析(GWAS) - 癌症体细胞突变驱动基因筛选 - 数量性状位点(QTL)定位 5. **进化驯化研究**:通过比较不同群体(如野生种栽培种)的变异模式,揭示: - 人工选择区域 - 基因渗入事件 - 适应性进化机制[^1] ### 技术流程示例 ```mermaid graph LR A[原始测序数据] --> B(质量控制) B --> C[比对参考基因组] C --> D[变异检测] D --> E[变异注释] E --> F[群体遗传分析] F --> G[功能验证] ``` ### 应用场景 - **医学研究**:癌症基因组变异解读(如TCGA项目)[^2] - **作物育种**:筛选控制产量、抗逆性的关键基因[^1] - **濒危物种保护**:评估群体遗传多样性 全基因组重测序解读最终服务于理解遗传变异如何影响表型,为精准医疗、分子育种等提供理论依据[^1][^2]。 §§相关问题§§ 1. 全基因组重测序中如何提高变异检测的准确性? 2. 群体遗传学参数(如$F_{ST}$)在全基因组重测序分析中如何计算和应用? 3. 如何利用重测序数据解析复杂性状的遗传机制? </think> ### 全基因组重测序解读的含义 全基因组重测序解读是指通过对个体或群体进行全基因组测序,将原始测序数据转化为生物学意义的遗传变异信息,并分析表型、进化或疾病关联的过程[^1]。其核心含义包含以下层次: #### 1. **数据基础层** - **技术原理**:基于高通量测序技术(如Illumina平台),对已知参考基因组的物种进行深度测序(通常30×以上覆盖度)[^3]。 - **原始数据**:获得FASTQ格式的原始序列文件,包含读数(reads)及其质量评分(Phred score)。 #### 2. **生物信息分析层** | 分析步骤 | 关键内容 | 输出类型 | |-------------------|--------------------------------------------------------------------------|-------------------| | **变异检测** | 识别SNP(单核苷酸多态性)、Indel(插入缺失)、CNV(拷贝数变异)等[^2] | VCF文件 | | **功能注释** | 预测变异对基因功能的影响(如错义突变、终止增益)及调控区域 | ANNOVAR注释结果 | | **群体遗传分析** | 计算等位基因频率($f$)、连锁不平衡($r^2$)、选择清除信号(如$Tajima's D$) | 群体统计参数[^1] | #### 3. **生物学解读层** - **表型关联**:挖掘疾病、经济性状相关的候选基因(例如癌症驱动基因[^2]) - **进化机制**:通过重组率($\rho$)、群体分化指数($F_{ST}$)等推断自然选择或人工驯化历史[^1] - **应用场景**: - 医学:癌症基因组突变治疗靶点关联 - 农业:作物驯化基因定位(如水稻粒重基因GW5) #### 4. **技术支撑工具** ```bash # 典型分析流程示例 bwa mem ref.fa read1.fq read2.fq > aligned.sam # 序列比对 gatk HaplotypeCaller -I aligned.bam -O variants.vcf # 变异检测 ``` ### 核心价值 全基因组重测序解读将海量序列数据转化为可操作的生物学知识,是精准医学、分子育种和进化研究的基石[^1][^2]。其最终目标是通过遗传变异解析生命过程的调控机制。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值