基因研究方法解析与未来展望
1. 中介变量与孟德尔随机化
中介变量在风险因素和疾病之间起到连接作用。最简单的网络构建可通过两步孟德尔随机化实现:
1. 第一步,使用风险因素的遗传工具变量来估计风险因素对中介变量的因果效应。
2. 第二步,使用中介变量的遗传工具变量来估计中介变量对疾病的影响。
此外,孟德尔随机化还可通过在大型多维数据集中测试所有成对关系来完成,识别关联后,在孟德尔随机化的背景下进一步验证因果关系的具体假设。
2. 全基因组关联研究(GWAS)
2.1 基因分型芯片选择
全基因组关联研究(GWAS)利用芯片技术对数十万个常见单核苷酸多态性(SNPs)进行基因分型,然后分析其与疾病或性状的关联。市面上有多种用于人类研究的基因分型芯片:
|芯片类型|特点|
| ---- | ---- |
|通用型|尽可能多地测试SNP,最多可达约500万个|
|编码区专用型|专门测试基因编码区的SNP,编码区约占基因组的2%|
|多样性代表型|测试经过精心挑选的相对少量SNP,以有效代表全球单倍型多样性|
|特定族群型|为特定族群设计,或富集与特定疾病相关基因的SNP|
选择基因分型芯片时,需考虑当前项目目标、与过往或未来研究数据的兼容性以及可用预算。
2.2 质量控制(QC)流程
样本收集和基因分型完成后,需进行全面的质量控制分析,以确保基因分型数据的准确性。QC流程包含七个步骤:
1. 个体和SNP缺失过滤 :排除在大部分受试者和基因型中缺失比例较大(>20%)的SNP和个体,先进行SNP过滤,再进行个体过滤。
2. 性别一致性检查 :检查数据集中记录的个体性别与基于X染色体杂合度/纯合度比率确定的性别是否一致(男性>0.8,女性<0.2)。
3. 小等位基因频率(MAF)过滤 :仅保留MAF高于设定阈值(根据样本大小,>0.05或>0.01)的SNP,低MAF的SNP较罕见,检测SNP - 表型关联的效力不足,且更易出现基因分型错误。
4. 哈迪 - 温伯格平衡(HWE)偏离过滤 :排除偏离哈迪 - 温伯格平衡的标记(病例中P值<1e - 10,对照或定量性状中P值<1e - 6),这通常是基因分型错误的指标,也可能表明进化选择。
5. 杂合度过滤 :排除杂合度率过高或过低(偏离样本杂合度率均值±3个标准差)的个体,这种偏离可能表明样本污染或近亲繁殖。
6. 亲缘关系分析 :计算所有样本对的血缘同一性(IBD,pi - hat >0.2),分析时使用修剪后的独立SNP(选择在近似连锁不平衡(LD)中不相关的标记子集,不考虑SNP的P值),并仅限制在常染色体上。
7. 族群异常值和群体分层分析 :基于身份状态相同(IBS)生成数据中任何子结构的k维表示,研究中存在多个亚群体和不同族群背景的个体可能导致假阳性关联或掩盖真实关联,因为等位基因频率在亚群体之间可能不同。
2.3 统计分析与检验
标准的GWAS测试统计假设分析中的所有样本是无关的,且来自均匀、随机交配的群体。任何偏离此假设的情况都可能导致意外结果,尤其是在大型研究队列中。对每个SNP进行统计假设检验,原假设为与表型无关联。根据测试的性状类型,有多种关联测试方法:
- 连续表型性状 :通常使用线性回归方法进行分析,假设性状呈正态分布,各群体内方差相同,且群体相互独立。常用分析方法包括方差分析(ANOVA)和一般线性模型(GLM)。
- 二元性状 :常用逻辑回归、卡方检验或Fisher精确检验进行分析,逻辑回归还可对其他协变量进行调整。对于基于家庭收集的研究设计,有专门的测试方法。
2.4 统计效力与多重检验校正
在测试大量SNP时,假阳性关联是一个重大风险,因此关联的统计证据必须达到高标准。人类GWAS研究中常用的显著性阈值是P值小于5e - 8,相当于对100万个独立测试进行标准Bonferroni校正。遗传多样性较高的群体,如非洲群体,需要更严格的标准来确定测试结果具有统计学意义。达到这样的显著性水平可能需要非常大的样本量,尤其是对于罕见疾病等位基因和效应大小较小的等位基因。GWAS的统计效力受表型的遗传结构、疾病等位基因的频率和效应大小、表型测量的准确性、表型的同质性以及因果变异与基因分型SNP之间的LD关系等因素影响。结果通常以曼哈顿图展示,以便直观地查看数据与基因组背景的关系。
2.5 群体分层校正方法
- 主成分分析(PCA) :可根据基因组相似性对受试者进行分层,常用于评估GWAS队列中的群体分层情况。通常会对GWAS测试进行主成分调整,以考虑群体结构。
- 混合线性模型(MLM)回归 :如高效混合模型关联加速(EMMAX)和全基因组高效混合模型关联(GEMMA)等方法,通过考虑所有研究受试者之间的成对等位基因共享情况,有效解决人类和农业群体中的群体结构问题。
2.6 荟萃分析
荟萃分析可用于比较不同发表结果或不同群体的研究结果,作为PCA校正或混合模型分析的替代方法。它对现有研究的结果进行分析,而非直接分析原始数据。结果通过森林图可视化,比较个体研究的效应大小和置信区间,以及荟萃分析的汇总效应大小和置信区间。
2.7 GWAS的后续研究与改进方向
成功的GWAS会发现一个或多个与感兴趣性状相关的SNP。研究人员随后可评估每个相关SNP的功能后果,研究与该SNP处于LD的其他变异,研究SNP所在基因的功能,以及该基因参与的生物途径。要全面理解GWAS结果,需要进行大量实验。随着对性状生物学机制的阐明,有可能开发出检测疾病风险的检测方法,或改进疾病治疗和预防方案。GWAS方法需要通过提高统计效力、降低假阴性率以及结合生物学背景来改进。
2.8 多基因风险评分(PRS)分析
单变量关联分析是GWAS的主要方法,但检测每个表型的多个SNP需要非常大的样本量。多基因风险评分(PRS)分析不旨在识别单个SNP,而是将全基因组的遗传风险汇总为单个个体对感兴趣性状的多基因评分。
1. 数据准备 :需要一个大型发现样本,以可靠地确定每个SNP对特定表型多基因评分的贡献(“权重”)。在一个相对较小的独立目标样本中,根据遗传DNA图谱和这些权重计算多基因评分。一般来说,约2000个受试者的目标样本足以检测到显著比例的方差解释。在目标样本达到2000个受试者之前,发现样本和目标样本的受试者数量应相同。如果有更多样本,应将额外的受试者纳入发现样本,以最大限度地提高效应大小估计的准确性。
2. 计算步骤 :从发现GWAS中获取性状特异性权重(连续性状为beta值,二元性状为优势比的对数)。在目标样本中,根据每个个体携带的风险等位基因数量乘以性状特异性权重的加权和计算PRS。对于许多表型,SNP效应大小可在NHGRI - EBI人类全基因组关联研究目录中公开获取。
3. 结果优化 :在计算风险评分之前,通常先对GWAS结果进行聚类(在每个LD块中识别并选择P值最低的最显著SNP进行进一步分析,以减少剩余SNP之间的相关性,同时保留具有最强统计证据的SNP)。通常使用P值阈值去除几乎没有或没有统计关联证据的SNP,仅保留P值<0.5或<0.1的SNP。通常会进行多次PRS分析,使用不同的P值阈值。
虽然PRS不足以在个体水平上预测疾病风险,但已成功显示出在性状内部和跨性状之间的显著关联。
以下是GWAS的主要流程mermaid流程图:
graph LR
A[样本收集与基因分型] --> B[质量控制(QC)]
B --> C[统计分析与检验]
C --> D[群体分层校正]
D --> E[荟萃分析]
B --> F[多基因风险评分(PRS)分析]
C --> F
3. 下一代测序与基因表达
3.1 下一代测序技术概述
下一代测序(NGS),也称为高通量测序,是描述多种现代测序技术的统称。这些技术比以前使用的桑格测序更快、更便宜地对DNA和RNA进行测序,彻底改变了基因组学和分子生物学的研究。NGS数据分析包括一系列步骤,根据应用不同,这些步骤包括质量监测、碱基识别、与参考基因组比对、从头基因组组装和转录本丰度估计等,每个步骤都需要复杂的数学和统计技术。
3.2 测序数据分析流程
测序数据分析从包含DNA序列和每个碱基质量值的文件开始,具体流程如下:
1. 测序过程评估 :通过计算原始读数、图像上的斑点(簇/珠子)以及碱基识别后接受的读数比例(过滤后的读数)来检查测序过程的总体成功率。这些计数可以在碱基识别软件生成的结果文件中查找。过滤后读数数量低可能是由于文库制备或测序过程中的各种问题导致的,只有过滤后的读数才应用于进一步处理。
2. 适配器序列去除 :测序的DNA片段有时被称为“插入片段”,因为它们被测序适配器包裹。如果插入片段比读数长度短,适配器的部分会被测序,例如在小RNA测序中。在这种情况下,需要从读数中去除适配器的测序部分,可通过去除所有作为适配器前缀的读数后缀来实现。
3.3 读数映射与变异检测
许多下一代测序应用需要一个参考序列,将测序的读数与之比对。读数映射是指在参考序列中找到读数匹配且差异最少的位置,这个位置最有可能是测序DNA片段的来源。不同变异类型的检测需要不同的测序格式和分析策略。下一代测序平台获得的读数存在系统性困难,以及平台的可靠性和可重复性问题。基因计数之间的高相关性为重复实验的可靠性提供了有力证据。
3.4 基因表达过程与平台
基因表达是将DNA转化为功能性产物(如蛋白质)的过程,包括转录和翻译两个关键步骤。转录是将基因中的DNA复制产生称为信使RNA(mRNA)的RNA转录本;翻译发生在mRNA将转录的“信息”从DNA携带到细胞中称为核糖体的蛋白质制造工厂之后。基因表达谱分析主要有两种平台:微阵列和转录本直接测序(RNA - seq),其中RNA - seq是主流平台。RNA - seq使用下一代高通量测序平台对RNA转录本进行测序,生成数百万条短的原始序列读数,然后通常需要与参考序列进行比对和组装。
3.5 表达研究的预处理与质量控制
在表达研究中,预处理和质量控制至关重要。质量控制的关键目标是识别低质量的样本并将其从进一步分析中移除。预处理的目的是从数据中去除技术噪声。对于RNA - seq,目标是去除质量差的读数或读数部分(存在测序错误的读数)以及不属于样本的序列(适配器和条形码)。
3.6 基因表达研究的主要内容
基因表达研究的主要焦点是识别与性状(或条件)差异相关的基因(或至少是基因表达信号),具体包括以下方面:
- 病例对照比较 :比较正常人和疾病患者(如CVT患者)之间的基因表达水平,试图识别在两者之间差异表达的基因。
- 组织特异性表达 :评估生物体不同组织的基因表达水平,了解哪些基因在哪些组织中表达。
- 群体变异性研究 :研究群体变异性,测试新药对基因表达水平的影响,对比抗性和敏感个体以识别赋予抗性(或敏感性)的基因,测试环境应激源暴露对基因表达水平的影响以及基因表达随时间的变化(时间进程分析)等。在畜牧业中,全球基因表达分析已用于寻找与疾病抗性、大理石纹、肉产量、饲料摄入量等许多性状相关的基因。
3.7 RNA - seq与微阵列技术对比
RNA - seq是对整个转录组进行下一代测序的方法,可以测量多种特征的表达,如基因表达、等位基因表达和基因内表达。使用该技术时,映射到给定基因或转录本的读数数量被视为该特征表达水平的估计值。自20世纪90年代以来,微阵列技术一直是测量基因表达的首选方法。与微阵列相比,RNA - seq具有更宽的信号检测范围,可在单碱基分辨率下评估,更适合发现新的转录本。RNA - seq实验的最终产物是一系列读数计数,通常表示为一个矩阵,其中行代表基因,列代表来自一个或多个群体的样本。当从两个或多个群体生成RNA - seq数据时,通常关注的是检测群体间差异表达的基因,即读数计数分布在群体间不同的基因。差异表达测试通过似然比检验(LRT)或最大似然估计(MLE)的t检验得出。
3.8 RNA - seq差异表达检测的挑战与解决方法
RNA - seq数据中差异表达检测的挑战源于读数映射到基因、转录本或外显子等特征的方式。其中一个问题是,使用RNA - seq数据从短读数进行的表达定量取决于特征的长度,较长的特征通常会产生更多的读数。通过除以转录本长度进行归一化可以在一定程度上缓解这个问题,但不能完全解决。表达值通常称为每百万读数每千碱基的读数(RPKM)。使用limma方法的经验贝叶斯程序进行差异RNA - seq分析时,使用每百万计数的对数(log - cpm),类似于微阵列研究中的对数强度值。
差异表达分析还受NGS数据生成的测序深度影响。测序深度可以计算为N × L / G,其中N是读数数量,L是平均读数长度,G是原始基因组的长度,这也相当于基因组被读数覆盖的百分比和每个碱基被读取的平均次数。更高的覆盖度可以提高使用RNA - seq数据识别差异表达的能力。然而,读数计数会受到技术变异的影响,即同一样本在重复NGS实验中的总读数计数(称为文库大小)可能会有很大差异。为了适应这种变异来源,需要通过考虑RNA - seq数据中通常观察到的均值 - 方差趋势来调整log - cpm值,特别是对于计数较低的基因。为了避免对零取对数,会给零计数增加一个小的正值,以确保log - cpm非缺失并降低低计数时的变异性。
3.9 NGS数据分析流程mermaid流程图
graph LR
A[测序数据文件] --> B[测序过程评估]
B --> C[适配器序列去除]
C --> D[读数映射]
D --> E[变异检测]
C --> F[转录本丰度估计]
F --> G[差异表达分析]
4. 药物遗传学的未来
药物遗传学是研究人们基于其基因序列或基因对药物治疗反应不同的学科。饮食、整体健康和环境也对药物反应有显著影响,但没有比遗传学更强的药物代谢指示因素。个人基因型信息越来越多地直接提供给消费者,这可能会增加对个性化处方的需求,意味着开处方者需要考虑药物遗传学信息。像“100,000 Genomes”(英国政府项目,对国民健康服务患者的全基因组进行测序,该项目于2013年启动,2018年完成,专注于罕见疾病、一些常见类型的癌症和传染病)这样的项目正在提供完整的基因组序列,这些序列可以成为患者医疗记录的一部分,这些信息在个性化处方中将具有巨大价值。
综上所述,基因研究在多个领域取得了显著进展,但仍面临诸多挑战和需要改进的地方。随着技术的不断发展和研究的深入,我们有望在基因研究的基础上开发出更有效的疾病诊断、治疗和预防方法,为人类健康带来更多福祉。
超级会员免费看

1676

被折叠的 条评论
为什么被折叠?



