利用机器学习和深度学习分析小麦基因组选择方法
1. 引言
1.1 基因组选择
随着全球人口预计到2050年将超过90亿,植物育种对于确保稳定的粮食供应至关重要。基因组选择(GS)作为植物育种计划中日益重要的组成部分,利用分布在整个基因组中的遗传标记,关联所有包含至少一个标记的数量性状位点(QTL)的平衡,旨在捕捉影响性状变异的所有QTL所产生的总体加性遗传变异。
GS可以预测未观察群体的性状,通过观察和理解已观察群体的性状。然而,由于群体结构导致的标记与QTL之间的误导性联系,可能会产生连锁不平衡(LD),从而夸大基因组遗传力并导致GS预测准确性出现偏差。
GS已成为许多动植物育种计划中普遍采用的方法,主要是因为基因分型成本的降低,缩短了育种周期。GS在农业领域具有巨大潜力,可作为农业方法或计划的重要催化剂,改善植物育种。实施GS的方法包括单核苷酸多态性(SNP)和基因分型测序。每个用于GS的属性都有独特的遗传力值,反映了独特的遗传组成和环境影响。
1.2 机器学习和深度学习
- 机器学习(ML) :是一种让计算机通过获取有用经验变得更智能的方法。它涵盖了各种使计算机具备学习能力的技术,学习是指在数据中发现统计模式的行为。ML算法包括监督学习、无监督学习、半监督学习、 transduction和强化学习。
- 深度学习(DL) :是ML的一个子集,负责教会计算机以人类自然的方式理解和学习,即理解一个示例并应用它。DL通过神经网络(NN)尝试重现人类大脑,NN可分为人工神经网络(ANN)、循环神经网络(RNN)和卷积神经网络(CNN)。
2. 多性状和单性状GS
- 多性状GS(MT - GS)模型 :假设收集的数据输出具有一定结构,利用相关特征之间的共享遗传信息,使用同一组预测因子同时预测多个性状。
- 单性状GS(UT - GS)模型 :主要用于预测单一性状,是植物育种中测试的大多数GS模型。在预测准确性方面,MT - GS模型由于群体(训练)内和属性之间的关联,比UT - GS模型更具优势。育种者最近开始采用MT - GS模型,因为需要同时预测多个特征,且其组合可能提高预测准确性。
3. GS与MAS和PS的比较
| 选择方法 | 定义 | 与GS比较 |
|---|---|---|
| 标记辅助选择(MAS) | 根据与感兴趣特征相关的标记而非实际特征来选择 | GS预测准确性比MAS高28%,在预测小麦抗镰刀菌穗腐病时,GS模型的相关系数在0.4 - 0.9之间,而MAS的r值小于0.3。在开发高产且具有成株抗性(APR)的小麦品种时,考虑到性状的复杂性,MAS实施困难。GS能捕捉更多小麦品质特征的遗传变异 |
| 表型选择(PS) | 当一个群体产生的存活后代比具有不同特征的群体更多时的选择方式 | GS预测准确性比PS高95%。在预测小麦品质的九个特征时,GS和MAS的准确性低于PS,但GS的平均准确性是MAS的1.4倍。在预测小麦杂交种的七个品质标准时,GS大大超过MAS,在训练群体(TP)和验证群体(VP)相关性增加的情况下,结果与PS相当。在品质相关加工和最终用途方面,GS的遗传增益是PS的1.4 - 2.7倍 |
4. 小麦育种计划中的GS
国际玉米小麦改良中心(CIMMYT)预测,由于人口快速增长和饮食变化,到2050年,小麦及其产品的需求可能至少增长50%。同时,人们也关注小麦的品质属性。
高通量基因分型产生大量标记数据用于GS。当预测变量(标记)远多于观测值时,会存在无限数量的标记效应估计值。为解决高维数据问题,开发了许多非参数和参数模型。这些预测模型的主要分歧在于标记效应的分布假设,特别是标记效应对总体方差的贡献假设。
以下是一些常见的GS模型:
-
基因组最佳线性无偏预测(GBLUP)
:假设所有标记对感兴趣的性状同等负责,使用基因组估计的关联矩阵,所有标记具有相似的变异。
-
岭回归最佳线性无偏预测器(rrBLUP)
:允许标记之间存在差异效应,但假设所有标记共享方差。所有标记效应均匀地向零收缩,可能导致具有显著效应的位点过度收缩。
-
贝叶斯模型(BayesA、BayesB、BayesC和BayesCpi)
:通过为标记效应分配多种分布形式,具有更合理的标记效应假设。
-
LASSO和贝叶斯LASSO(BL)模型
:使用变量选择和收缩程序,BL还额外应用了先前呈指数分布的标记方差。
-
贝叶斯岭回归(BRR)
:与rrBLUP类似,使用先验高斯分布对标记效应进行建模,同时将标记效应均匀地向零收缩。
-
弹性网络(EN)
:使用LASSO和岭回归两种惩罚方法,平均高度相关的标记并利用平均基因进行模型构建。
-
随机森林(RF)和支持向量机(SVM)
:属于非参数模型,能够识别标记之间的相互作用。
-
再生核希尔伯特空间回归(RKHS)
:可以考虑非加性效应。
5. 影响小麦育种计划中GS的因素
影响GS准确性的三个关键变量是群体结构、TP大小和标记密度。大多数小麦GS研究人员认为,谷物产量和抗病性是有效小麦种植的重要特征。
- TP大小 :较大的TP可以减少偏差和标记效应的变异,从而提高预测准确性。为了实现小麦品质参数的满意GS预测准确性,TP的大小(由TP和VP之间的遗传亲和程度决定)需要更小。
- 标记密度 :在达到平台期之前,预测准确性随标记密度的增加而提高;之后,标记密度的进一步增加对准确性没有影响。当TP和VP之间的相关性增加时,增加标记密度的响应会降低。
6. GS模型
6.1 GBLUP
GBLUP即基因组最佳线性无偏预测,利用各种基因组之间的关系来估计个体的遗传价值。它使用由遗传标记信息形成的矩阵来识别个体之间的协方差,从而获得更准确的预测。这是一个典型的加性遗传影响模型,需要估计方差分量并求解混合模型方程。
6.2 随机森林
随机森林(RF)是一种树预测器的组合,森林中的每棵树基于随机向量的值独立且均匀分布地选择。由于每棵树可以在不同的单元或节点上计算,且相互独立,RF所需的计算能力较少。通过自助采样选择特征作为树节点分裂的预测器,以降低最终预测的损失函数。
6.3 惩罚回归模型
岭回归的最佳线性无偏预测器是植物育种中最常用的GS模型之一。使用rrBLUP模型计算全基因组标记效应,通过R包“rrBLUP”中的混合解决方案函数估计基因组估计育种值(GEBVs)。惩罚回归中的估计是作为平衡模型复杂性和模型对训练数据拟合质量的优化问题的答案获得的。
6.4 贝叶斯模型
UT - GS和MT - GS模型考虑多种先验分布,使用贝叶斯Lasso、Bayes A、Bayes B和Bayes Cpi。这些模型考虑不同的先验分布,即考虑估计值(此处为相关表型)的后验概率,可用于建模整个加性方差并预测育种值。
6.5 支持向量机
支持向量机(SVM)通过利用表型和标记基因型之间的关联,将输入空间转换为高维特征空间。SVM在模型拟合方面具有灵活性,允许一定程度的可接受模型误差,同时拟合最佳回归线。通过多输出回归包装器将输入提供给嵌入式单输出SVM回归器,对于多变量模型,将各种SVM回归器的预测结果连接起来。
6.6 卷积神经网络
CNN特别擅长捕捉输入的空间和时间链接,是完成视觉识别任务的强大工具。其有效性部分归因于拟合过程中由于较小的输入和参数共享,减少了需要估计的参数数量。CNN使用卷积层,通常结合卷积、非线性变换和池化三种技术。CNN可以处理相互关联的输入,如相邻SNP标记之间的连锁不平衡。
6.7 多层感知器
多层感知器(MLP)是一种高度连接的前馈神经网络,通常不假设输入特征具有特定结构。在GS中,训练集中预定义数量的SNP标记对应于输入层中的每个神经元。由于不对输入和输出的联合分布做假设,MLP通常具有灵活性。通过非线性变换,从训练数据集中导出输入和输出层神经元的权重系数。在GS模型中,输出层神经元的数量与响应变量的数量相同。
以下是不同GS模型的比较表格:
|参考文献|模型|因素(响应变量)|基因分型|UT/MT|群体类型和大小|性能指标|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|[34]|GBLUP、RF、贝叶斯模型、SVM、CNN、MLP|谷物蛋白质含量(%)和谷物产量|Illumina 90 K SNP和GBS,得到635个重组自交系(RIL)|两者|650个来自春小麦嵌套关联作图的RIL|皮尔逊相关系数|
|[35]|惩罚回归模型、MLP、CNN|谷物产量、谷物蛋白质含量、抽穗日期、株高、容重|Illumina 90 K SNP阵列和GBS|MT|650个来自春小麦嵌套关联作图的RIL|皮尔逊相关系数|
|[30]|贝叶斯岭回归、普通最小二乘回归、岭回归、LASSO回归、弹性网络、MLP|到幼显微镜的时间、穗粒数| - |MT|797个标记和324个样本|相关系数|
|[36]|MLP、BRR、岭回归、RF、弹性网络|小麦谷物产量| - |两者|F5双亲亲本群体和两个双单倍体双亲亲本群体|皮尔逊相关系数|
|[13]|贝叶斯Lasso、RF、再生核希尔伯特空间、岭回归|抗锈病| - |UT|12个锈病数据集|皮尔逊相关系数|
7. 机器学习和深度学习在小麦GS中的潜力
结果表明,在育种计划中使用DL模型可以略微提高预测准确性,即使是小的改进也可能提高育种计划选择的效率。DL模型相对于线性rrBLUP模型预测准确性的提高,归因于使用了如relu和tanh等非线性激活函数,描述了非线性连接。
- 随机森林 :在各种环境下预测谷物产量具有较高的准确性。
- CNN :与传统的GBLUP方法相比,在准确性方面表现出色,其皮尔逊相关系数为0.742,而GBLUP为0.731。CNN的主要优势是能够减少模型训练所需的估计超参数数量。
- MLP :对于所有五个品质特征,平均预测准确性更高。与rrBLUP相比,预测准确性提高了3 - 5%。通过增加隐藏层数量和减少神经元数量,MLP能够更有效地表示响应和SNP标记之间的复杂依赖关系。在预测容重、株高和抽穗天数方面,MLP和CNN表现相当。
对于高度定量的特征,如谷物产量和谷物蛋白质含量,需要更复杂的DL网络,因为它们比其他三个变量需要更多的隐藏层。DL短数据集的主要问题是过拟合,即模型无法识别数据中的广泛模式。DL模型的预测准确性取决于特征,并随着更多预测器(标记)的加入而增加。尽管DL模型训练计算量大且困难,但基于DL的技术在提高春小麦复杂特征预测准确性方面是实用且令人鼓舞的。
总的来说,将机器学习和深度学习技术应用于小麦基因组选择,为提高小麦育种效率和品质提供了新的途径。不同的模型在不同的特征预测上各有优势,育种者可以根据具体需求选择合适的模型。未来,随着技术的不断发展和数据的不断积累,GS的准确性和效率有望进一步提高。
7. 机器学习和深度学习在小麦GS中的潜力(续)
7.1 各模型性能对比分析
我们可以进一步通过以下表格来详细对比不同模型在小麦GS中的性能:
|模型|预测特征|相对优势|相对劣势|
| ---- | ---- | ---- | ---- |
|随机森林|谷物产量|在各种环境下预测准确性高,计算能力需求少| - |
|CNN|综合表现|与GBLUP相比准确性更高,能减少模型训练所需估计超参数数量| - |
|MLP|多品质特征|平均预测准确性高,能有效表示复杂依赖关系| - |
|GBLUP|常规性状|假设简单,使用基因组估计关联矩阵|可能无法充分体现标记间差异|
|rrBLUP| - |允许标记间差异效应|可能导致显著效应位点过度收缩|
|贝叶斯模型| - |标记效应假设更合理| - |
|SVM| - |模型拟合灵活| - |
从这个表格可以清晰地看到每个模型的特点,育种者可以根据自己的需求和实际情况进行选择。例如,如果关注谷物产量且希望在不同环境下都有较好的预测,随机森林是一个不错的选择;而如果追求更高的综合准确性,CNN可能更合适。
7.2 模型选择的决策流程
为了帮助育种者更科学地选择模型,我们可以构建一个决策流程图:
graph LR
A[确定预测特征] --> B{特征类型}
B -->|高度定量特征| C[考虑复杂DL网络如MLP、CNN]
B -->|常规性状| D{对标记效应假设要求}
D -->|要求合理假设| E[选择贝叶斯模型]
D -->|可接受简单假设| F{对计算资源要求}
F -->|计算资源有限| G[选择随机森林]
F -->|计算资源充足| H{对模型灵活性要求}
H -->|要求高灵活性| I[SVM]
H -->|一般灵活性| J{是否关注标记间差异}
J -->|是| K[rrBLUP]
J -->|否| L[GBLUP]
这个流程图展示了一个从确定预测特征开始,逐步根据不同条件筛选合适模型的过程。育种者可以根据自己的实际情况,按照这个流程来选择最适合的模型。
7.3 未来发展趋势
随着技术的不断进步,机器学习和深度学习在小麦GS中的应用有望得到进一步拓展。以下是一些可能的发展趋势:
-
数据融合
:将更多类型的数据,如环境数据、表型数据等与基因组数据融合,以提高预测的准确性。例如,结合气象数据和土壤数据,更好地预测小麦在不同环境下的产量和品质。
-
模型优化
:不断改进现有的模型,开发更高效、更准确的算法。例如,对深度学习模型进行结构优化,减少过拟合问题。
-
自动化决策
:利用人工智能技术实现育种决策的自动化,提高育种效率。例如,根据模型预测结果自动选择最优的育种方案。
8. 总结
本文详细介绍了利用机器学习和深度学习分析小麦基因组选择方法的相关内容。
-
基因组选择基础
:基因组选择在植物育种中具有重要作用,能够缩短育种周期,提高遗传增益。它通过遗传标记关联QTL,捕捉加性遗传变异,但可能受到群体结构导致的连锁不平衡影响。
-
不同选择方法比较
:GS与MAS和PS相比,在预测准确性上具有明显优势,能够捕捉更多小麦品质特征的遗传变异。
-
GS模型种类
:介绍了多种GS模型,包括GBLUP、随机森林、惩罚回归模型、贝叶斯模型、SVM、CNN和MLP等。这些模型各有特点,适用于不同的情况。
-
影响因素
:群体结构、TP大小和标记密度是影响GS准确性的关键因素。
-
机器学习和深度学习潜力
:DL模型在提高预测准确性方面具有潜力,不同模型在不同特征预测上表现各异。
在实际应用中,育种者可以根据具体需求,参考不同模型的特点和性能,结合决策流程图,选择合适的模型进行小麦基因组选择。同时,关注未来的发展趋势,不断探索和应用新的技术和方法,以提高小麦育种的效率和品质。
以下是对各GS模型的总结表格:
|模型名称|模型特点|适用情况|
| ---- | ---- | ---- |
|GBLUP|假设所有标记对性状同等负责,使用基因组估计关联矩阵|常规性状预测,对标记间差异要求不高|
|随机森林|计算能力需求少,预测谷物产量准确性高|关注谷物产量,计算资源有限|
|惩罚回归模型(rrBLUP等)|允许标记间差异效应,但存在收缩问题|需要考虑标记间差异|
|贝叶斯模型|标记效应假设更合理|对标记效应假设要求较高|
|SVM|模型拟合灵活|需要高灵活性的模型拟合|
|CNN|准确性高,能减少超参数估计|追求高综合准确性|
|MLP|平均预测准确性高,能表示复杂依赖关系|多品质特征预测|
通过这些总结和分析,希望能够为小麦育种工作者提供有价值的参考,推动小麦育种事业的发展。
机器学习助力小麦基因组选择
超级会员免费看
9547

被折叠的 条评论
为什么被折叠?



