《应用预测建模》Applied Predictive Modeling (2013) by Max Kuhn and Kjell Johnson,林荟等译
第四章 过度拟合与模型调优
4.3 偏最小二乘法( 6. 3 节)可以对1. 4 节中化工生产过程的产量进行建模。相关数据包含在AppliedPredictiveModeling软件包中,载入入数据的代码如下:
> library(AppliedPredictiveModeling)
> data(ChemicalManufacturingProcess)
分析的目的是找到能使得R^2达到最优的PLS 成分数(5. 1节)。使用重复10 折交叉验证评价了含有1到10 个成分的PLS 模型,相应的结果见如下表格:

( a )根据“一倍标准差”法,多少个PLS 成分能给出最简洁的模型?
( b )对于这个例子计算容忍度取值。如果R^2下降10% 是可以接受的,那么最佳的PLS成分数是多少?
( c )其他一些复杂度不同的模型(在本书第二部分讨论)经过训练和调优后最终结果见图4-13 。如果目的是选择使得R^2达到最优的模型,那么应该选哪个模型?为什么?

图4-13 估计的模型表现(横轴)和预测500 000 个新佯本点所需的时间(纵轴),这里使用的是化工生产的数据
( d )计算时间和模型复杂度(4.8节)是在选择模型时还要考虑的因素。给定每个模型的预测时间、

本文探讨了偏最小二乘法(PLS)在化工生产过程产量预测中的应用,通过一倍标准差法确定最简洁的模型,并计算容忍度取值以平衡模型复杂度与性能。对比多种模型,如随机森林和SVM,综合考虑R^2、预测时间和模型复杂度,选择了最佳模型。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



