线性回归模型的评估、解释与SHAP值应用
1. 线性回归模型的评估与优化
1.1 模型评估指标与p值的应用
在线性回归模型中,我们可以通过计算误差分布来评估模型的性能。以下代码展示了如何计算误差分布,并返回平均绝对百分比误差(MAPE)、均方误差(MSSE)和误差分布:
Error = sns.distplot(Y - Yhat)
return MAPE, MSSE, Error
同时,p值在评估预测变量的统计显著性方面起着重要作用。p值是β系数的概率值,它表示预测变量在模型中的统计显著性。通常,我们将p值阈值设为0.05,即显著性水平为5%。如果某个预测变量的p值小于0.05,则该预测变量具有统计显著性;反之,则不具有显著性。当p值大于0.05时,β系数的值会更接近零。
在模型中,我们可以对结果数据框按照p值降序排序,以便查看每个预测变量的显著性:
resultsDF.sort_values(by='p_value', ascending=False)
对于p值大于0.05的预测变量,我们可以迭代地将其从模型中移除,以优化模型。
1.2 最终模型的构建与评估
在移除高度多重共线性变量和统计上不显著的冗余变量后,模型在训练集和测试集上的准确率仍然保持较高水平。以下是构建和评估最终模型的代码:
y = clean_df['Pri
超级会员免费看
订阅专栏 解锁全文
2938

被折叠的 条评论
为什么被折叠?



