19、数据模型诊断与异常值处理：从货币到儿童词汇的分析洞察

stem5

于 2025-09-16 10:57:33 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：从线性模型到机器学习文章标签：数据模型诊断异常值处理部分残差图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/stem5/article/details/152404144

从线性模型到机器学习专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据模型诊断与异常值处理：从货币到儿童词汇的分析洞察

在数据分析和建模过程中，对模型进行诊断以及处理异常值是至关重要的步骤。这不仅有助于我们理解数据的特征和变量之间的关系，还能提高模型的准确性和可靠性。下面将详细介绍相关的方法和应用实例。

1. 单个预测变量的诊断

在分析单个预测变量时，我们可以通过绘制部分残差图来探索变量之间的关系。部分残差的计算公式为：
[p_i = r_i + \hat{\beta} jX {(j)i}= Y_i - \hat{\beta} 0 - \hat{\beta}_1X {(1)i} - \cdots - \hat{\beta} {j - 1}X {(j - 1)i} - \hat{\beta} {j + 1}X {(j + 1)i} - \cdots - \hat{\beta} pX {(p)i}]
其中，(i = 1, 2, \cdots, n)。我们从残差开始，但移除了预测变量(j)的线性贡献，然后将(p_i)与预测变量(j)进行绘图，以尝试识别它们之间的关系。

以货币数据为例，从图中我们可以发现，法郎和马克与日元似乎有较强的线性关系，而加元和英镑的关系则不那么“清晰”，数据点聚集程度较高。此外，法郎可能存在一些非线性关系，对于较低的法郎值，斜率更负，这可能值得进一步研究，例如添加二次项。

为了更清晰地观察变量之间的关系，我们还可以绘制非参数拟合图。使用 regtools 包中的 nonparvsxplot() 函数可以实现这一点，该函数

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。