统计建模:从线性回归到广义可加模型的全面指南
1. 线性回归分析
1.1 数据加载与探索
首先,加载 SLID 数据集并使用 str 函数查看其结构,可知有四个自变量会影响因变量工资。接着,通过可视化探索每个自变量与工资的关系:
- 语言与工资的相关性不明显。
- 年龄与工资呈正相关。
- 教育程度与工资呈正相关。
- 男性工资略高于女性。
1.2 模型拟合与优化
将除工资外的所有属性作为预测变量拟合模型,总结模型发现教育、年龄和性别具有显著性(p 值 < 0.05),因此剔除不显著的语言属性,重新用这三个自变量对工资进行线性回归,f 统计量从 336.8 提高到 565.3。
1.3 模型诊断与处理
生成拟合模型的诊断图,发现小拟合值的残差偏向回归模型。由于工资范围跨越多个数量级,对工资进行对数变换后重新拟合数据。随后,进行多重共线性和异方差性检验:
- 多重共线性:使用 vif 函数计算方差膨胀因子,若存在则移除冗余预测变量或进行主成分分析。
- 异方差性:使用 lmtest 包中的 bptest 函数进行 Breusch - Pagan 检验,p 值为 2.206e - 06 (< 0.5),拒绝同方差性原假设,可使用 rms 包中的 robcov 修正标准误差。
# 示例代码
# 加
超级会员免费看
订阅专栏 解锁全文
1127

被折叠的 条评论
为什么被折叠?



