R语言中的线性回归:从基础到应用
1. 统计推断与线性回归概述
在统计分析中,我们会针对数值和分类数据进行不同类型的假设检验统计推断。可以使用比例(针对分类变量)或均值(针对数值变量)作为样本统计量,对单个变量、两个变量和多个变量进行推断。假设检验过程包括基于模型近似的参数方法和基于自助法模拟的非参数方法,能提供诸如置信区间和p值等有价值的工具,帮助我们决定是否拒绝原假设而接受备择假设,这一决策还与第一类错误和第二类错误相关。
线性回归是一种基础的统计方法,用于建模目标变量与多个解释变量(也称为自变量)之间的关系。它的核心是将直线(更一般地说是超平面)拟合到数据点上,目标是最小化观测值与预测值之间的偏差。线性回归可分为简单线性回归和多元线性回归,我们将学习如何估计模型系数、评估拟合优度以及使用假设检验来检验系数的显著性。此外,还会讨论线性回归的基本假设,并探索解决潜在问题的技术,如非线性、交互效应、多重共线性和异方差性。同时,将介绍两种广泛使用的正则化技术:岭回归和最小绝对收缩和选择算子(lasso)惩罚。
要运行相关代码,需要安装以下最新版本的包:
| 包名 | 版本号 |
| ---- | ---- |
| ggplot2 | 3.4.0 |
| tidyr | 1.2.1 |
| dplyr | 1.0.10 |
| car | 3.1.1 |
| lmtest | 0.9.40 |
| glmnet | 4.1.7 |
所有代码和数据可在
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



