从0开始学习R语言--Day23--稳健回归

R语言稳健回归：应对离散点数据

原创已于 2025-06-14 23:48:28 修改 · 663 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #r语言 #回归

于 2025-06-14 23:39:18 首次发布

稳健回归

一般来说，对于打印出来后明显分布的比较集中，靠近线分布的数据，我们会优先用最小二乘法（OLS）去回归数据，在正常的情况下它的效果很好，但如果数据中存在了比较离谱的离散点，那么由于OLS的算法机制，它会为了强行去拟合这些离散点去扭曲回归线，也就是让其产生偏离，这会严重误导我们对数据的判断。而稳健回归在这类处理中，引入了权重，通过对离散点的误差计算，当它认为这是会产生极大误差的点时，会赋予这些点很低的权重（有时甚至接近于0），从而使模型能够忽略这些离散点，较好的呈现出数据本身的统计性质。

以下是一个例子来说明：

set.seed(123)  # 固定随机数
n <- 100       # 样本量

# 生成正常数据
x <- rnorm(n, mean = 10, sd = 2)
y <- 2 * x + rnorm(n, mean = 0, sd = 1)  # 真实关系: y = 2x + 噪声

# 添加异常值（5个极端点）
outliers <- sample(1:n, 5)
y[outliers] <- y[outliers] + rnorm(5, mean = 15, sd = 3)  # 人为制造异常

# 合并为数据框
df <- data.frame(x, y)
head(df)
# 安装包（如果未安装）
# install.packages("MASS")

library(MASS)  # 包含稳健回归函数rlm()

# 普通最小二乘法（OLS）
ols_model <- lm(y ~ x, data = df)
summary(ols_model)  # 查看结果

# 稳健回归（M估计，默认使用Huber损失函数）
robust_model <- rlm(y ~ x, data = df)
summary(robust_model)  # 查看结果

# 绘制数据点和回归线
plot(df$x, df$y, pch = 16, col = ifelse(1:n %in% outliers, "red", "blue"),
     main = "OLS vs Robust Regression")
abline(ols_model, col = "black", lwd = 2, lty = 2)      # OLS回归线（虚线）
abline(robust_model, col = "green", lwd = 2)            # 稳健回归线（实线）
legend("topleft", legend = c("OLS", "Robust"), 
       col = c("black", "green"), lty = c(2, 1), lwd = 2)

输出：

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.4482     1.9075   1.284    0.202    
x             1.8175     0.1844   9.854 2.51e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Coefficients:
            Value   Std. Error t value
(Intercept)  0.1394  0.5974     0.2334
x            1.9752  0.0578    34.1940

Residual standard error: 0.992 on 98 degrees of freedom