15、线性回归、多项式回归与过拟合预防

线性回归、多项式回归与过拟合预防

1. 相关性的定义

在深入探讨线性回归之后,有必要详细讨论“相关性”这一概念。从严格意义上讲,如果两个变量之间的关系可以用一条直线来描述,那么这两个变量就是相关的。简单来说,相关性是衡量线性回归对两个变量之间关系建模效果的指标。

  • 相关性为 0 时,表示两个变量之间不存在有意义的线性关系。
  • 相关性为 1 时,意味着两个变量之间存在一条完全正相关的直线(上升趋势)。
  • 相关性为 -1 时,则表示两个变量之间存在一条完全负相关的直线(下降趋势)。

下面通过一个示例来具体说明:

x <- 1:10
y <- x ^ 2
ggplot(data.frame(X = x, Y = y), aes(x = X, y = Y)) +
    geom_point() +
    geom_smooth(method = 'lm', se = FALSE)

从示例数据的图形中可以看出,使用 geom_smooth 绘制的直线并没有穿过所有的点,这表明 x 和 y 之间的关系并非完全线性。为了衡量它们之间的线性程度,可以使用 R 中的 cor 函数计算相关性:

cor(x, y)
#[1] 0.9745586

这里得到的相关性约为 0.97,接近 1,说明 x 和 y 之间可以用一条直线较好地描述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值