20、机器学习理论与实践:回归分析详解

机器学习理论与实践:回归分析详解

在机器学习领域,参数方法和非参数方法是两种重要的建模方式。非参数方法不预先假设任何概率分布,而是从底层数据构建经验分布。这种方法需要大量数据进行模型估计。非参数回归有独立的分支,如核回归、非参数乘法回归(NPMR)等。而使用参数方法则可以轻松围绕估计参数创建置信区间,这在模型诊断中非常有用。

1. 相关性分析

相关性是用于表示两个变量之间统计关系的广义术语,原则上,它提供了变量间关系的单一度量。由于量化关系的方式多样,统计学中有多种类型的相关系数。

对于线性关系的度量,皮尔逊相关系数是最佳选择。它对线性关系敏感,对于非线性关系虽存在但无有用信息。假设两个随机变量 $X$ 和 $Y$,其均值分别为 $\mu_X$ 和 $\mu_Y$,标准差分别为 $\sigma_X$ 和 $\sigma_Y$,总体相关系数定义为:
[
r_{X,Y} = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}
]
该度量有两个重要特征:
- 取值范围从 -1(负相关)到 +1(正相关),可由柯西 - 施瓦茨不等式推导得出。
- 仅在标准差有限且非零时定义。

对于总体样本,其度量定义为:
[
r_{xy} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}
]

下面通过房屋价格数据创建散点图,使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值