数据挖掘之线性回归原理（附代码）

最新推荐文章于 2024-03-09 19:15:08 发布

朱莉安娜·

最新推荐文章于 2024-03-09 19:15:08 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_42283422/article/details/115133117

版权

文章目录

1.什么是线性回归

这里引用百度百科的解释：利用数理统计中的回归分析，来确定变量间相互依赖的定量关系的一种统计分析方法，其表达形式为 $y^{(i)} = w^Tx^{(i)}+e^{(i)}$ ， $e$ 为误差（用来代替统计误差或者抽样误差），它服从均值为0的标准正态分布。例如成年人的月收入与月消费的关系，二者之间肯定存在某种关系。
在求解之前，通常会给定几个假设：

（1）自变量 $X_i, X_j)$ 之间应相互独立；
（2）误差项 $e_i，e_j)$ 之间应相互独立;
（3）模型线性可加。假设因变量为Y，自变量为X1，X2，则回归分析的默认假设为 $Y = b + a 1 X 1 + a 2 X 2 + e$ 。
线性性 ：X1每变动一个单位，Y相应变动a1个单位，与X1的绝对数值大小无关。
可加性：X1对Y的影响是独立于其他自变量（如X2）的。

使用python生成模拟数据，具体代码与注释如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

font = {
   'family': 'Microsoft YaHei',
        'weight': 'bold',
        'size': 10}
plt.rc('font', **font) 
# 设置字体

''' 1.模拟数据x, y'''
x1 = np.arange(1, 5, 0.1)  # 0.1为步长
y = x1 * 4 + 3 + 2 * np.random.randn(len(x1))

# 2.通过API实现参数估计
model_lr = LinearRegression()
model_lr.fit(x1.reshape(-1, 1), y.reshape(-1, 1))  # 转换为列向量形
# model_lr.coef_ (1，1), model_lr.intercept_(1,)都是ndarray类型
print('API模型求解的w={}, b={}'.format(round(model_lr.coef_[0][0], 4), round(model_lr.intercept_[0], 4)))