回归模型(背景和原理)

回归模型起源于高尔顿在遗传学中的研究,揭示了身高的回归效应。数学原理涉及指数族分布,如伯努利分布和高斯分布,并在广义线性回归中应用,其中自然参数与输入特征呈线性关系。该模型用于预测和分析变量间的线性关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

回归模型是做数据分析,统计建模和机器学习最先接触的模型,在大学读书的时候关注的就是计算过程,很多人在学习数学以及在数学基础上的研究,常常被复杂的公式所影响。有时候需要跳出来,看这些公式的目的,用途等,或许可以了解的更好。我准备从背景、数学原理、机器学习算法、python语言、模型解释和模型变化等方面来和大家交流回归模型。
一、回归模型产生的背景
“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911,生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。
1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的学生卡尔•皮尔逊Karl•Pearson通过观察1078对夫妇的身高数据,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,分析儿子身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,两者近乎一条直线。当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身高y与父亲的身高x大致可归结为一下关系:
y=33.73+0.516x (单位为英寸)
根据换算公式1英寸=0.0254米, 1米=39.37英寸。单位换算成米后:
Y= 0.8567+0.516
X (单位为米);
假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。
这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子

### 线性回归、Lasso回归岭回归的背景原理介绍 #### 1. 线性回归(Linear Regression) 线性回归是一种用于建模因变量与一个或多个自变量之间关系的基本统计方法。其目标是最小化预测值与实际值之间的误差平方。在线性回归中,模型通过求解正规方程或使用梯度下降法来估计参数[^1]。 公式表示为: \[ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon \] 其中,\( y \) 是因变量,\( x_1, x_2, ..., x_n \) 是自变量,\( \beta_0, \beta_1, ..., \beta_n \) 是回归系数,\( \epsilon \) 是误差项。线性回归假设数据服从正态分布,并且特征之间不存在多重共线性[^2]。 ```python from sklearn.linear_model import LinearRegression reg1 = LinearRegression() reg1.fit(X_train, y_train) print(reg1.coef_, reg1.intercept_) ``` #### 2. 岭回归(Ridge Regression) 岭回归是在线性回归的基础上引入了L2正则化项的一种改进方法。L2正则化通过在损失函数中添加所有权重的平方,防止模型过拟合。其目标函数可以表示为: \[ J(\beta) = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \alpha \sum_{j=1}^p \beta_j^2 \] 其中,\( \alpha \) 是正则化参数,控制模型复杂度。较大的 \( \alpha \) 会缩小回归系数的值,从而降低模型的方差[^3]。 ```python from sklearn.linear_model import Ridge ridge_reg = Ridge(alpha=1.0) ridge_reg.fit(X_train, y_train) print(ridge_reg.coef_, ridge_reg.intercept_) ``` #### 3. Lasso回归(Lasso Regression) Lasso回归是另一种带有正则化的线性回归方法,但其采用的是L1正则化。L1正则化通过在损失函数中添加绝对值形式的约束,能够将一些不重要的特征系数直接缩减为零,实现特征选择的功能。目标函数为: \[ J(\beta) = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \alpha \sum_{j=1}^p |\beta_j| \] Lasso回归的一个显著特点是稀疏性,即它倾向于生成具有较少非零系数的模型[^4]。 ```python from sklearn.linear_model import Lasso lasso_reg = Lasso(alpha=0.1) lasso_reg.fit(X_train, y_train) print(lasso_reg.coef_, lasso_reg.intercept_) ``` #### 核心区别总结 - **线性回归**:无正则化,容易过拟合。 - **岭回归**:使用L2正则化,减少模型复杂度,但不会将系数降为零。 - **Lasso回归**:使用L1正则化,可以进行特征选择,将部分系数降为零。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值