线性回归的来历

为什么叫回归分析(Regression toward mediocrity)-趋中回归

有人可能会好奇,为什么叫“回归”这个名称,它有什么具体含义?实际上,回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的一种有趣的现象:

身高这种遗传特性表现出“高个子父母,其子代身高也高于平均身高;但不见得比其父母更高,到一定程度后会往平均身高方向发生‘回归’”。 这种效应被称为“趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间数量关系模型的方法和程序。

回归分析最早是19世纪末期高尔顿(Sir Francis Galton)所发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。

1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但是有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的 回归”(regression toward mediocrity)。

而关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生K·Pearson观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归 直线方程为:y^=33.73+0.516x ,这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这样当然极端值就会向中心靠拢。

Depending on the context, an independent variable is also known as a "predictor variable," "regressor," "controlled variable," "manipulated variable," "explanatory variable," "exposure variable," and/or "input variable."[5] A dependent variable is also known as a "response variable," "regressand," "measured variable," "observed variable," "responding variable," "explained variable," "outcome variable," "experimental variable," and/or "output variable.

<think>好的,我现在需要帮助用户理解线性回归的基本概念和应用。用户之前问过关于statsmodels的用法,现在转向线性回归的基础,所以我需要结合之前的回答和提供的引用内容来组织信息。 首先,用户提到的引用里有关于多重共线性、回归名称的由来、多元线性回归的应用以及线性回归的局限性。这些内容都应该被整合到回答中,确保覆盖概念、数学表达、应用场景和局限性。 接下来,我需要回顾之前关于statsmodels的回答,其中提到了OLS回归、ANOVA和时间序列分析。可能需要关联这些内容,比如在应用部分提到如何使用statsmodels进行线性回归分析。 用户可能希望得到一个结构清晰的解释,包括定义、数学表达、应用和常见问题。同时,用户可能需要知道如何实际应用,比如使用Python库来实现,这在之前的回答中已经涉及,可以适当引用。 需要检查是否有遗漏的关键点,比如线性回归的核心假设、最小二乘法、系数解释等。同时,引用中提到的岭回归和Lasso回归作为优化方法,可能在相关问题部分提到,但用户当前的问题集中在基本概念,所以可能放在优化部分或相关问题里。 还要注意数学公式的格式,按照用户的要求使用$...$和$$...$$,并确保LaTeX语法正确。例如,线性回归模型应该是$$y = \beta_0 + \beta_1x_1 + \cdots + \beta_nx_n + \epsilon$$。 应用场景部分需要结合引用中的例子,如经济学、医学、市场营销等,同时提到statsmodels的实现方法,比如使用sm.OLS。 最后,生成的相关问题需要引导用户深入,比如假设检验、处理多重共线性、与非线性模型的对比等,这些在引用和之前回答中都有涉及。 现在需要组织这些内容,确保逻辑连贯,符合用户要求的层次结构,同时自然融入引用内容,并在适当位置添加引用标记。</think>### 线性回归的基本概念及应用详解 --- #### 一、核心概念 1. **定义** 线性回归是一种通过**线性关系**建模自变量(特征)与因变量(目标)之间关联的统计方法,其数学表达式为: $$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n + \epsilon $$ 其中: - $y$:因变量(被预测值) - $\beta_0$:截距项(偏置) - $\beta_1, \beta_2, \dots, \beta_n$:自变量的回归系数 - $\epsilon$:随机误差项,服从正态分布[^1][^5] 2. **名称由来** “回归”源于统计学中“向均值回归”的现象,表示模型通过拟合直线(或超平面)捕捉变量间的平均变化趋势[^2]。 3. **核心假设** - 线性关系:自变量与因变量呈线性关联 - 误差项独立同分布(i.i.d.)且符合正态分布 - 自变量间无严格多重共线性[^4] --- #### 二、数学原理与实现 1. **参数估计方法** 常用**普通最小二乘法(OLS)**最小化残差平方和: $$ \min \sum_{i=1}^n (y_i - \hat{y}_i)^2 $$ 通过矩阵运算求解系数: $$ \boldsymbol{\beta} = (X^TX)^{-1}X^Ty $$ (需满足$X^TX$可逆,否则需使用岭回归等改进方法[^1]) 2. **代码实现(Statsmodels)** ```python import statsmodels.api as sm X = data[['feature1', 'feature2']] y = data['target'] X = sm.add_constant(X) # 添加截距项 model = sm.OLS(y, X).fit() print(model.summary()) # 输出R²、系数p值、置信区间等 ``` --- #### 三、典型应用场景 1. **经济学** 分析GDP与人口、投资、消费的关联,例如: $$ \text{GDP} = \beta_0 + \beta_1 \cdot \text{人口} + \beta_2 \cdot \text{投资} + \epsilon $$ 需注意边际效应递减时可能需引入对数变换[^3]。 2. **医学研究** 探究生物标志物(如胆固醇水平)与疾病风险的关系,控制年龄、性别等协变量。 3. **市场营销** 预测产品销量与价格、广告投入的关系: $$ \text{销量} = \beta_0 + \beta_1 \cdot \text{价格} + \beta_2 \cdot \text{广告费用} + \epsilon $$ 需处理竞争对手活动等混杂因素[^3]。 --- #### 四、局限性及改进 1. **主要局限** - **非线性关系**:对曲线趋势(如收入与消费的边际递减效应)拟合效果差[^4] - **异常值敏感**:极端值会显著影响回归线位置 - **多重共线性**:导致系数估计不稳定(可用方差膨胀因子VIF检测[^1]) 2. **改进方法** | 方法 | 适用场景 | 数学形式 | |------------|--------------------------|-----------------------------------| | 岭回归 | 多重共线性严重 | 增加L2正则项:$\min \sum \epsilon_i^2 + \lambda \sum \beta_j^2$ [^1] | | Lasso回归 | 特征选择与稀疏化 | 增加L1正则项:$\min \sum \epsilon_i^2 + \lambda \sum |\beta_j|$ [^1] | | 多项式回归 | 非线性关系 | 引入$x^2$, $x^3$等高阶项 | --- #### 五、结果解读要点 1. **关键指标** - **$R^2$**:模型解释的方差比例(0~1,越大越好) - **调整$R^2$**:考虑变量数量的修正指标 - **F统计量**:模型整体显著性检验 - **系数p值**:单个变量显著性(通常<0.05视为显著) 2. **诊断验证** - 残差正态性检验(Q-Q图) - 异方差性检验(White检验) - 共线性诊断(VIF>10表示严重共线性) ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值