回归模型（背景和原理）

最新推荐文章于 2025-06-25 17:59:38 发布

原创

最新推荐文章于 2025-06-25 17:59:38 发布 · 2.4w 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#回归模型

回归模型起源于高尔顿在遗传学中的研究，揭示了身高的回归效应。数学原理涉及指数族分布，如伯努利分布和高斯分布，并在广义线性回归中应用，其中自然参数与输入特征呈线性关系。该模型用于预测和分析变量间的线性关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归模型是做数据分析，统计建模和机器学习最先接触的模型，在大学读书的时候关注的就是计算过程，很多人在学习数学以及在数学基础上的研究，常常被复杂的公式所影响。有时候需要跳出来，看这些公式的目的，用途等，或许可以了解的更好。我准备从背景、数学原理、机器学习算法、python语言、模型解释和模型变化等方面来和大家交流回归模型。
一、回归模型产生的背景
“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton，1822～1911，生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。但是，高尔顿对试验数据进行了深入的分析，发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时，他们的儿子身高比他更高的概率要小于比他更矮的概率；父亲矮于平均身高时，他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律，即这两种身高父亲的儿子的身高，有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力，使人类身高的分布相对稳定而不产生两极分化，这就是所谓的回归效应。
1855年，高尔顿发表《遗传的身高向平均数方向的回归》一文，他和他的学生卡尔•皮尔逊Karl•Pearson通过观察1078对夫妇的身高数据，以每对夫妇的平均身高作为自变量，取他们的一个成年儿子的身高作为因变量，分析儿子身高与父母身高之间的关系，发现父母的身高可以预测子女的身高，两者近乎一条直线。当父母越高或越矮时，子女的身高会比一般儿童高或矮，他将儿子与父母身高的这种现象拟合出一种线形关系，分析出儿子的身高y与父亲的身高x大致可归结为一下关系：
y=33.73+0.516x (单位为英寸)
根据换算公式1英寸=0.0254米， 1米=39.37英寸。单位换算成米后：
Y= 0.8567+0.516X (单位为米);
假如父母辈的平均身高为1.75米，则预测子女的身高为1.7597米。
这种趋势及回归方程表明父母身高每增加一个单位时，其成年儿子