专注于python编程 + 机器学习 ,每周分享py办公自动化、数据分析、人工智能学习笔记。关注我,让AI成为你的职场利器 !
回归(regression)是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。
许多领域的任务都可以形式化为回归问题,比如:
- 商业决策支持:预测促销活动效果、优化库存管理
- 金融风控:评估信用风险、预测投资回报
- 工业制造:预测设备故障时间、优化生产参数
回归分析是机器学习中预测连续值的核心技术,通过一个简单预测股价的例子 + Python代码,分析回归模型的底层原理与实战技巧。
假设知道某一公司在过去不同时间点(比如,每天)的市场上的股票价格(比如,股票平均价格),以及在各个时间点之前可能影响该公司股价的信息(比如,该公司前一周的营业额、利润)。目标是从过去的数据学习一个模型,使它可以基于当前的信息预测该公司下一个时间点的股票价格。可以将这个问题作为回归问题解决。将影响股价的信息视为自变量(输入的特征),而将股价视为因变量(输出的值)。
一、回归分析的本质:寻找变量间的隐藏规律
回归分析的核心目标是建立输入变量(自变量)与输出变量(因变量)之间的数学映射关系。例如:
- 气温每升高1℃,空调销量增加多少?
- 用户停留时间每延长1分钟,转化率提升多少?
- 公司前一周利润增长1%,股价如何变化?
通过回归模型,我们可以用数学函数(如y = ax + b
)精准量化这些关系。
二、回归模型的两大分类维度
分类维度 | 类型 | 核心特点 |
---|---|---|
输入变量数量 | 一元回归 | 单变量预测(如用广告费用预测销售额) |
多元回归 | 多变量综合预测(如用广告费用+季节因素+用户画像预测销售额) | |
模型形态 | 线性回归 | 变量间呈直线关系(如y = a₁x₁ + a₂x₂ + … + b) |
非线性回归 | 复杂曲线关系(如多项式回归、神经网络) |
三、回归模型的「底层数学逻辑」
1. 损失函数:量化预测误差
平方损失函数是回归问题的标准选择:
L ( θ ) = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L(\theta) = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 L(θ)=n1</