线性与逻辑回归:原理、优化与应用
1. 线性回归概述
线性回归是用于从训练数据构建值预测和分类模型的代表性“机器学习”方法。它有诸多特点:
- 理论基础优美,但实际中代数公式常被更快、更启发式的优化方法取代。
- 模型本质是线性的,这既能让我们看到此类模型的局限性,也能促使我们开发推广到其他形式的巧妙技术。
- 既鼓励用数百个变量构建模型,又需要正则化技术确保多数变量被忽略。
线性回归是基础建模技术,适合作为构建数据驱动模型的基线方法。这些模型通常易于构建、解释,且在实践中表现良好。虽然更高级的机器学习技术可能带来更好性能,但付出的努力可能并不值得。应先构建线性回归模型,再决定是否值得进一步努力以获得更好结果。
线性回归旨在为一组 n 个点找到最佳近似或拟合的直线。这样做有多种原因,包括简化和压缩数据,用一条整洁的直线替代 xy 平面上大量嘈杂的数据点,还能用于可视化,展示数据的潜在趋势并突出异常值的位置和大小。不过,我们更关注其作为值预测方法的应用。可以将每个观测点 p = (x, y) 视为函数 y = f(x) 的结果,其中 x 代表特征变量,y 代表独立目标变量。给定 n 个这样的点 {p1, p2, …, pn},我们要找到能最好解释这些点的 f(x),该函数可对这些点进行插值或建模,从而估计与任何可能的 x′ 相关的值 y′,即 y′ = f(x′)。
2. 线性回归与对偶性
回归与求解线性方程之间存在有趣的联系。求解线性系统时,我们寻找位于 n 条给定直线上的单个点;而在回归中,我们给定 n 个点,寻找“尽可能接近”所有点的直线。这里有两个区别:一是点和线的互换,二是在约束条件下寻找最佳拟合与
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



