回归与模型选择:机器学习核心技术解析
1. 机器学习中的优化与模型选择
机器学习的核心在于优化,回归和模型选择框架旨在为数据提供简洁且可解释的模型。曲线拟合是最基础的回归技术,多项式和指数拟合可通过求解线性系统 $Ax = b$ 得到解决方案。
当模型未预先确定时,需使用优化方法选择最佳模型,这会将函数拟合的数学问题转化为线性系统的过定或欠定优化问题:
- 过定系统:$\text{argmin}_x(|Ax - b|_2 + \lambda g(x))$
- 欠定系统:$\text{argmin}_x g(x)$,约束条件为 $|Ax - b|_2 \leq \epsilon$
其中,$g(x)$ 是给定的惩罚项(过定系统中有惩罚参数 $\lambda$)。对于过定和欠定线性方程组,为得到解,需选择约束或惩罚(即正则化)。例如,在欠定系统中可强制解最小化 $\ell_2$ - 范数,即 $\min g(x) = \min |x|_2$。
更一般地,考虑非线性模型回归时,整体数学框架为:
- $\text{argmin}_x(f(A, x, b) + \lambda g(x))$
- $\text{argmin}_x g(x)$,约束条件为 $f(A, x, b) \leq \epsilon$
这些问题常使用梯度下降算法求解,此框架也是深度学习算法的核心。
2. 数据科学中的过拟合与欠拟合及交叉验证
在数据科学中,判断模型是否过拟合或欠拟合至关重要,因此交叉验证策略对评估模型极为关键。给定数据集需划分为训练集、验证集和保留集。模型由训练集和验证集构建,最后在保
超级会员免费看
订阅专栏 解锁全文
970

被折叠的 条评论
为什么被折叠?



