【机器学习】 -- 三要素:模型,学习准则和优化算法

本文介绍了机器学习的基础概念,包括模型的定义,如线性模型和非线性模型,以及学习准则,如期望风险和损失函数。优化算法部分讲解了梯度下降法的几种变体,如批量梯度下降、随机梯度下降和小批量随机梯度下降,并提及了超参数优化和防止过拟合的策略。内容涵盖了从模型选择到训练过程的关键要素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

 

模型

学习准则  

优化算法


模型

对于一个机器学习的任务,要明确输入空间x 和输出空间y,不同任务的区别在于输出空间的不同;在二分类问题中:y = \left \{ +1,-1 \right \},在c类问题中:y = \left \{ 1,2,3,...c \right \};在回归问题中:y = R;

输入空间x 和输出空间y构成一个样本空间,对于样本空间中的样本\left ( x,y \right )\epsilon X\times Y,确定x 和y 的关系用真实映射函数 y = g(x) 或者真实条件概率分布p_{r} (y|x)来表示。机器学习的目标就是找到一个模型来近似真实映射函数 y = g(x) 或者真实条件概率分布p_{r} (y|x)

因为我们不知道真实映射函数 y = g(x) 或者真实条件概率分布p_{r} (y|x)的具体形式,只能根据经验假设一个函数集合f 叫假设空间,通过观测其在训练集D上的特性,从中选择一个理想的假设:f^{*}\epsilon f

假设空间f中有一个参数化的函数族:f = \left \{ f(x;\theta ) \theta \epsilon R^{D}\right \}. 其中:f\left ( x;\theta \right ) 是参数\theta的函数,也叫模型;D为参数的数量;

常见的假设空间分为线性和非线性,对应的模型分为线性模型和非线性模型;

线性模型:f\left ( x;\theta \right ) = w^{T}x + b 其中:\theta 包含权重向量w 和偏置b

非线性模型:可以看作是多个非新型基函数\phi (x) 的线性组合;f\left ( x;\theta \right ) = w^{T}\phi (x) + b 。 其中:\phi (x) 是k个非线性基函数组成的向量;

如果\phi (x) 本身为可学习的基函数,如:\phi_{k}(x) = h \left ( w_{k}^{t} \phi ^{'}(x) +b _{k} \right )\forall _{1} \leq k\leq K, 其中:h(.)为非线性函数,\phi ^{'}(x) 为另一组基函数,w_{k} 和b_{k} 为 可学习的参数,则f\left ( x;\theta \right ) 等价于 神经网络模型;

学习准则  

训练集D 是N个独立同分布的样本组成;一个好的模型应在在所有(x,y) 的可能取值上都与真实映射函数y = g(x) 一致;即:|f(x,\theta ^{*}) - y| < \varepsilon 或者|f_{y}(x,\theta ^{*}) - p_{r}(y|x)| < \varepsilon。 其中:\varepsilon 是一个很小的正数;

f_{y}(x,\theta ^{*}) 是模型预测的条件概率分布中y对应的概率;

f\left ( x;\theta \right ) 可以通过期望风险R(\theta ) 来衡量,定义为:R(\theta ) = E_{(x,y)~p_{r}(x,y)}[\L (y,f(x;\theta ))] 其中:p_{r}(x,y) 是真实的数据分布;\L (y,f(x;\theta )) 是损失函数,用来量化两个变量之间的差异;

损失函数:(找时间补上)

优化算法

在确定了训练集D,假设空间f 和学习准则后,找到最优模型就成了最优化的问题,训练过程就是最优化问题的求解过程。

参数和超参数:优化可以分为参数优化和超参数优化;f\left ( x;\theta \right ) 中的\theta 是模型的参数,可以通过优化算法进行学习,除了可以学习的参数\theta之外,还有一类参数是用来定义模型结构或者优化策略的,这种叫做超参数。

常见的超参数:聚类算法中的类别个数;梯度下降法中的步长;正则化项的系数;神经网络的层数;支持向量机的核函数;超参数通常按照经验设定,或者不断调整试错。

(批量)梯度下降法:首先初始化参数\theta _{0},然后使用迭代公式计算训练集D上的风险函数最小值:

\theta _{t+1} = \theta _{t} - \alpha \frac{\partial R_{D}(\theta )}{\partial \theta} = \theta _{t} - \alpha \frac{\frac{}{}1}{N} \sum_{n=1}^{N}\frac{\partial\L (y^{n},f(x^{n};\theta )) }{\partial x} 其中:\theta _{t}为第t 次迭代时的参数值;\alpha为搜索步长(学习率);

提前停止:针对梯度下降的优化算法,除了加正则化项之外,可以通过提前停止来防止过拟合;因为过拟合的原因,在训练样本集上收敛的参数,在测试集上不一定最优,因此在训练集和 测试集之外,有时会使用验证集来进行模型的选择,每次迭代时,把新得到的模型在验证集上进行测试,并计算错误率,如果错误率不在下降,就停止迭代,这种策略叫做提前停止;

随机梯度下降法:

为了减少每次迭代的计算复杂度,可以在每次迭代时只采集一个样本,计算这个样本损失函数的梯度并更新参数,即随机随机梯度下降法;当经过足够次数的迭代之后,,随机梯度下降也可以收敛到局部最优解。

小批量随机梯度下降法:

随机梯度下降法的缺点时无法充分利用计算机的并行计算能力,小批量随机梯度下降法是批量梯度下降和随机梯度下降的折中,每次迭代时选取一小部分训练样本来计算梯度并更新参数,这样既可以兼顾随机梯度下降法的优点,又可以提高训练效率。

\theta _{t+1}\leftarrow \theta _{t} - \alpha \frac{1}{K} \frac{\partial R_{D}(\theta )}{\partial \theta} = \theta _{t} - \alpha \frac{\frac{}{}1}{N} \sum_{n=1}^{N}\frac{\partial\L (y^{n},f(x^{n};\theta )) }{\partial x} 

 注:K 值通常不会设置的很大,一般在1-100 之间,实际应用时通常为2的幂。这种方式收敛快,计算开销小。

 

 

致谢

《神经网络和深度学习》 -- 邱锡鹏 著

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值