目录
模型
对于一个机器学习的任务,要明确输入空间 和输出空间
,不同任务的区别在于输出空间的不同;在二分类问题中:
,在c类问题中:
;在回归问题中:
;
输入空间 和输出空间
构成一个样本空间,对于样本空间中的样本
,确定x 和y 的关系用真实映射函数
或者真实条件概率分布
来表示。机器学习的目标就是找到一个模型来近似真实映射函数
或者真实条件概率分布
。
因为我们不知道真实映射函数 或者真实条件概率分布
的具体形式,只能根据经验假设一个函数集合
叫假设空间,通过观测其在训练集
上的特性,从中选择一个理想的假设:
。
假设空间中有一个参数化的函数族:
. 其中:
是参数
的函数,也叫模型;
为参数的数量;
常见的假设空间分为线性和非线性,对应的模型分为线性模型和非线性模型;
线性模型: 其中:
包含权重向量
和偏置
。
非线性模型:可以看作是多个非新型基函数 的线性组合;
。 其中:
是k个非线性基函数组成的向量;
如果 本身为可学习的基函数,如:
, 其中:
为非线性函数,
为另一组基函数,
和
为 可学习的参数,则
等价于 神经网络模型;
学习准则
训练集 是N个独立同分布的样本组成;一个好的模型应在在所有
的可能取值上都与真实映射函数
一致;即:
或者
。 其中:
是一个很小的正数;
是模型预测的条件概率分布中y对应的概率;
可以通过期望风险
来衡量,定义为:
其中:
是真实的数据分布;
是损失函数,用来量化两个变量之间的差异;
损失函数:(找时间补上)
优化算法
在确定了训练集,假设空间
和学习准则后,找到最优模型就成了最优化的问题,训练过程就是最优化问题的求解过程。
参数和超参数:优化可以分为参数优化和超参数优化; 中的
是模型的参数,可以通过优化算法进行学习,除了可以学习的参数
之外,还有一类参数是用来定义模型结构或者优化策略的,这种叫做超参数。
常见的超参数:聚类算法中的类别个数;梯度下降法中的步长;正则化项的系数;神经网络的层数;支持向量机的核函数;超参数通常按照经验设定,或者不断调整试错。
(批量)梯度下降法:首先初始化参数,然后使用迭代公式计算训练集
上的风险函数最小值:
其中:
为第t 次迭代时的参数值;
为搜索步长(学习率);
提前停止:针对梯度下降的优化算法,除了加正则化项之外,可以通过提前停止来防止过拟合;因为过拟合的原因,在训练样本集上收敛的参数,在测试集上不一定最优,因此在训练集和 测试集之外,有时会使用验证集来进行模型的选择,每次迭代时,把新得到的模型在验证集上进行测试,并计算错误率,如果错误率不在下降,就停止迭代,这种策略叫做提前停止;
随机梯度下降法:
为了减少每次迭代的计算复杂度,可以在每次迭代时只采集一个样本,计算这个样本损失函数的梯度并更新参数,即随机随机梯度下降法;当经过足够次数的迭代之后,,随机梯度下降也可以收敛到局部最优解。
小批量随机梯度下降法:
随机梯度下降法的缺点时无法充分利用计算机的并行计算能力,小批量随机梯度下降法是批量梯度下降和随机梯度下降的折中,每次迭代时选取一小部分训练样本来计算梯度并更新参数,这样既可以兼顾随机梯度下降法的优点,又可以提高训练效率。
注:K 值通常不会设置的很大,一般在1-100 之间,实际应用时通常为2的幂。这种方式收敛快,计算开销小。
致谢
《神经网络和深度学习》 -- 邱锡鹏 著