机器学习中的数学基础与数据处理
1. 凸函数与非凸函数及局部、全局最小值
- 凸函数特性 :凸函数只有全局最小值,没有局部最小值。如图3.15所示,沿着梯度下降必定能到达全局最小值。例如,代码示例如下:
print('The solution via gradient descent is {}'.format(solution_gd))
输出结果:
The solution via gradient descent is [ 1.0766 0.8976 -0.9581]
无论在凸函数表面的哪个位置,只要持续沿着梯度向下移动,最终都会达到全局最小值。
- 非凸函数问题 :非凸函数存在局部最小值,如图3.16所示。从某个点沿着梯度下降可能会陷入局部最小值,此时梯度为零,就无法再移动到其他位置。过去,研究人员花费大量精力避免局部最小值,开发了如模拟退火等特殊技术。但神经网络通常不会采取特殊措施处理局部最小值和非凸函数,因为局部最小值往往也足够好,或者可以从不同随机点重新训练,幸运地避开局部最小值。
- 训练与推理 :训练后得到一个估计的输出函数 ( f(\vec{x}) ) ,其权重能使训练数据集上的误差最小化。之后就可以将分类器投入使用,输入任意向量 ( \vec{x} ) ,计算 ( f(\vec{x}) ) 并做出决策,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



