14、机器学习优化与验证全解析-优快云博客

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/149381852

机器学习优化与验证全解析

优化过程中的关键要点

在优化过程中，我们会遇到不同的优化结果。存在全局最小值，它是成本函数的真正最小误差；同时也会有许多局部最小值，这些解看似能产生最小误差，但实际上并非如此，算法可能会陷入这些中间低谷。为了避免陷入局部最小值，鉴于优化过程的随机初始化，多次运行优化是很好的做法，即尝试不同的下降路径，避免卡在同一个局部最小值上。

大数据优化

机器学习本质上是一个优化问题，即在给定成本函数的情况下寻找全局最小值。使用所有可用数据进行优化显然具有优势，因为在每次迭代中，它能让我们找到相对于所有数据的最佳学习参数校正。这就是大多数机器学习算法倾向于使用所有可用数据，并希望这些数据能存储在计算机内存中的原因。

不过，可用硬件可能会成为瓶颈。当数据在计算机内存（假设约 8GB 或 16GB）限制内操作时，我们是在核心内存中工作，这种方式可以解决大多数机器学习问题。在核心内存中工作的算法称为批处理算法，就像工厂里的机器一次处理一批材料一样，这类算法一次学习处理和预测一个数据批，用数据矩阵表示。

但有时数据太大，无法放入核心内存。例如，来自网络的数据、传感器、跟踪设备、卫星和视频监控生成的数据，由于其规模与计算机内存相比过大，通常难以放入内存，但可以轻松存储在硬盘上，因为现在有廉价且大容量的存储设备，能轻松容纳数 TB 的数据。

数据采样策略

当数据太大无法放入单台计算机的内存时，可以采用以下采样策略：
1. 子采样 ：通过基于统计采样选择案例（有时甚至是特征），将数据重塑为更易于管理但规模较小的数据矩阵。虽然减少数据量不一定能提供与