机器学习优化与验证全解析
优化过程中的关键要点
在优化过程中,我们会遇到不同的优化结果。存在全局最小值,它是成本函数的真正最小误差;同时也会有许多局部最小值,这些解看似能产生最小误差,但实际上并非如此,算法可能会陷入这些中间低谷。为了避免陷入局部最小值,鉴于优化过程的随机初始化,多次运行优化是很好的做法,即尝试不同的下降路径,避免卡在同一个局部最小值上。
大数据优化
机器学习本质上是一个优化问题,即在给定成本函数的情况下寻找全局最小值。使用所有可用数据进行优化显然具有优势,因为在每次迭代中,它能让我们找到相对于所有数据的最佳学习参数校正。这就是大多数机器学习算法倾向于使用所有可用数据,并希望这些数据能存储在计算机内存中的原因。
不过,可用硬件可能会成为瓶颈。当数据在计算机内存(假设约 8GB 或 16GB)限制内操作时,我们是在核心内存中工作,这种方式可以解决大多数机器学习问题。在核心内存中工作的算法称为批处理算法,就像工厂里的机器一次处理一批材料一样,这类算法一次学习处理和预测一个数据批,用数据矩阵表示。
但有时数据太大,无法放入核心内存。例如,来自网络的数据、传感器、跟踪设备、卫星和视频监控生成的数据,由于其规模与计算机内存相比过大,通常难以放入内存,但可以轻松存储在硬盘上,因为现在有廉价且大容量的存储设备,能轻松容纳数 TB 的数据。
数据采样策略
当数据太大无法放入单台计算机的内存时,可以采用以下采样策略:
1. 子采样 :通过基于统计采样选择案例(有时甚至是特征),将数据重塑为更易于管理但规模较小的数据矩阵。虽然减少数据量不一定能提供与