14、机器学习优化与验证全解析

机器学习优化与验证全解析

优化过程中的关键要点

在优化过程中,我们会遇到不同的优化结果。存在全局最小值,它是成本函数的真正最小误差;同时也会有许多局部最小值,这些解看似能产生最小误差,但实际上并非如此,算法可能会陷入这些中间低谷。为了避免陷入局部最小值,鉴于优化过程的随机初始化,多次运行优化是很好的做法,即尝试不同的下降路径,避免卡在同一个局部最小值上。

大数据优化

机器学习本质上是一个优化问题,即在给定成本函数的情况下寻找全局最小值。使用所有可用数据进行优化显然具有优势,因为在每次迭代中,它能让我们找到相对于所有数据的最佳学习参数校正。这就是大多数机器学习算法倾向于使用所有可用数据,并希望这些数据能存储在计算机内存中的原因。

不过,可用硬件可能会成为瓶颈。当数据在计算机内存(假设约 8GB 或 16GB)限制内操作时,我们是在核心内存中工作,这种方式可以解决大多数机器学习问题。在核心内存中工作的算法称为批处理算法,就像工厂里的机器一次处理一批材料一样,这类算法一次学习处理和预测一个数据批,用数据矩阵表示。

但有时数据太大,无法放入核心内存。例如,来自网络的数据、传感器、跟踪设备、卫星和视频监控生成的数据,由于其规模与计算机内存相比过大,通常难以放入内存,但可以轻松存储在硬盘上,因为现在有廉价且大容量的存储设备,能轻松容纳数 TB 的数据。

数据采样策略

当数据太大无法放入单台计算机的内存时,可以采用以下采样策略:
1. 子采样 :通过基于统计采样选择案例(有时甚至是特征),将数据重塑为更易于管理但规模较小的数据矩阵。虽然减少数据量不一定能提供与

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值