机器学习之大规模机器学习和随机梯度下降(吴恩达机器学习)

1. 大规模机器学习

1.1 大型数据集

现实世界中,往往数据集的规模很大,譬如人口普查数据、谷歌、阿里、亚马逊,....等这些互联网公司产生的海量数量。不论采用怎样的算法或优化,可能最后决定模型准确度的主要因素就是数据集的规模,于是,研究和优化大规模数据集的训练变成了很重要的内容。

在这里插入图片描述

针对大数据集,如果我们一上来就用传统的梯度下降算法,可能往往会训练很慢很慢,达不到预期要求。那么我们该投入多少数据量来训练模型?便成了一个很实际的问题。譬如,数据总量有1亿条,那么我是不是将数据集的尺寸设为m = 100000000,来投入模型训练 ?

这时,行之有效的方法是投入一个较小数量的样本经行检查式的预训练,并观察训练损失、验证损失和数据集数量m的关系曲线:

在这里插入图片描述

假设我们预训练数据集尺寸m = 1000, 训练和交叉验证数据集的损失和m的关系如上右图,则表示,即使我们

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辣椒种子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值