关于Stochastic Gradient Descent和机器学习的优化问题

本文探讨了在机器学习中模型选择和参数估计的过程,重点在于优化方法,如Mini-batch GD和Stochastic GD。对于大规模数据集,Mini-batch GD优化empirical risk,而Stochastic GD通过随机采样优化expected risk,尽管存在噪声,但有望达到与全批量GD相似的性能。文章还讨论了不同优化算法的收敛性和学习率的影响。

给定一个问题以及相应的data (z \in Z 是一个sample pair(x,y)),若采用机器学习的手段来解决,那么要分两步走:

1. 模型选择:即选定一族函数 F,这个大F可以是SVM,linear regression,boosting,或者nerual networks(neural network就是一个funciton approximator)等等。

2. 模型参数估计:选定了模型即选定了f_{w}(x)\in F之后, 现在要做的就是通过优化(loss Q(z,w)=l(f_{w}(w), y))的方法解得最优的一组w,从而得到模型 f。

当training set很大时(large scale training),每次优化的update都average (the loss & gradient)over all z in Z太耗时耗资源,因此,就牵扯到利用一个采样得到的样本batch进行一次update。这就引出了expected risk E(f)和empirical risk En(f)的概念:

  • Emprical risk En(f)一个样本batch(n个samples(xi,yi))上的average loss衡量的是模型在训练集上的性能

                                                                      

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值