给定一个问题以及相应的data ( 是一个sample pair(x,y)),若采用机器学习的手段来解决,那么要分两步走:
1. 模型选择:即选定一族函数 F,这个大F可以是SVM,linear regression,boosting,或者nerual networks(neural network就是一个funciton approximator)等等。
2. 模型参数估计:选定了模型即选定了
之后, 现在要做的就是通过优化(loss
)的方法解得最优的一组w,从而得到模型 f。
当training set很大时(large scale training),每次优化的update都average (the loss & gradient)over all z in Z太耗时耗资源,因此,就牵扯到利用一个采样得到的样本batch进行一次update。这就引出了expected risk E(f)和empirical risk En(f)的概念:
- Emprical risk En(f):一个样本batch(n个samples(xi,yi))上的average loss。衡量的是模型在训练集上的性能。