SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差。C过大或过小,泛化能力变差
gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的个数影响训练与预测的速度。
Grid Search
Grid Search是用在Libsvm中的参数搜索方法。很容易理解:就是在C,gamma组成的二维参数矩阵中,依次实验每一对参数的效果。
使用grid Search虽然比较简单,而且看起来很naïve。但是他确实有两个优点:
- 可以得到全局最优
- (C,gamma)相互独立,便于并行化进行
正是因为有这样的性质,所以才使得可以利用MapReduce对模型进行训练
Grid Search in MapReduce
基本思路:
MapReduce分为Map和Reduce两个阶段,Map阶段会将数据切片,分发到不同的机器上。在Reduce阶段会将具有相同Key的<Key,Value>进行汇总。
结合我们现在的需求,我们的目的是想通过MR将