当我们拿到数据之后,构建机器学习算法的第一步应当是:观察数据,总结规律。
目前由于大数据和深度学习的发展,很多人会认为,只要收集足够多的数据,从网上的开源算法模型中随便找一个,直接将数据丢到模型中去训练,就可以获得很好的结果。这样的观点在大多数情况下都是不正确的。我们需要对数据有一个感性的认识,如果我们对数据没有感性的认识,我们就很难设计出好的算法,也很难估计算法可能达到的性能极限。
对于不同的机器学习任务,我们怎么样去选择一个更好的机器学习算法呢?
没有免费午餐定理(No Free Lunch Theorem)
1995年,Wolpert和Macerday提出了没有免费午餐定理。该定理的大致内容概括为:任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好。如果不对数据在特征空间的先验分布有一定的假设,那么表现好与表现不好的情况一样多。因此,没有任何情况下都最好的机器学习算法。