分类问题
n为特征数,m为训练样本数。
- 如果相较于m,n要大很多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。
- 如果n较小,且m大小中等,例如n在1~1000,m在10 ~ 10000 之间,使用高斯核函数的支持向量机。
- 如果n较小,而m较大,例如n在1~1000, 而m大于50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。
- 选择支持向量机是因为它的代价函数是凸函数,不存在局部最小值,但是支持向量机的难点在于核函数的选择和参数C(也是正则化中的难点)的选择,选择不当容易造成高偏差或者高方差问题。
- 神经网络在这三种情况下都有较好的表现,但是训练神经网络可能会非常慢。
回归问题
聚类问题
特诊工程
PCA
PCA通常被用作特征压缩的一种方式,用于减少计算时间或数据的储存空间,提高效率使用,原理是PCA通常也可以作为减少过拟合方式的一种,但是不推荐这样做,过拟合问题做好的处理方式还是调整正则化系数,除非在样本特征量过大,导致算法运行时间过长或者内存占用太多(特别在视频和图片处理算法中)时才考虑使用PCA。