算法选择

分类问题

n为特征数,m为训练样本数。

  1. 如果相较于m,n要大很多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。
  2. 如果n较小,且m大小中等,例如n在1~1000,m在10 ~ 10000 之间,使用高斯核函数的支持向量机。
  3. 如果n较小,而m较大,例如n在1~1000, 而m大于50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。
  4. 选择支持向量机是因为它的代价函数是凸函数,不存在局部最小值,但是支持向量机的难点在于核函数的选择和参数C(也是正则化中的难点)的选择,选择不当容易造成高偏差或者高方差问题。
  5. 神经网络在这三种情况下都有较好的表现,但是训练神经网络可能会非常慢。

回归问题

聚类问题

特诊工程

PCA

PCA通常被用作特征压缩的一种方式,用于减少计算时间或数据的储存空间,提高效率使用,原理是PCA通常也可以作为减少过拟合方式的一种,但是不推荐这样做,过拟合问题做好的处理方式还是调整正则化系数,除非在样本特征量过大,导致算法运行时间过长或者内存占用太多(特别在视频和图片处理算法中)时才考虑使用PCA。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值