sklearn监督学习总结笔记(优点、缺点和参数)

k最近邻

适用于小型数据集

优点
  • 模型很容易理解,通常不需要过多调节就可以得到不错的性能,是一种很好的基准方法
缺点
  • 预测速度慢,不能处理具有很多特征的数据集
  • 对于大多数特征的大多数取值都为0的数据集(稀疏数据集)来说,这一算法的效果尤其不好。
参数
1、邻居个数 n_neighbors
  • 随着邻居个数的增多,模型变得简单,决策边界越来越光滑,训练集精度下降
  • 使用较小的邻居个数(比如3个或5个)往往可以得到比较好的结果
2、数据点之间距离的度量方法:默认使用欧式距离

 


 

线性模型

  • 适用于非常大的数据集(训练其他模型不太可行),对稀疏数据也很有效,也适用于高维数据。
  • 如果特征数量大于样本数量,线性模型的表现通常都很好。
  • LinearRegression对数据存在过拟合,Ridge是一种约束更强的模型,更不容易过拟合,Lasso使某些系数刚好为0,更容易解释
优点
  • 线性模型的训练速度非常快,预测速度也很快。可以推广到非常大的数据集,对稀疏数据也有效。如果数据包含数十万甚至上百万个样本,可能需要研究如何使用LogisticRegressionRidge模型的solver='sag'选项,在处理大型数据时,这一选项比默认值要更快。
  • 用了我们之间见过的用于回归和分类的公式,理解如何进行预测是相对比较容易的。
缺点
  • 往往不完全清楚系数为什么是这样的。如果数据集中包含高度相关的特征,很难对系数做出解释。
  • 在更低维的空间中,其他模型(SVM等)的泛化性能可能更好。
参数
1、正则化参数
①回归正则化参数 alpha
  • 默认alpha=1
  • alpha值越大,使系数更加趋于0,模型更加简单;
  • 减小alpha值可以提高泛化性能,alpha太小会出现过拟合,得到线性回归的相似结果
②分类正则化参数 C
  • 默认C=1
  • C值越小,系数向量更接近于0,模型比较简单,尽量适应“大多数”数据点,正则化强;
  • C值越大,尽可能将训练集拟合到最好(使每个数据点分类准确)
2、回归:L1正则化(Lasso)还是L2正则化(Ridge)
 分类:L1正则化还是L2正则化 penalty=”l1”solver='liblinear'
  • 默认使用L2正则化
  • 如果假定只有几个特征是真正重要的,如果模型的可解释性很重要的话,那么应该用L1正则化。由于L1只用到几个特征,所以更容易解释哪些特征对模型是重要的,以及这些特征的作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值