
机器学习
Ice Cream_069
超越自我!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
决策树
链接:https://zhuanlan.zhihu.com/p/61842339一、随机森林RF与GBDT的区别二者的共同点· 都是由多棵树组成;· 最终的结果都由多棵树共同决定;· 生成样本集的时候都使用了boostrap;二者的不同点· 组成RF的可以是分类树也可以是回归树,但组成GBDT的只能是回归树;· RF可以并行,GBDT只能串行;· 对于输出结果,RF使用多数表决...原创 2019-06-13 17:46:20 · 427 阅读 · 0 评论 -
k-折交叉验证
一、k折交叉验证的目的(为什么要用k折交叉验证?)1.根本原因:数据有限,单一的把数据都用来做训练模型,容易导致过拟合。(反过来,如果数据足够多,完全可以不使用交叉验证。)较小的k值会导致可用于建模的数据量太小,所以小数据集的交叉验证结果需要格外注意,建议选择较大的k值。2.理论上:使用了交叉验证,模型方差“应该”降低了。在理想情况下,我们认为k折交叉验证可以 O(1/k)O(1/k)O(1...原创 2019-06-18 20:52:58 · 13966 阅读 · 2 评论 -
数据不平衡-机器学习
###一、首先什么是数据不平衡问题?在金融反欺诈,广告点击率等问题中,正样本特别少,负样本特别多。但是针对此类问题,(1)对于召回有特别大的需求,就是说每个正样本的预测都远比一个负样本的预测重要,如果不做任何处理,很多时候拿不到我们希望的结果,因此这个时候需要对数据进行处理。什么时候可以不用处理呢?(1)问题的指标是AUC或ROC时,处理和不处理的差别没那么大。那么问题来了AUC和ROC指标...原创 2019-09-06 12:13:42 · 1923 阅读 · 1 评论 -
AUC和ROC指标
机器学习分类器性能指标:roc曲线和auc值真正类率(True positive Rate)TPR:TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例;负正类率(False positive Rate)FPR:FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。真负率(True Negative Rate)TNR:TN/(FP+TN),代表分类器预...转载 2019-08-10 20:45:44 · 662 阅读 · 0 评论