
机器学习
文章平均质量分 85
qingsi11
这个作者很懒,什么都没留下…
展开
-
特征离散化方法
一、为什么要离散化?1、 算法需要如决策树是基于离散数据展开的。离散化能减少算法的时间和空降开销,减少数据的噪音,提高分类聚类能力;2、离散化特征更容易理解,比如,用户在哪个区间表示高收入和低收入。3、避免异常值的影响二、离散化的优势在机器学习中很少直接将连续值作为逻辑回归的特征输入,而是将连续特征离散化为0,1值,再作为特征输入,这样做的优点是:增加和减少容易,可以快速迭代;稀疏向量内积运算快,易储存,易扩展;离散化后对异常数据有很强的鲁棒性,减少异常值的干扰;连续变量分箱有主要分为两大原创 2021-01-29 09:27:12 · 2421 阅读 · 0 评论 -
模型评价指标ROC\AUC\KS值
一、ROC曲线ROC曲线(Receiver Operating Characteristic),是一个二维的曲线图,横坐标是FPR(即实际为负例样本,被错误判断为正例的比率),纵坐标TPR(即实际为正例样本,被正确判断为正例的比率)。ROC是怎么画出来的?遍历所有的概率值,例如取概率大于0.7的判断为正例,小于0.7的判断为负例,对应可以算出一组(FPR,TPR),阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。曲线距离左上角越近,证明模型效果越好。如下图红线。主要作用:RO原创 2021-01-27 15:31:55 · 3145 阅读 · 0 评论