
机器学习-特征选择
我很平凡的
机器学习 大数据 推荐系统
展开
-
机器学习 过拟合问题
在机器学习的过程中,经常会出现过拟合导致算法性能下降的问题。那么,什么是过拟合,导致过拟合问题的原因与解决过拟合问题的方法都有那些呢?在此,做个简短总结。 1、什么是过拟合 欠拟合是指模型没有能够很好的表现数据的结构,而出现的拟合度不高的情况。 过拟合是指模型过分的拟合训练样本,但对测试样本预测准确率不高的情况,也就是说模型泛化能力很差。如下图所示: 2、过拟合的原因 (1)数据特征的原创 2016-11-29 18:03:32 · 1115 阅读 · 0 评论 -
机器学习&数据挖掘:特征选择之Filter : Focus Approach
Focus Approach[1]方法是基于穷举搜索的Filter方法,该方法倾向于选择能够区分样本的最小特征子集。Focus Approach特征选择的度量是一致性度量。 通俗来说,特征选择的一致性是:给定两个样本,若它们在特征x1与x2的取值一样但这两个样本不属于同一类别,则特征子集{x1,x2}不是最终要选择的特征子集。 Focus Approach的步骤如图所示: 可以看出,Fo原创 2016-11-14 18:30:47 · 3193 阅读 · 0 评论 -
广告CTR:Decision tree + LR 混合模型
文章指出高质量的用户特征、广告特征以及合适的模型是非常重要的,相比较而言,data freshness 、learning rate schema 与data sampling对效果的提升贡献比较小。 1、EXPERIMENTAL SETUP 实验用的评价指标是Normalized Entropy(NE) 和 Calibration,关于这两个指标在此不再赘述 2、PREDICTION原创 2017-01-15 09:20:53 · 1739 阅读 · 1 评论 -
随机森林&特征选择
根据模型的生成过程,随机森林可分为Forest-RI、Forest-RC等不同类型。这里对Forest-RI、Forest-RC进行简单的介绍。 1、Forest-RI: 在节点分裂时,随机的选择F个特征作为候选分裂特征,然后从这随机选择的F特征中挑选出最佳分裂特征。以此种方式生成决策树,进而得到随机森林。可见F值对模型的性能是有影响的。[1]通过实验讨论了F值对模型效果的影响:Forest-RI原创 2017-03-04 15:47:39 · 16990 阅读 · 0 评论