
机器学习/数据挖掘
junxinwoxin
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习:决策树
未完待续原创 2017-10-30 09:57:18 · 273 阅读 · 0 评论 -
机器学习:R包与python的sklearn库中默认决策树模型的区别
R语言:R语言可以使用rpart包实现决策树fit3 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis,control = rpart.control(cp = 0.05))其中参数control 可以自己设置,也可以使用默认参数:#详见rpart参考pdfrpart.control(minsplit = 20, minbucke原创 2017-10-30 17:55:22 · 1345 阅读 · 0 评论 -
机器学习-随机森林(randomForest)模型的优化策略
随机森林模型的优化主要有两个方面的策略: 1.特征选择 1)输入特征按照其重要性从高到底排序,其中特征重要性排序可以根据与输出变量的皮尔森相关系数或者由支持向量机模型得出; 2)去除与输出变量相关性很小的特征; 3)在原有特征的基础上,添加新的特征,新特征可以是原有特征集的组合或划分,例如将year按season划分,将weekend和holiday组合为restday2.参数优化 以py原创 2017-11-09 17:22:19 · 22314 阅读 · 3 评论 -
IJCAI-18 阿里妈妈搜索广告转化预测 Top2%思路
IJCAI-18 阿里妈妈搜索广告转化预测 初赛Top2%思路源码链接赛题回顾搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向, 即广告商品被用户点击后产生购买行为的概率。本赛题给出了某月18日到24日的数据作为训练集,并从25日的数据中(按用户?)抽取30%的数据作为A榜测试集, 70%的数据作为B榜测试集...原创 2018-05-22 15:27:51 · 2456 阅读 · 1 评论 -
模型融合方法总结
1.简单平均即各模型结果的均值2.加权平均各模型结果*权值再求和,其中权值通过交叉验证确定,权值之和为13.sigmoid平均 适合模型结果差异比较小的情况 4.bagging从特征,参数,样本的多样性差异性来做多模型融合,参考随机森林5.blending首先将训练集分为两部分(D1和D2),一部分用于第一层(level 1)的训练,另一部分用于第二层(...原创 2018-05-22 16:43:45 · 6946 阅读 · 0 评论