
机器学习
文章平均质量分 82
我曾经被山河大海跨过
这个作者很懒,什么都没留下…
展开
-
XGBoost Plotting API以及GBDT组合特征实践
XGBoost Plotting API以及GBDT组合特征实践写在前面:最近在深入学习一些树模型相关知识点,打算整理一下。刚好昨晚看到余音大神在Github上分享了一波 MachineLearningTrick,赶紧上车学习一波!大神这波节奏分享了xgboost相关的干货,还有一些内容未分享….总之值得关注!我主要看了:Xgboost的叶子节点位置生成新特征封装的函数。之前就看过相关博文原创 2017-03-23 18:51:07 · 20108 阅读 · 13 评论 -
用户贷款风险预测之Top10初体验
用户贷款风险预测之Top10初体验写在前面:DataCastle智慧中国杯全国大数据创新应用大赛:本次参加的是三大赛题中的用户贷款风险预测(算法竞赛) 距离上次发博文又过去近两个月了,坚持写博客是件不容易的事,还得继续努力!中间过了个年,打了个比赛,时间过得真快,不过没有闲着,用寒假时间终于拿到比较满意的成绩。参加这个比赛是快放寒假的时候,想寒假找点事做做,当时就DC有三个比赛了吧,交通赛数据太大原创 2017-02-21 22:01:11 · 16548 阅读 · 20 评论 -
“上帝的算法”——EM
“上帝的算法”——EM写在前面:最近看完了吴军的《数学之美》,大赞!相比《统计学习方法》、《机器学习》来说,《数学之美》没有那么多的公式理论,全是科普性质的(开拓眼界),其中也不乏一些数学原理的解释,通俗易懂。作为一名数据挖掘爱好者,我觉得这本书是非常值得一读的,可以了解过去机器学习在自然语言处理、搜索广告以及大数据相关领域的发展。书中有一章节,吴军博士命名为:上帝的算法——期望最大化算法,可见作者原创 2016-12-12 19:31:55 · 8784 阅读 · 5 评论 -
2016Bytecup之菜鸟进阶
2016Bytecup之菜鸟进阶写在前面:好久没写文章了,最近两个月忙成狗,基本上都是白天实验室做项目,晚上抽时间打比赛、学习。今年上半年开始入门,然后断断续续参加了几个比赛,大多都是水过去了,感觉没学到东西。国庆回来后决定抽时间好好玩一个比赛,认真学习一下,当时看了bytecup还有天池的航空大数据比赛,看了赛题后决定主要精力做bytecup。主要考虑比较典型的监督学习问题可以更好学习特征工程、模原创 2016-11-28 21:15:45 · 3661 阅读 · 2 评论 -
随机森林(Random Forest)入门与实战
随机森林(Random Forest)入门与实战前言集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务,主要包含两类,一是个体学习器间存在强依赖关系、必须串行生成的序列化方法,比如前几篇博文介绍[提升学习方法]、 (http://blog.youkuaiyun.com/sb19931201/article/details/52425487)、提升树GBDT 详解、xgboost等。原创 2016-09-20 22:11:23 · 15353 阅读 · 1 评论 -
xgboost入门与实战(实战调参篇)
xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famous MNIST data—手写数原创 2016-09-18 20:33:37 · 69174 阅读 · 17 评论 -
xgboost入门与实战(原理篇)
xgboost入门与实战(原理篇)前言: xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid En原创 2016-09-16 20:26:50 · 298541 阅读 · 26 评论 -
提升树GBDT详解
提升树GBDT 详解For Xgboost:在前几篇笔记中以及详细介绍了决策树及提升方法的相关原理知识,本文是提升树与梯度提升方法的学习笔记,同时阅读了网络上的一些关于GBDT的博文,加强理解。为了能好好理解Xgboost,一步步把决策树及提升学习方法相关的算法知识都梳理了一遍,感觉还是很有收获的,趁周末基本完看完了GBDT的内容,下一步就是鼎鼎大名的Xgboost了,迫不及待!原创 2016-09-11 20:25:34 · 26055 阅读 · 13 评论 -
决策树学习笔记(二)
决策树学习笔记(二)接着上一篇接着上一篇笔记决策树学习笔记(一)继续学习,上一篇主要是对决策模型的初步认识和理解以及特征选择的一些规则;接下去就是决策树算法的具体实现和优化,包括决策树生成、剪枝以及分类与回归树(CART)详解。分类与回归树模型还会在后续的提升树学习中结合使用。原创 2016-09-09 23:37:24 · 7573 阅读 · 0 评论 -
决策树学习笔记(一)
决策树学习笔记(一)前言For GBDT:提升树、GBDT是以分类树或者回归树为基本分类器的提升方法,在看提升树算法的时候我发现对决策树学习的一些细节并不清晰了,于是决定从头再学一遍。之前的理解还是比较粗浅,一直以为决策树比较简单,类似于很多的简单规则一级一级拼凑起来,对决策树的条件概率表示、特征选择、决策树生成以及剪枝都没有真正的掌握。原创 2016-09-07 23:40:01 · 9460 阅读 · 3 评论 -
提升方法AdaBoost算法学习笔记
提升方法AdaBoost算法学习笔记For xgboost:为了好好学习xgboost,由于算法基础比较薄弱,曲线救国,从提升方法、提升树、GBDT一步步看起。手头有李航老师的《统计学习方法》以及周志华老师的西瓜书。对比来看,感觉李航老师的相对要好理解一些(步骤比较清晰,公式易懂,当然也有许多的不明白),周老师的西瓜书的算法介绍与公式推导更为直接(周老师喜欢用一些概率分布函数,公式抽象)原创 2016-09-03 21:19:23 · 8592 阅读 · 2 评论 -
win10(64位)python xgboost 详细安装教程
win10(64位)python xgboost 安装教程在看一些数据挖掘比赛的经验分享,看到很多都用到了xgboost并取得不错效果,于是down了大神们的解决方案,结合他们的代码学习数据挖掘比赛流程。在安装xgboost 的过程中,看网上各种教程走了很多弯路,在此分享下64位win10系统下安装python xgboost包的经验,希望能帮到和我一样的新手们少走弯路。原创 2016-08-18 00:10:55 · 21018 阅读 · 10 评论