
机器学习
罗伦
这个作者很懒,什么都没留下…
展开
-
Xgboost如何处理缺失值
XgboostXgboost简介Xgboost[1]是由陈天奇提出的一种集成学习方法,要想了解Xgboost,这里建议先了解决策树,再了解GBDT(Gradient boosting descent tree)即梯度提升树,再学习理解Xgboost。推荐学习方式,阅读[1]这篇论文,你将对Xgboost如何处理缺失值,以及模型复杂度控制有更加深刻的理解(注:对论文中正则化方式有疑问,可留言讨论)。...原创 2018-02-27 08:47:06 · 14782 阅读 · 3 评论 -
TP,TN,FP,FN,Precision,Recall,sensitivity,specificity,FPR,TPR,F1值,ROC曲线,PR曲线的解释
参数定义在机器学习里面,通过会用到一些评价指标提到ROC曲线,F1-score等问题,这篇文章主要讲述了各参数是如何定义的,以及相互之间的关系。首先,看一张表格:预测\实际正 负正TP FP负FNTN接下来,解释着四个参数的具体含义TP:实际是正例,预测为正例 FP:实际为负例,预测为正例 TN:实际为负例,预测为负例 FN:实际为正例,预测为负例公式推导Recall=sensitivi...原创 2018-03-07 15:53:26 · 12516 阅读 · 1 评论 -
机器学习中,有监督与无监督训练的区别与联系
简单来说,是否有监督,就看输入是否有标签(label)。监督学习即通过已有的训练样本来训练,从而得到一个最优模型,再利用这个模型将数据样本映射为相应的结果。例如:分类,回归各种算法,SVM, KNN, RF, GBDT等等。 无监督学习如聚类,包括K-Means,模糊c均值等。 ...原创 2018-02-27 19:06:06 · 4792 阅读 · 0 评论 -
机器学习、深度学习中过拟合的理解及解决方法
过拟合的定义 指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是训练集上效果好,在测试集上效果差。模型泛化能力弱。解决过拟合的方法发生过拟合主要有两方面的原因,下面就从数据和模型复杂度来考虑。数据获取更多的数据:从数据源头获取;根据当前数据集估计数据分布参数,使用分布产生;数据增强,通过一定规则获取数...原创 2018-02-27 19:11:58 · 1575 阅读 · 1 评论 -
机器学习、深度学习中欠拟合的解决方法总结
欠拟合在机器学习、深度学习领域,经常会涉及到的一个问题就是欠拟合。欠拟合通俗的讲是因为模型太简单。解决方法从数据层面上考虑可以增加新特征,例如,组合、泛化、相关性、高次特征,来增大假设空间等;从模型层面上考虑增加模型的复杂度,例如SVM的核函数,决策树不进行剪枝、DNN等更复杂的模型,去掉正则化项或者减小正则化参数,加深训练轮数等。...原创 2018-03-07 20:44:10 · 4085 阅读 · 1 评论 -
随机森林之信贷风险模型特征工程
信贷风险模型 今天在复习随机森林的时候,突然有了一些思考:信贷风险模型在我的理解,就是为了评估某个客户(企业,个体)在贷款等相关业务中,是否能够有效的将其贷款回收。通过自己的一些了解与猜想,信用评估模型中的主要评价来源是客户的数据。那么,数据可能会存在各种各样的数据,例如其历史借贷信息等。同时,收集的数据肯定会有很多的噪声。所以,如何根据这些特征信息来分析客户的借贷情况就显得尤为重要。...原创 2018-03-08 10:46:20 · 3153 阅读 · 3 评论 -
Xgboost原理、与Boosted Tree关系
转自:《 XGBoost 与 Boosted Tree | 我爱计算机 》 作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色...转载 2018-04-11 11:08:01 · 1262 阅读 · 0 评论 -
Isotonic Regression 校准
转载自: vividfree的博客 使用 Isotonic Regression 校准分类器 1. 引言对有监督机器学习问题,通常的训练流程包括这样几步:先建立起模型,然后在训练集上训练模型,如果有超参数,还需要在验证集上应用交叉验证以确定超参数,总之最终会得到一个模型。在这样的流程下,不断优化模型,如果在测试集上取得了较高的准确率、召回率、F-score或者AUC后,...转载 2018-06-21 10:51:48 · 5523 阅读 · 0 评论