
机器学习/数据挖掘
文章平均质量分 77
choven_meng
这个作者很懒,什么都没留下…
展开
-
特征处理-分箱
1、最优分箱def optimal_binning_boundary(x, y, nan=-999, params1=10, params2=0.05): ''' 利用决策树获得最优分箱的边界值列表 ''' boundary = [] # 待return的分箱边界值列表 x = x.fillna(nan).values # 填充缺失值 y = y.values clf = DecisionTreeClassifie原创 2021-08-02 14:02:56 · 998 阅读 · 0 评论 -
各算法参数详解
一、树模型决策树分类模型原创 2021-05-24 14:47:25 · 505 阅读 · 0 评论 -
逻辑回归详解
逻辑回归通常用于解决分类问题,比如:客户是否该买某个商品,借款人是否会违约等。实际上,“分类”是逻辑回归的目的和结果,中间过程依旧是“回归”,因为通过逻辑回归模型,我们得到的是0-1之间的连续数字,即概率,类似借款人违约的可能性。然后给这个可能性加上一个阈值,就变成了分类。逻辑回归与线性模型的关系逻辑回归是线性模型,但属于广义线性模型。普通线性模型与广义线性模型的联系:1、普通线性模型普通线性模型的表达式:是截距项,是未知参数。普通线性模型具备以下特点:响应变量y服从正.原创 2020-10-16 18:35:40 · 10453 阅读 · 1 评论 -
样本数据集不平衡处理方式
原始数据中经常存在正负样本不均衡,比如正负样本的数据比例为100:1.常用的解决办法有:1、数据上处理2、权重设置3、集成的思想4、转化成异常检测问题5、利用深度学习:自编码器.6、确定适合样本不平衡问题的评价指标1、数据上处理1.1、数据源: 搜集更多的数据来使数据达到平衡,但是一般出现样本不平衡问题,就是不太可能以一种简单的方法获取到更多的样本(在金融领域,可以思考坏用户的定义是否过于严格)1.2、数据增广: 目前数据增广主要应用于图像领域,...原创 2020-10-14 15:44:54 · 4781 阅读 · 0 评论 -
数据预处理
1、数据预处理2、特征选择特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。...原创 2020-10-14 15:33:18 · 8637 阅读 · 0 评论 -
聚类算法
聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在机器学习中被称作 unsupervised learning (无监督学习)通常,人们根据样...原创 2018-11-02 00:14:41 · 5084 阅读 · 2 评论 -
模型融合:stacking&blending
对于机器学习和深度学习来说,用单模型的效果往往都没有进行模型融合后的效果好。对模型来说,我们需要选择具有多样性、准确性的模型,对于融合的方式来说也有很多种,比如最简单的取平均或者投票法就是一种。这里主要讲一下stacking和blending,二者都是用了两层的模型。1.stackingstacking也是一种模型融合的方法,首先,直接用所有的训练数据对第一层多个模型进行k折交叉验证,...原创 2018-10-08 18:38:36 · 1890 阅读 · 3 评论 -
集成学习—Boosting、Bagging
目录集成学习1、Boosting1.1、AdaBoost1.2、GBDT1.3、XGBoost2、Bagging2.1、随机森林3、Boosting与Bagging对比集成学习集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system).如下图,集成...原创 2018-09-28 17:45:53 · 2893 阅读 · 0 评论 -
决策树—ID3、C4.5、CART
目录一、决策树模型与学习1、决策树模型2、决策树学习 二、特征选择1、信息增益2、信息增益率三、决策树的生成1、ID3算法2、C4.5算法3、CART算法四、决策树停止分裂的条件五、连续值和损失值处理决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,可以认为...原创 2018-09-28 15:26:04 · 22497 阅读 · 6 评论 -
机器学习/数据挖掘知识整理
目录一、常用排序算法二、正负样本不平衡处理方法总结三、过拟合和欠拟合1、过拟合2、欠拟合四、向量的相似度计算常用方法五、模型参数和超参数六、模型评价1、准确率Accuracy、查准率(精确率)precision、查全率(召回率)recall、F1:2、ROC与AUC3、KS(洛伦兹曲线)评分一、常用排序算法二、正负样本不平衡处理方法总结原...原创 2018-09-21 01:55:40 · 2958 阅读 · 0 评论