
校招
文章平均质量分 81
杨树1026
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘-特征工程(特征挖掘)
什么是好?好的特征代表了灵活性、更简单的模型和更好的结果,不相关的特征则会影响模型的泛化性。因此特征选择和特征工程并非是互相排斥的,而是相辅相成的。有效的特征工程能够帮助我们提炼数据的代表。接着问题就来了,什么才是好的代表?代表的好坏取决于里面所包含信息的好坏。熵(Entropy,熵值越高,数据中所包含的信息越多),方差(Variance,方差越大,数据中所包含的信息越多),更好的分离映射(Pro...翻译 2018-03-25 16:50:58 · 7190 阅读 · 0 评论 -
树模型中分裂特征选择标准--信息熵,信息增益,信息增益率的计算
1.熵:集和的熵值 -sum(pi * log(pi , 2))2.信息增益:集和的熵-按照特征a划分后子集的熵加权和(偏向类别数目多的属性) 3.信息增益率:信息增益/属性的熵(偏向类别数目少的属性)4.基尼值:1-集和各类别值的概率平方和(随机抽取两个样本其类别不一致的概率) 1 - sum(pi**2)5.基尼系数:按照属性a划分后各子集的加权基尼和ID3:判别式模型,分类树,多叉树,信息增...原创 2018-03-25 17:06:34 · 5051 阅读 · 0 评论 -
随机森林,GBDT,XGBOOST三种集成算法的特点与对比
目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagging和“随机森林”(Random Forest)。随机森林自助抽样,特征采样,无剪枝,投票,减小方差1,原理:提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:放回抽样,多数...原创 2018-04-09 14:38:51 · 20839 阅读 · 0 评论 -
支持向量机svm原理与常见问题
1,参数 C : float, optional (default=1.0):惩罚系数,越大越会过拟合 kernel : string, optional (default='rbf'):核函数,linear:线性, poly:多项式, rbf:高斯, sigmoid:sigmod, precomputed: ,callable:自定义。 degree : int, opt...原创 2018-10-22 15:40:20 · 1294 阅读 · 0 评论 -
决策树ID3,C4.5,CART
ID3 : 信息增益、集和熵-集和按照属性划分后每个子集信息熵加权和C4.5 : 信息增益率、信息增益/属性信息熵,剪枝,连续,缺失CART: 基尼系数、按照属性划分后每个子集合基尼指数加权和(1-概率平方和),二叉树,特征再分裂参数1,criterion : string, optional (default="gini"),节点分裂标准2,splitter : string, op...原创 2019-03-19 09:52:22 · 290 阅读 · 0 评论