- 博客(16)
- 收藏
- 关注
原创 为什么要对决策树进行减枝?如何进行减枝?
1.Gini指数2.为什么要对决策树进行减枝?如何进行减枝?剪枝是决策树解决过拟合问题的方法。在决策树学习过程中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,于是可能将训练样本学得太好,以至于把训练集自身的一些特点当作所有数据共有的一般特点而导致测试集预测效果不好,出现了过拟合现象。因此,可以通过剪枝来去掉一些分支来降低过拟合的风险。决策树剪枝的基本策略有...
2019-06-20 20:38:59
4268
原创 使用文本注解绘制树节点
import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxstyle="round4", fc="0.8")arrow_args = dict(arrowstyle="<-")def plotNode(nodeTxt, centerPt, ...
2019-06-12 14:59:12
190
原创 决策树模型结构 信息增益与信息增益率
1.决策树模型结构决策树算法是一种监督学习算法;决策树是一个类似流程图的树结构:每个内部节点(分支节点/树枝节点)表示一个特征或属性,每个树叶节点代表一个分类;构造决策树的基本算法:(1) ID3算法:使用信息增益进行特征选择。(2)C4.5算法:使用信息增益率进行特征选择,克服了信息增益选择特征的时候偏向于特征个数较多的不足。(3)CART算法:分类回归树,既可以用于分类,也可以用于...
2019-06-07 15:42:57
1868
原创 信息熵(香农熵)的通俗理解
1.熵的通俗理解样本集合不纯度,熵越小,集合不纯度越低;知识的不确定性,熵越小,不确定性越小;系统的复杂度,熵越大,系统越复杂;信息量是一具体事件发生所带来的信息;信息熵是一事件所有可能性产生信息量的期望。2.watermelon的信息熵(香农熵)代码如下:import numpy as npdef cancShannonEnt(dataSet): ''' :param...
2019-06-05 20:27:06
1478
原创 python简单实现逻辑回归(LR)
import numpy as npimport mathfrom sklearn import datasetsfrom collections import Counterinfinity = float(-2**31)#逻辑回归的实现def sigmodFormatrix(Xb,thetas): params = - Xb.dot(thetas) r = np....
2019-05-31 10:36:13
244
原创 手推朴素贝叶斯(Bayes)
从基础概率推导贝叶斯公式,朴素贝叶斯公式学习先验概率学习后验概率学习LR和linear regreeesion之间的区别推导sigmoid function公式
2019-05-23 15:35:23
553
原创 用python实现数据预处理
import pandas as pdimport numpy as np# 数据预处理def dataProcess(df): x_list, y_list = [], [] # df替换指定元素,将空数据填充为0 df = df.replace(['NR'], [0.0]) # astype() 转换array中元素数据类型 array = n...
2019-05-18 19:03:41
792
原创 过拟合和欠拟合解决办法有哪些
1.过拟合和欠拟合解决办法有哪些 ①正则化是机器学习中最常见的过拟合解决方法,在损失函数中加入正则项来惩罚模型的参数,以此来降低模型的复杂度,常见的添加正则项的正则化技术有L1,L2正则化。 ②剪枝是决策树中一种控制过拟合的方法,我们知道决策树是一种非常容易陷入过拟合的算法,剪枝处理主要有预剪枝和后剪枝这两种,常见的是两种方法一起使用。预剪枝通过在训练过程中控制...
2019-05-14 19:50:10
1570
原创 中心极限定理,学习正态分布,学习最大似然估计
1.了解什么是Machine learning机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。2.学习中心极限定理,学习正态分布,学习最大似然估计3.推导回归Loss functio...
2019-05-12 15:25:26
570
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人