决策树&回归树

决策数的核心类容

1:如何确定最佳节点和最佳分支
2:决策数什么时候停止生长(防止过拟合)

sklearn中的决策树

在这里插入图片描述

sklearn训练流程

在这里插入图片描述

from sklearn import tree   #导入需要的模块

clf = tree.DecisionTreeClassifier()    #实例化
clf = clf.fit(x_train,y_train)      #训练集数据训练模型
result = clf.score(x_train,y_train)		#导入测试积,获取需要的信息

决策树分类器DecisionTreeClassifier

重要参数

class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)


# 重要参数
criterion //标准:用来决定“不纯度”的计算方式
	1)entropy(信息熵):更加敏感,欠拟合的时候用信息熵
	2)gini(基尼系数):适用于高维数据和噪音很多的数据
**********不纯度:衡量最佳节点和最佳分支的标准,不纯度越低越好,子节点不纯度一定小于父节点。

======================随机参数=======================
random_state  //消除随机性
	1)随便指定一个数
splitter   //消除随机性,同时调整过拟合
	1)best   默认
	2)random   随机,更加敏感
===================================================


=====================剪枝参数=========================
max_depth    //设置最大层数
min_samples_leaf 	//任意子节点得最小样本量
min_samples_split	//任意父节点得最小样本量
max_features    //设置最多使用的特征数
min_impurity_decrease   //设置信息增益的大小,当信息增益小于这个限定值时,停止分支
信息增益:父节点信息熵-子节点信息熵
====================================================



=======================标签权重参数:对样本标签进行均衡==============
class_weight

class_weight_fraction_leaf

重要接口

clf.fit()   //训练接口

clf.score()   //评价接口,返回准确度accuracy

clf.apply()

clf.predict()     //预测接口

回归树

重要参数(和决策数一样,不一样的在线面说明)

criterion  //标准。MSE或者MAE。

重要接口

fit()	//返回R^2  不是MSE

交叉验证

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值