-
s信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
熵表示随机变量不确定的度量,熵越大,随机变量的不确定性就越大。
条件熵是随机变量X的条件下随机变量y的不确定性。称为H(Y|X)
联合熵就是度量一个联合分布的随即系统造成的不确定度,这个与信息熵一样是一个数学期望 -
决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
算法原理:决策树需要做出决策也就是对数据进行不断的分类,对数据进行不断的清洗,
决策树建好之后,带着目标对象按照一定规则遍历这个决策树就能得到最终的分类结果。 -
回归树原理
在回归树中,叶子节点的预测值一般为叶子节点中所有值的均值来作为当前叶子
节点的预测值。所以在回归树中一般采用MSE作为树的评价指标,即均方差 -
决策树防止过拟合手段
少一些特征方案,少一些决策选择 -
模型评估
回归参照线性回归评价指标,分类参照Logistic评价指标 -
sklearn参数详解,Python绘制决策树
class sklearn.linear_model.LogisticRegression(
penalty=’l2’, 参数类型:str,可选:‘l1’ or ‘l2’, 默认: ‘l2’。该参数用于确定惩罚项的范数
dual=False, 参数类型:bool,默认:False。双重或原始公式。使用liblinear优化器,双重公式仅实现l2惩罚。
tol=0.0001, 参数类型:float,默认:e-4。停止优化的错误率
C=1.0, 参数类型:float,默认;1。正则化强度的导数,值越小强度越大。
fit_intercept=True, 参数类型:bool,默认:True。确定是否在目标函数中加入偏置。
intercept_scaling=1, 参数类型:float,默认:1。仅在使用“liblinear”且self.fit_intercept设置为True时有用。
class_weight=None, 参数类型:dict,默认:None。根据字典为每一类给予权重,默认都是1.
random_state=None, 参数类型:int,默认:None。在打乱数据时,选用的随机种子。
solver=’warn’, 参数类型:str,可选:{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, 默认:liblinear。选用的优化器。
max_iter=100, 参数类型:int,默认:100。迭代次数。multi_class=’warn’, 参数类型:str,可选:{‘ovr’, ‘multinomial’, ‘auto’},默认:ovr。如果选择的选项是’ovr’,
那么二进制问题适合每个标签。对于“多项式”,最小化的损失是整个概率分布中的多项式损失拟合,即使数据是二进制的。当solver ='liblinear’时,'multinomial’不
可用。如果数据是二进制的,或者如果solver =‘liblinear’,‘auto’选择’ovr’,否则选择’multinomial’。
verbose=0, 参数类型:int,默认:0。对于liblinear和lbfgs求解器,将详细设置为任何正数以表示详细程度。
warm_start=False, 参数类型:bool,默认:False。是否使用之前的优化器继续优化。
n_jobs=None,参数类型:bool,默认:None。是否多线程