- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 决策树剪枝
剪枝决策树模型常常会遇到过拟合的问题。直观地理解,决策树几乎可以无限制地划分树中的节点,模型的预测结果很完美(针对训练数据),但实际上,模型完全没有完全捕捉到数据间内在的联系。用一些手段防止决策树决策树过细地划分节点,学术上被形象地称为剪枝(pruning),根据使用时间点的不同,具体的方法可以分成以下两类:前剪枝:用于决策树的生产过程中,通过一些阈值来限制决策树的生长,比如max_d...
2018-08-22 00:32:57
348
原创 决策树预测算法以及模型的联结
决策树预测算法以及模型的联结针对分类问题,叶子节点给出的数据属于每个类别的概率,而这个概率值等于各个类别的数据占比。假设数据分为K类,分别记为0,1,…,K-1,叶子节点上一共有N个数据,则P(y=i)=Σj1{yj=i}/N。基于预测得到的概率,就可以很直接地得到最终的预测结果为出现概率最大的类别。 针对回归问题,叶子节点的处理方式类似,最终的预测结果等于节点内标签变量{yi}的平均值。...
2018-08-22 00:32:03
3084
1
原创 决策树评判标准
针对分类问题,划分规则的评判可以分为两步:1.如果一个节点上的数据都差不多是同一类别,那么,这个节点就几乎不需要再做划分了,否则想要针对该节点,生成新的划分规则。2.如果新的规则能基本上把节点上不同类别的数据离开,使得每个子节点上都是类别比较单一的数据,那么这个规则就是一个好规则。当前节点记为m,节点上一共有Nm个数据。定义类别i在该节点上的占比如下: 现在定义节点的不纯度,通...
2018-08-20 20:30:44
6288
原创 混淆矩阵(confusion matrix)
混淆矩阵是一种常见的评判分类好坏的方式。所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对角线外面。例如下表:我们可以非常直观地看出对b类预测的非常准确,而对c类的预测却差强人意 。允许我们做出更多的分析,仅考虑对a类的分类,可以得到下表:可以得到精度(precision),召回率(recall),结合两者的F1数。pr...
2018-08-17 23:10:15
1003
翻译 运用pandas将字典的列表转化为独立的数据列
在Stack Overflow看到的一个帖子table0.csv数据集如下:namestatusnumbermessagemattactive12345[job: , money: none, wife: none]jamesactive23456[group: band, wife: yes, money: 10000]adaminactive34567[job: none, money: n...
2018-03-10 18:58:06
4203
原创 dataframe数据之间求补集
python的pandas库,对于dataframe数据,有merge命令可以完成dataframe数据之间的求取交集并集等命令。若存在df1与df2 ,他们的交集df3=pd.merge(df1,df2,on=[.....])。但是又想通过df3求df3与df1的补集时发现没有该命令。求df3(子集)与df1补集:#x为子集def Complement(x,y):
2017-12-19 16:53:58
4302
5
GOTCHA! Network-based Fraud Detection for Social Security Fraud
2019-03-06
OUTLIER DETECTION IN GRAPHS AND NETWORKS
2019-03-06
Exploratory_Analysis_of_Spatial_and_Temporal_Data_-_A_Systematic_Approach
2019-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人