自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (4)
  • 收藏
  • 关注

原创 决策树剪枝

剪枝决策树模型常常会遇到过拟合的问题。直观地理解,决策树几乎可以无限制地划分树中的节点,模型的预测结果很完美(针对训练数据),但实际上,模型完全没有完全捕捉到数据间内在的联系。用一些手段防止决策树决策树过细地划分节点,学术上被形象地称为剪枝(pruning),根据使用时间点的不同,具体的方法可以分成以下两类:前剪枝:用于决策树的生产过程中,通过一些阈值来限制决策树的生长,比如max_d...

2018-08-22 00:32:57 348

原创 决策树预测算法以及模型的联结

决策树预测算法以及模型的联结针对分类问题,叶子节点给出的数据属于每个类别的概率,而这个概率值等于各个类别的数据占比。假设数据分为K类,分别记为0,1,…,K-1,叶子节点上一共有N个数据,则P(y=i)=Σj1{yj=i}/N。基于预测得到的概率,就可以很直接地得到最终的预测结果为出现概率最大的类别。 针对回归问题,叶子节点的处理方式类似,最终的预测结果等于节点内标签变量{yi}的平均值。...

2018-08-22 00:32:03 3084 1

原创 决策树评判标准

针对分类问题,划分规则的评判可以分为两步:1.如果一个节点上的数据都差不多是同一类别,那么,这个节点就几乎不需要再做划分了,否则想要针对该节点,生成新的划分规则。2.如果新的规则能基本上把节点上不同类别的数据离开,使得每个子节点上都是类别比较单一的数据,那么这个规则就是一个好规则。当前节点记为m,节点上一共有Nm个数据。定义类别i在该节点上的占比如下: 现在定义节点的不纯度,通...

2018-08-20 20:30:44 6288

原创 混淆矩阵(confusion matrix)

混淆矩阵是一种常见的评判分类好坏的方式。所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对角线外面。例如下表:我们可以非常直观地看出对b类预测的非常准确,而对c类的预测却差强人意 。允许我们做出更多的分析,仅考虑对a类的分类,可以得到下表:可以得到精度(precision),召回率(recall),结合两者的F1数。pr...

2018-08-17 23:10:15 1003

翻译 运用pandas将字典的列表转化为独立的数据列

在Stack Overflow看到的一个帖子table0.csv数据集如下:namestatusnumbermessagemattactive12345[job:  , money: none, wife: none]jamesactive23456[group: band, wife: yes, money: 10000]adaminactive34567[job: none, money: n...

2018-03-10 18:58:06 4203

原创 dataframe数据之间求补集

python的pandas库,对于dataframe数据,有merge命令可以完成dataframe数据之间的求取交集并集等命令。若存在df1与df2 ,他们的交集df3=pd.merge(df1,df2,on=[.....])。但是又想通过df3求df3与df1的补集时发现没有该命令。求df3(子集)与df1补集:#x为子集def Complement(x,y):  

2017-12-19 16:53:58 4302 5

GOTCHA! Network-based Fraud Detection for Social Security Fraud

We introduce GOTCHA!, a new approach on how to define and extract features from a time-weighted network, and how to exploit and integrate network-based and intrinsic features in fraud detection.

2019-03-06

OUTLIER DETECTION IN GRAPHS AND NETWORKS

Graphs represent one of the most powerful and general forms of data representation, which can express diverse data, ranging from multi- dimensional entity-relation graphs, the web, social networks, commu- nication networks, and biological and chemical compounds.

2019-03-06

Exploratory_Analysis_of_Spatial_and_Temporal_Data_-_A_Systematic_Approach

时空数据分析的书籍。时空数据由于其所在空间的空间实体和空间现象在时间、空间和属性三个方面的固有特征,呈现出多维、语义、时空动态关联的复杂性,因此,需要研究时空大数据多维关联描述的形式化表达、关联关系动态建模与多尺度关联分析方法,时空大数据协同计算与重构提供快速、准确的面向任务的关联约束。

2019-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除