分类算法

经典分类算法解析

分类算法

k近邻算法

通过样本距离进行分类,取最近邻的k个数据
数据集需要标准化

朴素贝叶斯算法

在特征独立的情况下进行分类
算法:P(C∣W)=P(W∣C)P(C)P(W)P(C|W) = \frac{P(W|C)P(C)}{P(W)}P(CW)=P(W)P(WC)P(C)
W为给定文档的特征值,C为文档类别
P(C)P(C)P(C)文档出现的概率
P(W)P(W)P(W) 每个特征出现的概率
P(W∣C)P(W|C)P(WC)每个特征在C文档中出现的概率
优点:
有稳定的分类效率
对缺失数据不太敏感,算法简单,用于文本分类
分类准确度高,速度快
缺点:
由于假设了样本属性的独立性,如果样本属性具有相关性会对结果造成干扰

精确率与召回率

精确率:预测结果为正例样本中真实为正例的比例
召回率:真实为正例的样本中预测结果为正例的比例

预测结果/真实结果正例假例
正例真正例伪反例
假例伪正例真反例

交叉验证:将所有训练集数据分成n等分,去其中任意部分当成验证集,得到准确率,最后求平均值。
网格搜索:对不同的参数进行交叉验证,得到准确率最高的参数。

决策树

信息熵

决策树的分类依据之一:信息增益
公式H(D)=∑iPilog⁡PiH(D) = \sum_{i}P_i \log PiH(D)=iPilogPi
信息和消除不确定性是相关联的
信息增益:当得知某个信息后信息熵减小的大小。
公式:g(D,A)=H(D)−H(D∣A)g(D,A) = H(D)-H(D|A)g(D,A)=H(D)H(DA)
H(D)H(D)H(D)为初始信息熵大小
H(D∣A)H(D|A)H(DA)为条件信息熵

基尼系数

决策树的分类依据之二:基尼系数
对于数据集D的纯度可以用基尼系数来定义:
Gini(D)=∑k∑k′≠kPkPk′=1−∑kPk2Gini(D) = \sum_k\sum_{k'\neq k}P_kP_{k'} = 1-\sum_k P_k^2Gini(D)=kk̸=kPkPk=1kPk2
也就是去两次不相同的概率。
属性A的基尼指数:
Giniindex(D,A)=∑vDvDGini(Dv)Gini_index(D,A) = \sum_{v}\frac{D^v}{D}Gini(D^v)Giniindex(D,A)=vDDvGini(Dv)

优点:
简单的理解和解释,树木可视化
需要很少的数据准备,其他技术通常需要数据归一化
缺点:
可能会创建出过于复杂的树。过拟合
改进:
剪枝cart算法
随机森林

剪枝处理

当决策树出现过拟合时,需要主动去掉一些分支来降低过拟合的风险

预剪枝

在决策树生成过程中,对每个节点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶节点

后剪枝

先从训练集生成一颗完整的决策树,然后自底向上对飞叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值