分类算法

经典分类算法解析

最新推荐文章于 2024-09-27 18:59:21 发布

qq_41584674

最新推荐文章于 2024-09-27 18:59:21 发布

阅读量263

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习分类算法文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/qq_41584674/article/details/83210530

机器学习同时被 2 个专栏收录

8 篇文章

订阅专栏

分类算法

1 篇文章

订阅专栏

分类算法

k近邻算法

通过样本距离进行分类，取最近邻的k个数据
数据集需要标准化

朴素贝叶斯算法

在特征独立的情况下进行分类
算法： $\frac{P(W|C)P(C)}{P(W)}$
W为给定文档的特征值，C为文档类别
$P (C)$ 文档出现的概率
$P (W)$ 每个特征出现的概率
$P (W ∣ C)$ 每个特征在C文档中出现的概率
优点：
有稳定的分类效率
对缺失数据不太敏感，算法简单，用于文本分类
分类准确度高，速度快
缺点：
由于假设了样本属性的独立性，如果样本属性具有相关性会对结果造成干扰

精确率与召回率

精确率：预测结果为正例样本中真实为正例的比例
召回率：真实为正例的样本中预测结果为正例的比例

预测结果/真实结果	正例	假例
正例	真正例	伪反例
假例	伪正例	真反例

交叉验证：将所有训练集数据分成n等分，去其中任意部分当成验证集，得到准确率，最后求平均值。
网格搜索：对不同的参数进行交叉验证，得到准确率最高的参数。

决策树

信息熵

决策树的分类依据之一：信息增益
公式 $\sum_{i}P_i \log Pi$
信息和消除不确定性是相关联的
信息增益：当得知某个信息后信息熵减小的大小。
公式： $g (D, A) = H (D) - H (D ∣ A)$
$H (D)$ 为初始信息熵大小
$H (D ∣ A)$ 为条件信息熵

基尼系数

决策树的分类依据之二：基尼系数
对于数据集D的纯度可以用基尼系数来定义：
$\sum_k\sum_{k'\neq k}P_kP_{k'} = 1-\sum_k P_k^2$
也就是去两次不相同的概率。
属性A的基尼指数：
$Giniindex(D,A)=∑vDvDGini(Dv)Gini_index(D,A) = \sum_{v}\frac{D^v}{D}Gini(D^v)$