机器学习二 基于决策树模型实现对mnist数据集的分类

本文深入探讨了使用决策树模型对MNIST数据集进行分类的方法。介绍了决策树的基础,如信息增益、信息增益比以及C4.5算法,并通过详细代码分析展示了数据预处理和模型构建的步骤。

原理分析:

决策树

  1. 信息增益

  1. 信息增益算法

  1. 信息增益比

  1. 生成决策树(c4.5算法)

 代码分析:

决策树

(1)加载数据

①读取数据,分割放入列表

②将label值二值化,>=5为1,<5为0

③将data值二值化,=0的为0,不等于0的为1

④放入矩阵中

(2)求最优特征:计算信息增益比

①计算特征数

=Train_label.shape[1]

②计算信息熵HD

统计每个特征的label值,在进行运算

 

③计算信息增益

④计算信息增益比

先计算信息增益,获取每个特征的分组的label值求出信息增益

在除于HD,得到信息增益比

(3)得到最优特征:列号为263的特征

(4)计算最优特征下的各个label情况

读取该列所有的特征值和他们的label

运用多数法则,按照特征值【0,1】分组,计算各个组的各个label值的个数,每组数量最多的label的值,作为整组的label值

如:在特征值为0的分组中,num[label=1]>num[label=0],则特征【263】的特征值0的label=1

(5)进行测试

①读取测试集每行的行向量和label

②在该行向量上读取最优特征那一列的特征值,即读取每行的第【263】列的特征值。

③比较该行向量的真实label,与通过训练集得到的最有可能的该行向量的最优特征的多数label

错误则errorNum+=1,相除总数得正确率

 

 

 

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值