利用决策树和随机森林对蘑菇进行分类
1. 蘑菇分类的挑战
蘑菇的种类繁多,外观相似的蘑菇可能具有截然不同的特性,比如食用、致幻甚至致命。以牛肝菌属为例,美味牛肝菌可食用且味道鲜美,而华美牛肝菌有毒,红柄牛肝菌则有致幻效果,但它们外观颇为相似。传统的民间分类方法存在诸多错误,例如:
- 有毒蘑菇颜色鲜艳。
- 昆虫和动物会避开有毒蘑菇。
- 有毒蘑菇煮米饭会使米饭变红。
- 有毒蘑菇菌盖尖,可食用蘑菇菌盖平。
- 有毒蘑菇味道差。
- 牛肝菌都可食用。
这些方法可能导致严重后果,因此需要更科学的方法进行蘑菇分类。
2. 基于数据的蘑菇分类决策树构建
我们可以利用加州大学欧文分校拥有的可食用和有毒蘑菇数据集,该数据集中包含许多有助于判断蘑菇是否可食用的属性,如菌盖形状、气味和菌幕颜色等。构建决策树的整体算法如下:
- 利用最具信息性的属性将数据划分为子类别。
- 持续划分直到达到阈值。
划分数据的常用指标有:
|指标|说明|
| ---- | ---- |
|信息增益|是信息论中的一个指标,用于衡量属性与整体目标的契合程度。计算公式为 Gain = Hnew – Hprevious = H(T) – H(T | a)。例如,若之前的熵为 -2,新的熵为 -1,则增益为 1。|
|GINI 不纯度|是一种概率度量,定义了属性出现的概率以及出错的概率。公式为 (I_G(f)=\sum_{i = 1}^{m}p_{f_i}(1 - p_{f_i})=1-\sum_{i = 1}^{m}p_{f_i}^2)。|
|方差缩
超级会员免费看
订阅专栏 解锁全文
4704

被折叠的 条评论
为什么被折叠?



