蘑菇分类:从民间定理到机器学习算法
1. 蘑菇分类的挑战
蘑菇种类繁多,外观相似的蘑菇可能具有截然不同的特性,例如美味可食、有毒甚至具有致幻效果。以牛肝菌属为例,美味牛肝菌可食用且味道鲜美,而华丽牛肝菌有毒,曼尼牛肝菌则具有致幻性,它们外观相似,这使得蘑菇分类变得十分困难。
民间传统中存在一些用于分类蘑菇的启发式方法,但这些方法大多是错误的,甚至曾导致一些人误食毒蘑菇身亡。这些启发式方法包括:
- 有毒蘑菇颜色鲜艳。
- 昆虫和动物会避开有毒蘑菇。
- 有毒蘑菇煮米饭会使米饭变红。
- 有毒蘑菇有尖帽,可食用蘑菇有平顶。
- 有毒蘑菇味道不好。
- 牛肝菌可以安全食用。
虽然可以将这些方法整合为一个统一的民间定理,但这种方法缺乏数据支持,且收集某些信息(如蘑菇味道)存在危险。
2. 基于数据的蘑菇分类方法
2.1 寻找最优切换点
我们可以借助加州大学欧文分校拥有的一个关于可食用和有毒蘑菇的数据集,来采用比民间定理更优的方法。该数据集中包含许多有助于判断蘑菇是否可食用的属性,如菌盖形状、气味和菌幕颜色等。
为构建决策树,我们可采用以下总体算法:
- 使用最具信息性的属性将数据划分为子类别。
- 持续划分直至达到阈值。
2.2 划分数据的常用指标
2.2.1 信息增益
信息增益是信息论中的一个指标,用于衡量属性对模型分类准确性的提升程度。其计算公式为:Gain = Hnew – Hprevious = H(T) – H(T | a) 。例如,若先前的熵
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



