蘑菇分类:从传统方法到机器学习算法
1. 蘑菇分类的挑战
蘑菇的种类繁多,外观相似的蘑菇可能具有截然不同的特性,比如美味可食、有毒致命或者具有致幻效果。以牛肝菌属为例,其中的褐环粘盖牛肝菌可食用且味道鲜美,而华丽牛肝菌有毒,还有一些牛肝菌具有致幻性,但它们外观颇为相似,都是顶部相似的大型蘑菇。如果仅凭外观寻找类似牛肝菌的蘑菇,可能会陷入极大的危险。
人们长期以来对蘑菇进行分类,形成了一些民间传统的分类方法,但这些方法大多存在错误:
- 有毒蘑菇颜色鲜艳。
- 昆虫和动物会避开有毒蘑菇。
- 有毒蘑菇煮米饭会使米饭变红。
- 有毒蘑菇菌盖尖锐,可食用蘑菇菌盖扁平。
- 有毒蘑菇味道不好。
- 牛肝菌可以安全食用。
这些民间传统方法曾导致一些人误食有毒蘑菇而丧命。不过,我们可以将这些方法整合为一个统一的定理,通过不断提问,如先问蘑菇颜色是否鲜艳,再问昆虫或动物是否会避开等,逐步得出一个大致的答案,这种方式可以用流程图表示,但由于缺乏数据支持,这种建模方式比较松散。
2. 基于数据的蘑菇分类方法
我们可以借助加州大学欧文分校拥有的关于可食用和有毒蘑菇的数据集,来寻找比民间定理更好的分类方法。该数据集包含了许多有助于判断蘑菇是否可食用的属性,如菌盖形状、气味和菌幕颜色等。
为了构建决策树,我们可以采用以下总体算法:
- 使用最具信息性的属性将数据划分为子类别。
- 持续划分直到达到阈值。
划分数据为子类别常用的三个指标如下:
|指标|说明|计算公式|
|----|----|----|
|信息增益|衡量属性与总
超级会员免费看
订阅专栏 解锁全文
3191

被折叠的 条评论
为什么被折叠?



