《人工智能AI之机器学习基石》系列⑥
引言:我们画的“那条线”,遇到了新麻烦
在之前的旅程中,我们教会了机器两项核心技能:用线性回归画出一条“预测之线”,用逻辑回归画出一条优雅转弯的“分类之线”。无论是预测房价,还是判断肿瘤,它们都试图用一个统一、连续的数学公式来描绘整个世界。
这很强大,但现实世界,远比一条线复杂。
想象一下,你是一位经验丰富的医生,在诊断一位病人。你会用一个复杂的公式计算所有指标,得出一个“73.5分”的诊断分吗?
不,你更可能会这样做:
- “如果体温高于38.5度,并且咳嗽,那么很可能是病毒感染。”
- “如果体温正常,但某个血液指标异常,那么需要做进一步检查。”
这是一种完全不同的思维方式——它不是在寻找一条“普适”的线,而是在构建一套层层递进、条理分明的决策规则。这套“如果…那么…”(If-Then)的逻辑,根植于我们每个人的直觉深处。
当机器厌倦了用一条线去“一刀切”地解决所有问题时,它开始向人类最古老、最强大的决策智慧学习。
于是,决策树(Decision Tree)应运而生。今天,让我们一起探索,当机器学会了像专家一样思考,并进一步组建起一支“专家梦之队”——随机森林(Random Forest)时,我们眼中的世界,将被如何深刻地重塑。
一、 决策树:像顶级专家一样思考,把世界“切”成一块块
决策树,顾名思义,就是一种树状的决策模型。但这个比喻还不够生动。
让我们把它想象成一场经典的“20个问题”游戏。你的朋友心里想好了一个物体(比如“大象”),你的目标是通过问不超过20个“是/否”问题来猜出它。
你会怎么问?
- 错误示范:“它是‘大象’吗?”——信息量太低,纯属瞎猜。
- 专家级提问:“它是活的吗?” -> “是” -> “是动物吗?” -> “是” -> “是哺乳动物吗?” -> “是” -> “它的体型很大吗?” -> “是”...
你看,每一个好的问题,都能将可能性范围大幅缩小,让你离答案越来越近。决策树的核心思想,正是如此:通过一系列“最有效率”的问题,将混乱复杂的数据集,一步步划分成纯净、清晰的区域。
1.1 决策树的解剖学
一棵典型的决策树,由三个核心部件构成,我们可以用“医生诊断”的例子来理解:
- 根节点 (Root Node): 整棵树的起点,代表第一个、也是最关键的那个问题。比如,医生首先会问:“你最主要的症状是什么?” 这对应着数据集中最重要的那个特征。
- 内部节点