这里我们有以下关于是否游玩的数据集,数据如下:
编号 | 温度 | 天气 | 游玩 |
---|---|---|---|
1 | 高 | 晴 | 是 |
2 | 高 | 阴 | 是 |
3 | 中 | 晴 | 否 |
4 | 中 | 阴 | 否 |
接下来我们将根据ID3算法,给出这个案例的决策树。
考虑如何构造是否游玩的决策树,显示将哪个属性(温度、天气)作为根节点是个关键问题,在这里先介绍两个指标:纯度和信息熵。
先说纯度,决策树的构造过程可以理解为寻找纯净划分的过程。
举个例子,假设三个集合:
- 集合1:4次都去游玩;
- 集合2:3次去游玩,1次不去游玩;
- 集合3:2此去游玩,1次不去游玩。
这里三个集合按照纯度来排序,集合1>集合2>集合3。因为集合1的分歧最小,集合3的分歧最大。
然后说信息熵,信息熵表示信息的不确定度
一般情况,我们用概率的倒数的对数函数表示某一事件(某一符号)出现带来的信息量。
即每个符号的自信息量: