基于树的机器学习模型详解
1. 决策树分类器简介
决策树分类器能够生成用简单英语句子表达的规则,这些规则无需编辑就能轻松解释并呈现给高层管理人员。决策树既可以应用于分类问题,也能用于回归问题。基于数据中的特征,决策树模型会学习一系列问题,以此推断样本的类别标签。
2. 决策树中的术语
与逻辑回归相比,决策树没有太多复杂的机制。这里有几个需要研究的指标,主要关注杂质度量。决策树会根据设定的杂质标准递归地分割变量,直到达到某些停止标准(如每个终端节点的最小观测值、任何节点分割所需的最小观测值等)。
- 熵(Entropy) :熵源于信息论,是衡量数据杂质的指标。如果样本完全同质,熵为零;如果样本均匀划分,熵为 1。在决策树中,异质性最强的预测变量会被认为最接近根节点,以贪婪的方式将给定数据分类。熵的计算公式为:$Entropy = - \sum p * log_2 p$,其中 n 为类别数量。熵在中间达到最大值 1,在两端达到最小值 0。较低的熵值更理想,因为它能更好地分离类别。
- 信息增益(Information Gain) :信息增益是指根据给定属性对示例进行划分所导致的熵的预期减少。其思路是从混合类别开始,持续划分,直到每个节点达到最纯类别的观测值。在每一步,都会以贪婪的方式选择信息增益最大的变量。计算公式为:$Information Gain = Entropy of Parent - \sum (weighted \% * Entropy of Child)$,其中$Weighted \% = \frac{Number of observations in particul
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



