1. 随机变量X的信息熵的上界
参考:关于信息熵最大值的讨论。
2. 决策树中的信息增益特征选择法能否运用到其他模型?
个人感觉不可以,因为决策树中分类是基于if-then集合规则或条件概率的,不同模型的分类评价方法可能不一样。例如,利用信息增益筛选出来的特征对感知机不一定适用,也即if-then规则和决策超平面不一定相容。
3. CART树剪枝
5.29 式如何解释?不考虑正则项的话,以 t 为单结点的树的损失函数总是大于以 t 为根节点的子树 Tt 的损失函数?因为决策树总是向着过拟合的方向生长?
实际上这个g(t)表示剪枝的阈值,即对于某一结点a,当总体损失函数中的参数alpha = g(t)时,剪和不剪总体损失函数是一样的(这可以在书中(5.27)和(5.28)联立得到)。