决策树(Decision tree) 若干重要定义: 1. 用熵定义样本纯度: Entropy(S)=−P+log2P+−P−log2P− 参数:S为样本。 公式解释:P+为样本中正例数,P−为样本中负例数。 2.用熵定义信息增益: Gain(S,A)=Entropy(S)−∑v∈Values(A)|Sv||S|Entropy(Sv) 参数:S为样本,A为样本测试属性。 公式解释:v为测试属性有的值,Sv为满足某一测试属性的样本子集。