熵的概念
一条信息的信息量大小和它的不确定性有直接的关系。需要了解大量信息->信息量的度量就等于不确定性的多少,进而统计各种结果的概率。
信息熵的公式
H[x]=−∑xp(x)log2p(x)H[x] = -\sum_x p(x)log_2p(x)H[x]=−∑xp(x)log2p(x)
ID算法
决策树会选择最大化信息增益来对结点进行划分。信息增益计算:
Info(D)=−∑i=1mpilog2(pi)Info(D) = -\sum_{i=1}^{m} p_{i} log_{2}(p_i)Info(D)=−∑i=1mpilog2(pi)
InfoA(D)=∑j=1v∣Dj∣∣D∣×Info(Dj)Info_A(D) = \sum_{j=1}^{v}\frac{|D_j|}{|D|} \times Info(D_j)InfoA(D)=∑j=1v∣D∣∣Dj∣×Info(Dj)
Gain(A)=Info(D)−InfoA(D)Gain(A) = Info(D) - Info_A(D)Gain(A)=Info(D)−InfoA(D)
C4.5算法
信息增益的方法倾向于首先选择因子数较多的变量信息增益的改进:增益率
SplitInfoA(D)=−∑j=1v∣Dj∣∣D∣×log2(∣Dj∣∣D∣)SplitInfo_A(D) = -\sum_{j=1}^{v}\frac{|D_j|}{|D|}\times log_2(\frac{|D_j|}{|D|})SplitInfoA(D)=−∑j=1v∣D∣∣Dj∣×log2(∣D∣∣Dj∣)
GrianRate(A)=Grain(A)SplitInfo(D)GrianRate(A) = \frac{Grain(A)}{SplitInfo(D)}GrianRate(A)=SplitInfo(D)Grain(A)
CART算法
CART决策树的生成就是递归地构建二叉决策树的过程。
CART用基尼(Gini)系数最小化准则来进行特征选择,生成二叉树。
Gini系数计算:
Gini(D)=1−∑i=1mpi2Gini(D) = 1-\sum_{i=1}^{m}p_{i}^{2}Gini(D)=1−∑i=1mpi2
GiniA(D)=∣D1∣D+D2DGini(D2)Gini_A(D) = \frac{|D_1|}{D} + \frac{D_2}{D}Gini(D_2)GiniA(D)=D∣D1∣+DD2Gini(D2)
ΔGini(A)=Gini(D)−GiniA(D)\Delta Gini(A) = Gini(D) - Gini_A(D)ΔGini(A)=Gini(D)−GiniA(D)
剪枝
剪枝的目的是防止过拟合,划分越复杂,越容易产生过拟合情况。
决策树的优缺点
优点:
小规模数据集有效
缺点:
处理连续变量不好
类别较多时,错误增加的比较快
不能处理大量数据
决策树python
需要的模块
from sklearn.feature_extraction import DictVectorizer
from sklearn import tree
from sklearn import preprocessing
import csv
读入数据并分类
# 读入数据
Dtree = open(r'AllElectronics.csv', 'r')
reader = csv.reader(Dtree)
# 获取第一行数据
headers = reader.__next__()
print(headers)
# 定义两个列表
featureList = []
labelList = []
#
for row in reader:
# 把label存入list
labelList.append(row[-1])
rowDict = {}
for i in range(1, len(row)-1):
#建立一个数据字典
rowDict[headers[i]] = row[i]
# 把数据字典存入list
featureList.append(rowDict)
print(featureList)
将数据用机器语言描述
# 把数据转换成01表示
vec = DictVectorizer()
x_data = vec.fit_transform(featureList).toarray()
print("x_data: " + str(x_data))
# 打印属性名称
print(vec.get_feature_names())
# 打印标签
print("labelList: " + str(labelList))
# 把标签转换成01表示
lb = preprocessing.LabelBinarizer()
y_data = lb.fit_transform(labelList)
print("y_data: " + str(y_data))
构建决策树
# 创建决策树模型 //min_samples_split 最小样本划分 >=2
model = tree.DecisionTreeClassifier(criterion='entropy',min_samples_split=6)
# 输入数据建立模型
model.fit(x_data, y_data)
进行数据测试,验证模型
# 测试
x_test = x_data[0]
print("x_test: " + str(x_test))
predict = model.predict(x_test.reshape(1,-1)) # reshape 给数据增加一行维度,第二个参数为自动匹配
print("predict: " + str(predict))
导出结果,将决策树用二叉树图的形式表示
# 导出决策树
# pip install graphviz
# http://www.graphviz.org/ 在这网站下载软件https://graphviz.gitlab.io/_pages/Download/Download_windows.html
## 在安装目录下,找到bin文件,并添加到环境变量中
import graphviz
dot_data = tree.export_graphviz(model,
out_file = None,
feature_names = vec.get_feature_names(),
class_names = lb.classes_,
filled = True,
rounded = True,
special_characters = True)
graph = graphviz.Source(dot_data)
graph.render('computer')
graph
vec.get_feature_names()
lb.classes_