前言:本文基于《机器学习实战》一书,采用python语言,对于机器学习当中的常用算法进行说明。
一、 综述
定义:首先来对决策树进行一个定义,决策树是一棵通过事物的特征来进行判断分支后得到该事物所需要的预测的属性的树。
流程:提取特征à计算信息增益à构建决策树à使用决策树进行预测
关键:树的构造,通过信息增益(熵)得到分支点和分支的方式。
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题(过拟合)。
适用数据类型:数值型和标称型。
以下是一棵决策树的简单例子,通过邮件的一些特征,来判断一个邮件的类型。
图1
二、 特征提取
此处的特征指的就是用以构造决策树的实体集的特征,此处给出一个用以构造决策树的例子。
cheep |
buy |
|
1 |
1 |
Yes |
1 |
1 |
Yes |
1 |
0 |
No |
0 |
1 |
No |
0 |
1 |
No |
表1
简单的对表1中的数据进行一个说明,表1表征了小明在购物时基于一个商品便宜