KNN
-
K值的选择会对k近邻的结果产生影响
如果 K值选择较小,相当于用较小邻域的训练实例进行预测,近似误差减小,只有与输入实例较近的训练实例才会对预测结果起作用。缺点是估计误差会增大,预测结果对近邻实例比较敏感。如果近邻实例恰巧是噪声,预测就会出错。K值减小意味着整体模型变得复杂,容易发生过拟合。
如果K值选择较大,就相当于用较大邻域的训练实例进行预测 ,优点是减少估计误差,缺点是学习的近似误差会增大。这时与输入实例较远的训练实例也会起预测作用,使预测发生错误。K值增大意味着模型整体变得简单。
如果K=N,无论输入实例是什么,都将它预测为训练实例中大多数实例的类。模型过于简单,完全忽略训练中的大量有用信息。
在应用中,K一般选取较小的数值,通常采用交叉验证法选择最优K -
分类决策规则
k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个近邻的训练实例的多数类决定输入实例的类别。 -
距离度量
特征空间的两个实例点的距离度量是两个实例点相似程度的反应。常使用欧式距离,也可使用更为一般的LPL_PLP距离。
明可夫斯基距离(Minkowski distance)
当p=1p=1p=1,变为曼哈顿距离
当p=2p=2p=2,变为欧几里得距离
当p=∞p=\inftyp=∞,变为切比雪夫距离
决策树
-
讲一下决策树
一般,一棵决策树包含一个根节点,若干个内部节点和若干叶节点,叶节点对应于决策结果,其他每一个节点对应于一个属性测试。每个节点包含的样本集合根据属性测试结果被划分到子节点中;根节点包含全部样本集。从根节点到每个叶节点的路径对应了一个判定测试序列。
决策树的生成是一个自顶向下的递归过程,基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为0. -
决策树的生成算法
关键点:如果选择最优的划分属性
目标:决策树分支节点包含的样本尽可能属于同一类别,即节点的纯度越来越高
根据不同的目标函数,建立决策树主要有以下三种算法: -
ID3
-
C4.5
-
CART
-
决策树的剪枝
-
讲一下什么是信息熵,什么是条件熵?
信息熵是度量样本集合纯度最常用的一种指标,假设当前样本集合D中第k类样本所占比例为pk(k=1,2,3,....∣y∣)p_k (k=1,2,3,....|y|)pk(k=1,2,3,....∣y∣),则D的信息熵定义为
Ent(D)=−Ent(D)=-Ent(D)=−
信息熵值越小,表示纯度越高。 -
决策树算法三种情形导致递归返回
-
[ 1] 当前节点包含的样本属于同一类,无需划分。
-
[ 2] 当前属性集为空,无法划分。此情况下,将当前节点标记位叶节点,将其类别设定为,所含样本最多的类别;利用当前节点的后验分布(有样本无属性)
-
[ 3]当前节点包含的样本集合为空,不能划分。次情况,将当前节点标记位叶节点,将其类别设定为其父节点所含样本最多的类别;利用父节点的先验分布(有属性无样本)