分类规则与特征选择技术解析
1. 其他分类规则
1.1 分类树
分类树是一种基于数据进行空间划分的分类方法。由于任何树都可以转换为二叉树,因此通常主要考虑二叉分类树。树的构建是递归进行的,假设所有数据的集合为 (S),根据某种规则将其划分为 (S = S_1 \cup S_2),存在以下四种可能情况:
1. (S_1) 进一步划分为 (S_{11} \cup S_{12}),(S_2) 也进一步划分为 (S_{21} \cup S_{22});
2. (S_1) 进一步划分为 (S_{11} \cup S_{12}),而 (S_2) 停止划分;
3. (S_2) 进一步划分为 (S_{21} \cup S_{22}),而 (S_1) 停止划分;
4. (S_1) 和 (S_2) 都停止划分,此时划分完成。
在最终划分的每个单元格(子集)中,根据该单元格内点的标签多数情况,将设计的分类器定义为 0 或 1。
对于分类与回归树(CART),划分是基于杂质函数进行的。对于任意矩形 (R),设 (N_0(R)) 和 (N_1(R)) 分别是 (R) 中标签为 0 和 1 的点的数量,(N(R) = N_0(R) + N_1(R)) 是 (R) 中的总点数。(R) 的杂质定义为:
(\kappa(R) = \zeta(p_R, 1 - p_R))
其中 (p_R = N_0(R) / N(R)) 是 (R) 中标签为 0 的比例,(\zeta(p, 1 - p)) 是一个满足以下条件的非负函数:
1. 对于任意 (p \in [0, 1]),(\zeta(0.5, 0.5) \geq \zeta(
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



