待议

3.3对数几率回归

这里写图片描述

3.4线性判别分析

这里写图片描述

3.5多分类学习

1 思路
多分类学习的基本思路是“拆解法”,即将多分类任务划分为多个二分类任务来求解。
2 关键
(1)如何对多分类任务进行拆分
(2)如何对多个分类器进行集成
3 执行

总共包含三种拆分策略:一对一(ovo),一对其余(ovr),多对多(mvm)。
  (1)ovo
   假设一共有N个类,则总共可以分为N*(N-1)/2个二分类器。训练时每个分类器只需要用对应的两个类的数据进行训练;测试时,将新样本分别输入所有分类器,最终预测结果通过投票产生,即哪个类预测的最多就是哪个类。
  (2)ovr
   假设一共有N个类,每次拆分时,将其中某一类作为正样本,其余作为负样本,这样一共可以拆分得N个二分类器。训练时需要将所有样本分别输入分类器进行训练;测试时,若只有一个分类器为正,则预测为该类,若有多个预测为正,则选择置信度最大的那个分类器对应的类别为预测结果。
  (3)mvm
   假设一共有N个类,每次拆分时将一部分类作为正样本,其余部分作为负样本,一共进行M此划分,可得到M个二分类器。这里正负样本显然是不能随意选择的,这里介绍一种常见的mvm技术:“纠错输出码”(Errpr Correcting Output Codes,简称ECOC)。ECOC总共可分为两步: 
    - 编码:对N个类作M次划分,每次拆分时将一部分类作为正样本,其余部分作为负样本,这样可产生M个二分类器。
    - 解码:用编码阶段产生的M个分类器对测试样本进行预测,这些预测可以标记组成一个编码,将这个编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终的预测结果。
 类别划分通过“编码矩阵”制定,有一些约定俗成的,效果较好的有:二元码和三元码。
 这些约定俗成的编码矩阵大都具有很强的鲁棒性,即当有些分类器分类错误时,仍能得到正确的预测结果。mvm中类别的最优化分其实是一个NP难问题。最终预测结果的正确性不仅和类别划分的鲁棒性相关,而且还和二分类的分类难度相关,所以鲁棒性最好的编码矩阵,实际效果不一定最好。

这里写图片描述

3.6类别不平衡问题

这里写图片描述

4决策树

4.1基本流程

这里写图片描述
这里写图片描述

4.2划分选择

这里写图片描述
这里写图片描述

4.23剪枝处理

这里写图片描述
当然,上述方法有问题:不仅要考虑模型的精确度,还要考虑模型的泛化能力,假如,夸张一点就是将每个样本都作为一个分支,这样的模型模拟准确度100%,但是对于样本以外的数据,泛化能力就很小。所以,这里做模型减枝时,都要加上模型的大小(叶节点的个数)进行限制。详情参考统计学习方法博客:它将模型的准确度和复杂度用一个损失函数量化的表示。预剪枝和后剪枝时,若损失函数减小,再进行相关操作。

4.4.1连续值处理

这里写图片描述

4.4.2缺失值处理

整体思路:加入权重的概念,利用未缺失的样本来计算决策树,对于缺失样本,在构建决策树时,加入所有的子树,并按相应的比例赋予权重,相当于让同一个样本,以不同的概率进入到不同的子节点中去。
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值