SVM + 决策树 + 提升方法 (还有LR、最大熵、)

ROC曲线 和 AUC曲线

ROC (Recieve Operating Characteristic Curve), 接受者操作特征曲线。
横坐标 FPR(假阳率) 纵坐标TPR(真阳率), 绘制在图中,改变阈值,又是一条新曲线。
曲线越靠近左上角,效果越好。。。

AUC(Area Under the Curve of ROC), ROC曲线下面的面积。。、

绘制ROC曲线, ROC曲线下面的面积就是AUC的值。。 计算ACC准确率。。

特征选择

特征选择要考虑的点:

  1. 特征是否发散, 方差几乎为0的,也就是说样本在这个特征上没有差异, 就不行。
  2. 特征与目标的相关性,相关性越高的,优先选择。

特征选择的两个目的:
3. 减少特征的数量,达到降维的目的,防止过拟合,提高模型的性能;
4. 增加对特征值的理解。

特征选择的方法有三类:
1.Filter(过滤法) 移除方差过低的,
单变量的特征选择
卡方检验,

  1. Wrapper(包装法):根据目标函数(通常是预测效果),每次选择若干特征,或者排除若干特征。

  2. Embedded(嵌入法):先使用某些机器学习算法和模型进行训练,得到各个特征的权重系数,判断特征优劣,然后再进行过滤。
    有些机器学习模型本身就具有对特征进行打分的机制,因此,很容易用到特征选择中。

回归模型: 等价于回归问题中的评估 皮尔森相关系数。

Online Learning

https://blog.youkuaiyun.com/hzwaxx/article/details/83867630
Online Learning并不是一种模型,而是一种模型的训练方法。 根据线上反馈数据,实时快速的进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。

流程: 将模型的预测结果展现给用户,然后收集用户的反馈数据,再来训练模型,形成闭环系统。
美团等平台使用,推荐 重排序。

传统的训练方法,上线后,更新周期过长, 模型上线后是静态的。 不会和线上的状况进行互动。
Online Learning:根据线上预测结果及时作出修正。及时反应线上变化。

  1. Bayesian Online Learning
    给出先验概率, 根据反馈结果计算后验, 将其作为下一次的先验概率,如此迭代下去。,

SVM

LibSVM 和 LibLinear

(1)LibSVM:
非线性SVM分类器, 通用的SVM分类器,

在样本有限的情况下, 核映射可能不准确, 性能不一定有线性的好。 造成比线性 更差的结果。

(2)LibLinear:
用于大规模的数据训练线性分类器。 针对大规模数据,线性分类器模型简单很多,性能也还不错。 主要训练速度很快,不用核处理,

占内存。 处理速度快,对于稀疏特征。

数据量足够多, 特征维度足够大,可以用线性模型。

特征数,小于样本数, 最好使用RBF, 非要用线性的化,也用liblinear。

SVM(Support Vector Machines),支持向量机, 是一种二分类模型, 基本模型是定义在特征空间上的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值