ROC曲线 和 AUC曲线
ROC (Recieve Operating Characteristic Curve), 接受者操作特征曲线。
横坐标 FPR(假阳率) 纵坐标TPR(真阳率), 绘制在图中,改变阈值,又是一条新曲线。
曲线越靠近左上角,效果越好。。。
AUC(Area Under the Curve of ROC), ROC曲线下面的面积。。、
绘制ROC曲线, ROC曲线下面的面积就是AUC的值。。 计算ACC准确率。。
特征选择
特征选择要考虑的点:
- 特征是否发散, 方差几乎为0的,也就是说样本在这个特征上没有差异, 就不行。
- 特征与目标的相关性,相关性越高的,优先选择。
特征选择的两个目的:
3. 减少特征的数量,达到降维的目的,防止过拟合,提高模型的性能;
4. 增加对特征值的理解。
特征选择的方法有三类:
1.Filter(过滤法) 移除方差过低的,
单变量的特征选择
卡方检验,
-
Wrapper(包装法):根据目标函数(通常是预测效果),每次选择若干特征,或者排除若干特征。
-
Embedded(嵌入法):先使用某些机器学习算法和模型进行训练,得到各个特征的权重系数,判断特征优劣,然后再进行过滤。
有些机器学习模型本身就具有对特征进行打分的机制,因此,很容易用到特征选择中。
回归模型: 等价于回归问题中的评估 皮尔森相关系数。
Online Learning
https://blog.youkuaiyun.com/hzwaxx/article/details/83867630
Online Learning并不是一种模型,而是一种模型的训练方法。 根据线上反馈数据,实时快速的进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。
流程: 将模型的预测结果展现给用户,然后收集用户的反馈数据,再来训练模型,形成闭环系统。
美团等平台使用,推荐 重排序。
传统的训练方法,上线后,更新周期过长, 模型上线后是静态的。 不会和线上的状况进行互动。
Online Learning:根据线上预测结果及时作出修正。及时反应线上变化。
- Bayesian Online Learning
给出先验概率, 根据反馈结果计算后验, 将其作为下一次的先验概率,如此迭代下去。,
SVM
LibSVM 和 LibLinear
(1)LibSVM:
非线性SVM分类器, 通用的SVM分类器,
在样本有限的情况下, 核映射可能不准确, 性能不一定有线性的好。 造成比线性 更差的结果。
(2)LibLinear:
用于大规模的数据, 训练线性分类器。 针对大规模数据,线性分类器模型简单很多,性能也还不错。 主要训练速度很快,不用核处理,
占内存。 处理速度快,对于稀疏特征。
数据量足够多, 特征维度足够大,可以用线性模型。
特征数,小于样本数, 最好使用RBF, 非要用线性的化,也用liblinear。
SVM(Support Vector Machines),支持向量机, 是一种二分类模型, 基本模型是定义在特征空间上的