
算法积累
BoilerHouseKing
Stay hungry,stay foolish.
展开
-
使用 Isotonic Regression 校准分类器
21 December 2015 1. 引言 对有监督机器学习问题,通常的训练流程包括这样几步:先建立起模型,然后在训练集上训练模型,如果有超参数,还需要在验证集上应用交叉验证以确定超参数,总之最终会得到一个模型。在这样的流程下,不断优化模型,如果在测试集上取得了较高的准确率、召回率、F-score或者AUC后,那事情就结束了吗,模型的输出结果是符合需要的吗?这并不一定。当给定一个样本,大...转载 2018-07-26 15:33:51 · 1832 阅读 · 1 评论 -
面向稀有事件的 Logistic Regression 模型校准
引言 对分类问题的研究大部分是在样本分布均衡的情况下开展的。比如对二分类,一般研究的是正样本和负样本的数量相当(比如各占50%)或者相差不是那么大(比如一类样本占30%,另一类样本占70%)。但在实际应用时,经常会碰到样本倾斜问题,对于二分类而言,就会是某类的样本比例远小于另一类的样本比例。在学术界,一般称样本少的那类为正类,称正类代表的随机事件为稀有事件。稀有事件的例子并不少,比如发生战争的...转载 2018-07-26 16:19:47 · 4397 阅读 · 1 评论