svc预测概率_预测模型的概率校准

最新推荐文章于 2025-05-09 22:09:43 发布

CHM单

最新推荐文章于 2025-05-09 22:09:43 发布

阅读量2.3k

点赞数 1

CC 4.0 BY-SA版权

文章标签： svc预测概率

本文链接：https://blog.youkuaiyun.com/weixin_29306261/article/details/112230664

本文介绍了概率校准在预测模型中的重要性，特别是在监督学习的分类问题中。通过案例展示模型输出概率与真实概率之间的差距，并通过Brier分数评估校准效果。常见模型如Logistic回归、朴素贝叶斯、SVM和随机森林在校准前后的表现对比，强调了校准对提高预测准确性的关键作用。文章还提到了不同校准方法，如sigmoid校准和非参数的等渗校准，并通过实例解释了这两种方法的适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.背景

机器学习分为：监督学习，无监督学习，半监督学习(也可以用hinton所说的强化学习)等。在这里，先简要介绍一下监督学习从给定的训练数据集中学习出一个函数(模型参数)，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题，通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的)，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。常见的有监督学习算法：回归分析和统计分类。

肿瘤预测模型是一个有监督学习模型，通过事先标注好的训练集,患者是否发生结局，患者信息等，训练一个COX模型，或者其他回归模型，在训练的模型基础上进行预测输出。在预测模型搭建过程中，由于抽样与正则化的原因，导致模型输出的概率值明显偏离真实的概率值。这时候我们称这些模型直接输出的概率值是定序值，而非定距数值，可比较大小，但其绝对值并无太多含义。那么如何将模型输出的prob校准到真实的逾期概率呢。使得经过校准后的概率变成逾期概率的意义。比如预测模型预测某个样本属于正类的概率是0.8，那么就应当说明有80%的把握认为该样本属于正类，或者100个概率为0.8的里面有80个确实属于正类。根据这个关系，可以用测试数据得到Probability Calibration curves。

假设我们考虑这样的一种情况：在二分类中，属于类别0的概率为0.500001，属于类别1的概率为0.499999。假若按照0.5作为判别标准，那么毋庸置疑应该划分到类别0里面，但是这个真正的分类却应该是1。如果我们不再做其他处理，那么这个就属于错误分类，降低了算法的准确性。如果在不改变整体算法的情况下，我们是否能够做一些补救呢？或者说验证下当前算法已经是最优的了呢？这个时候就用到了概率校准。

2.案例

如下表所示，

pred_prob为预测模型输出的预测概率predict probability

在数据集中预测概率为pred_prob的总数为ttl，例如第一行ttl的550意思预测概率为0.1的总例数为550条观测，其中有positive_n阳性例数，正例占比positive_ratio =positive_n/ttl

如上表，模型输出的pred_prob = 0.1 对应真实结局发生率 0.0255

模型解决了数据的排序问题【随着预测概率的增加，真实概率也在增加】，但从这个例子我们可以看出，模型预测与真实值之间出现了很大的差异。

那么我们如何将模型预测的概率f(x) 校准到 Real_Proba，数学上我们只需要找到一个f(x) ~ Real_Proba的映射关系，也就是说找到一个g(x),其中g(x)中的x为f(x)，也就是说利用f(x) ~ Real_Proba的对应关系，拟合一个函数g(x)，将f(x)校准到Real_Proba。

实案例中，我们并不知道观测结局的真实发生率，但是我们有患者发生结局事件标签label，通常我们的数据组织形式如下：