CRPS和NLL

参考:CRPS:贝叶斯机器学习模型的评分函数_continuous ranked probability score连续概率评分计算步骤-优快云博客

连续分级概率评分(CRPS)和负对数似然损失(Negative Log-Likelihood, NLL)都是用于评估概率预测模型的指标,但它们在数学定义、应用场景和侧重点上存在显著差异。

  • CRPS:

衡量预测分布的累积分布函数(CDF)与真实观测值的CDF(阶跃函数)之间的差异。公式为:


其中,F(x)是预测分布的CDF,y是真实观测值。

  • NLL:

基于预测分布的概率密度函数(PDF)计算数据点的负对数似然:


其中,f(y)是预测分布在真实值y处的概率密度。

核心区别

特性CRPSNLL
比较对象预测CDF与真实CDF的差异预测PDF在真实值处的概率密度
积分范围全局积分(整个实数轴)仅依赖真实值处的局部密度
对分布的敏感度关注分布整体形状(如均值、方差)仅关注真实值附近的局部拟合
异常值敏感度较稳健(积分平滑化差异)较敏感(直接依赖单点密度)
适用场景连续变量预测(如温度、降水量)参数估计、模型训练(如贝叶斯模型)
指标最小值最大值敏感度极端情况
CRPS0(完美预测)无理论上限对整体分布形状敏感预测分布越宽,CRPS 越大
NLL0(理论极限)+∞(概率密度→0)对真实值附近的概率密度敏感预测方差太小或均值偏离时,NLL 可能爆炸

CRPS(连续分级概率评分)的取值范围是 [0, +∞)

CRPS与MAE(平均绝对误差)

点预测的极限:当预测分布退化为点估计(Dirac delta函数)时,CRPS退化为绝对误差(MAE),而NLL趋向无穷大(无法处理确定性预测)。

总结

CRPS和NLL虽然都用于概率模型评估,但本质不同

CRPS:衡量预测的「整个概率分布」和「真实值」的差距。通过积分全局比较CDF,更适合评估连续分布的整体性能;

NLL:衡量预测分布中「真实值出现的概率」有多高。通过局部密度计算似然,更适合参数优化和密度估计任务。

### mcrps crps 的区别 #### 连续分级概率评分(CRPS) 连续分级概率评分(CRPS)用于衡量概率预测的质量,尤其适用于具有连续分布的情况。CRPS 是一种评估工具,在天气预报、气候模拟以及金融领域广泛应用[^2]。 计算 CRPS 可通过 `properscoring` 库完成: ```python import numpy as np from properscoring import crps_ensemble # 生成观测值预测值 observations = np.array([1.0, 2.0, 3.0]) forecasts = np.array([[1.0, 2.0, 3.0], [2.0, 3.0, 4.0], [3.0, 4.0, 5.0]]) # 计算 CRPS crps = crps_ensemble(observations, forecasts) print("CRPS:", crps) ``` 此代码片段展示了如何基于一组观测值与对应的多组预测值来计算 CRPS 值[^1]。 #### 多类别连续分级概率评分(MCRPS) 相比之下,多类别连续分级概率评分(Multicategorical Continuous Ranked Probability Score, MCRPS),则扩展了传统 CRPS 的概念至分类问题中。当面对的是离散类别的集合而非单一连续变量时,则可以采用 MCRPS 来评价模型的表现。具体来说,如果存在多个可能的结果类别,并且这些类别之间可能存在某种顺序关系,那么就可以考虑使用 MCRPS 而不是标准形式下的 CRPS。 在气象学背景下,假设要对不同等级的降雨量做出预测(例如无雨、小雨、大雨等)。此时,由于各个级别间存在着自然排序的关系,因此适合运用 MCRPS 对此类预测效果进行量化分析。这不仅能够反映预测准确性,还能体现对于事件发生可能性大小判断上的优劣程度。 总结而言,两者主要差别在于适用场景的不同:CRPS 更倾向于处理单个连续型随机变量的概率估计;而 MCRPS 则针对有序多分类情况提供了更合适的度量方式。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值