8、模型可靠性评估:Bootstrap置信区间与模型基可靠性测试

模型可靠性评估:Bootstrap置信区间与模型基可靠性测试

1. 模型预测可靠性与Bootstrap置信区间

在评估模型预测的可靠性时,超越具体预测实验的推断至关重要。与数据标注不同,我们关注的不是用于生成固定静态数据集的人类标注的可靠性,而是机器学习模型在多次使用中的预测可靠性。

1.1 置信区间概念

置信区间可以按照以下方式定义:设 $\mathcal{P}$ 表示一族分布,$\theta \in \mathbb{R}$ 是 $P \in \mathcal{P}$ 的一个未知参数。设 $\alpha \in (0, 1)$,$Y = (Y_1, Y_2, Y_3, \ldots, Y_n)$ 是从 $\mathcal{P}$ 描述的随机过程中生成的随机样本。那么估计区间 $[\hat{\theta}_l(Y), \hat{\theta}_u(Y)]$ 称为 $\theta$ 在置信水平 $1 - \alpha$ 下的置信区间,如果对于所有 $P \in \mathcal{P}$ 都有 $P(\hat{\theta}_l(Y) \leq \theta \leq \hat{\theta}_u(Y)) \geq 1 - \alpha$。

对于独立同分布的高斯数据且均值未知的情况,总体均值 $\mu$ 的 95% 置信区间的公式为:$\bar{x} - 1.96\sigma_{\bar{x}} \leq \mu \leq \bar{x} + 1.96\sigma_{\bar{x}}$,其中 $\bar{x}$ 是样本均值,$\sigma_{\bar{x}}$ 表示标准误差。

1.2 非参数Bootstrap方法

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值