基于贝叶斯深度学习的不确定性量化框架

最新推荐文章于 2025-11-24 19:11:26 发布

原创最新推荐文章于 2025-11-24 19:11:26 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

cv应用赋能专栏收录该内容

228 篇文章

订阅专栏

核心思想：从点估计到概率分布

传统深度学习模型输出一个确定的预测值（一个点），我们完全相信这个值。贝叶斯深度学习的核心思想是：模型的所有参数（权重）本身不是一个确定的值，而是一个概率分布。因此，对于给定的输入，模型的预测也是一个概率分布。这个分布的方差（Spread） 就直接量化了模型对于此次预测的不确定性（Uncertainty）。

在城轨视觉中，这种不确定性主要分为两类：

认知不确定性（Epistemic Uncertainty）：源于模型自身的认知不足。例如，模型从未见过某种新型裂缝或是在光照极差的条件下工作。“模型不知道它不知道”。这种不确定性可以通过提供更多训练数据来减少。
偶然不确定性（Aleatoric Uncertainty）：源于数据固有的噪声。例如，图像本身的模糊、遮挡、分辨率低。这种不确定性是数据固有的，无法通过增加数据减少。

我们的目标是同时量化这两种不确定性。

方法详细步骤

第1步：选择贝叶斯推理方法

对于深度神经网络，精确的贝叶斯推理是难解的。我们采用近似方法，最实用且与现有框架兼容的两类是：

a) 蒙特卡洛 Dropout (MC Dropout)

原理：在训练和测试时，都在网络的每一层后使用Dropout。Dropout的随机性相当于从模型的权重后验分布中进行采样。每次前向传播相当于用一个不同的网络进行预测。
优势：实现极其简单，只需在现有模型中添加测试时的Dropout，无需改变模型结构或损失函数。

b) 变分推理 (Variational Inference, VI)

原理：假设模型的权重服从一个简单的分布（如高斯分布），然后寻找一个最接近真实复杂后验分布的近似分布 $q(\omega)$。通过优化证据下界（ELBO）来学习这个分布的参数（均值和方差）。
优势：理论更坚实，通常能产生更准确的不确定性估计，但实现更复杂。

第2步：构建贝叶斯深度学习模型

以最经典的编码器-解码器结构为例，用于像素级的裂缝宽度回归任务。

python

复制

下载

import torch
import torch.nn as nn
import torch.nn.functional as F

class BayesianConv2d(nn.Module):
    """一个简单的贝叶斯卷积层实现（采用MC Dropout方法）"""
    def __init__(self, in_channels, out_channels, kernel_size, dropout_rate=0.2):
        super().__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, padding=kernel_size//2)
        self.dropout = nn.Dropout2d(p=dropout_rate) # 使用空间Dropout

    def forward(self, x):
        x = self.conv(x)
        x = self.dropout(x) # 注意：训练和测试时均保持开启！
        return F.relu(x)

class BayesianEncoderDecoder(nn.Module):
    """一个用于像素级回归的贝叶斯U-Net类结构"""
    def __init__(self, dropout_rate=0.2):
        super().__init__()
        # 编码器
        self.enc1 = BayesianConv2d(3, 64, 3, dropout_rate)
        self.enc2 = BayesianConv2d(64, 128, 3, dropout_rate)
        # 解码器
        self.dec1 = BayesianConv2d(128, 64, 3, dropout_rate)
        self.final_conv = nn.Conv2d(64, 1, 1) # 输出每个像素的裂缝宽度

    def forward(self, x):
        # 编码路径
        x1 = self.enc1(x)
        x2 = self.enc2(F.max_pool2d(x1, 2))
        # 解码路径 (简化，省略跳跃连接)
        x = F.interpolate(x2, scale_factor=2, mode='bilinear', align_corners=True)
        x = self.dec1(x)
        return self.final_conv(x)

第3步：训练与推理（不确定性量化）

训练阶段：与普通网络训练完全相同。Dropout作为正则化器，防止过拟合。

推理阶段（关键）：对同一张输入图像进行 $T$ 次前向传播（例如 $T=50$），每次都会因Dropout的随机性而得到 slightly different 的输出。

python

复制

下载

def quantify_uncertainty(model, input_image, num_samples=50):
    """
    执行蒙特卡洛采样，量化预测的不确定性。
    Args:
        model: 训练好的贝叶斯模型
        input_image: 输入图像 [1, C, H, W]
        num_samples: 采样次数 T
    Returns:
        mean_prediction: 平均预测值 [H, W]
        epistemic_uncertainty: 认知不确定性 [H, W] (方差)
        aleatoric_uncertainty: 偶然不确定性 [H, W] (可选，需要修改模型输出)
    """
    model.train()  # 关键！将模型设置为训练模式以启用Dropout

    predictions = []
    for _ in range(num_samples):
        with torch.no_grad(): # 不需要计算梯度，加速推理
            output = model(input_image) # [1, 1, H, W]
            predictions.append(output.squeeze().cpu().numpy()) # [H, W]

    # 将多次采样结果堆叠
    predictions_stack = np.stack(predictions, axis=0) # [T, H, W]

    # 计算不确定性
    mean_prediction = np.mean(predictions_stack, axis=0)   # 平均预测值 [H, W]
    epistemic_uncertainty = np.var(predictions_stack, axis=0) # 认知不确定性 (方差) [H, W]

    return mean_prediction, epistemic_uncertainty

# 使用示例
mean_width_map, uncertainty_map = quantify_uncertainty(bayesian_model, test_image)

第4步：解读与决策支持

得到的 mean_prediction 和 epistemic_uncertainty 地图为运维决策提供了前所未有的丰富信息。

高置信度损伤（需处理）：
mean_prediction[x,y] > 阈值 且 uncertainty_map[x,y] < 阈值_u
- 解读：模型非常确定此处有损伤，且尺寸为 $(0.5 \pm 0.1)$ mm。决策：立即安排维修，可靠性高。
高不确定性区域（需复查）：
uncertainty_map[x,y] 值很高。
- 解读：模型对此处的预测把握很低。可能原因是：新型损伤、严重遮挡、图像模糊。
- 决策：触发人工复查或派遣更高精度的传感器（如激光扫描）进行确认。这避免了基于误报的无效停工。
低置信度正常（可观察）：
mean_prediction[x,y] < 阈值 且 uncertainty_map[x,y] < 阈值_u
- 解读：模型确信此处正常。决策：无需关注，节省人力。
预测区间：
假设预测分布近似高斯，我们可以计算 95% 置信区间：
lower_bound = mean_prediction - 1.96 * np.sqrt(epistemic_uncertainty)
upper_bound = mean_prediction + 1.96 * np.sqrt(epistemic_uncertainty)
- 输出：“裂缝宽度为 $0.5$ mm，95%置信区间为 $[0.4, 0.6]$ mm”。

高级实现：同时量化两种不确定性

为了区分认知和偶然不确定性，可以修改模型，让其同时输出预测的均值和方差。

python

复制

下载

class BayesianEncoderDecoderWithAleatoric(nn.Module):
    def __init__(self, dropout_rate=0.2):
        super().__init__()
        # ... 编码器部分相同 ...
        # 修改最终层，输出两个通道：均值和方差（log variance）
        self.final_conv = nn.Conv2d(64, 2, 1)

    def forward(self, x):
        # ... 前面层不变 ...
        output = self.final_conv(x) # [B, 2, H, W]
        mean = output[:, 0:1, :, :]  # 均值通道
        log_var = output[:, 1:2, :, :] # 对数方差通道
        return mean, log_var

# 损失函数需要修改为负对数似然（NLL Loss）
def nll_loss_gaussian(mean, log_var, target):
    """负对数似然损失，用于回归"""
    var = torch.exp(log_var) # 确保方差为正数
    return 0.5 * (torch.log(var) + (target - mean)**2 / var).mean()

# 推理时
def quantify_uncertainty_advanced(model, input_image, num_samples=50):
    model.train()
    means = []
    log_vars = [] # 捕捉偶然不确定性

    for _ in range(num_samples):
        with torch.no_grad():
            mean_sample, log_var_sample = model(input_image)
            means.append(mean_sample)
            log_vars.append(log_var_sample)

    means_stack = torch.stack(means) # [T, 1, H, W]
    log_vars_stack = torch.stack(log_vars) # [T, 1, H, W]

    # 总不确定性 = 认知不确定性 + 平均偶然不确定性
    epistemic_uncertainty = torch.var(means_stack, dim=0) # [1, H, W]
    aleatoric_uncertainty = torch.mean(torch.exp(log_vars_stack), dim=0) # [1, H, W]
    total_uncertainty = epistemic_uncertainty + aleatoric_uncertainty

    mean_prediction = torch.mean(means_stack, dim=0)
    return mean_prediction, epistemic_uncertainty, aleatoric_uncertainty, total_uncertainty

总结与决策流程

该框架的最终输出不再是一个简单的“是/否”或一个数字，而是一个决策仪表盘：

预测均值 (损伤程度)	认知不确定性 (模型疑惑)	偶然不确定性 (数据噪声)	推荐决策
高	低	低	立即维修：确定性的严重损伤。
低	低	低	无需行动：确定性的健康状态。
中/高	高	低	人工复查：模型没见过类似案例，需专家确认。
中/高	低	高	重新检测：图像质量太差（模糊、遮挡），需用更高精度设备重新采集数据。
高	高	高	最高优先级复查：可能既是新型损伤，图像质量又差，风险极高。