CNN-GRU回归+SHAP分析！Matlab代码实现，通过SHAP方法量化特征贡献，引入SHAP方法打破黑箱限制，提供全局及局部双重解释视角

原创于 2025-10-17 21:49:24 发布 · 704 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #gru #回归

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。

🍎 往期回顾关注个人主页：Matlab科研工作室

🍊个人信条：格物致知,完整Matlab代码获取及仿真咨询内容私信。

🔥 内容介绍

一、引言

在人工智能与机器学习技术迅猛发展的当下，它们已广泛且深入地融入金融风控、临床诊断、自动驾驶决策等关键领域。从帮助银行精准评估信贷风险，到辅助医生进行疾病诊断，再到实现车辆的自动驾驶，这些技术展现出了强大的功能与潜力。然而，随着模型复杂度的不断提升，深度神经网络和集成树模型等高性能模型的内部运作机制变得愈发难以捉摸，由此产生了令人困扰的 “黑箱” 问题。

以深度神经网络为例，它包含大量的神经元和复杂的连接权重，通过多层非线性变换对输入数据进行处理和分析。在图像识别任务中，虽然它能够准确地识别出图像中的物体，但我们却难以知晓它是依据图像的哪些特征、通过怎样的计算过程得出这一结果的。同样，在自然语言处理领域，当模型对一段文本进行情感分析或语义理解时，其内部的决策逻辑也如同隐藏在黑暗之中，让人无法洞悉。这种不透明性不仅给模型的调试与优化带来了极大的困难，开发人员在面对模型出现的错误或性能不佳的情况时，难以准确找出问题所在并进行针对性的改进；而且在关键应用中，引发了人们对可靠性、公平性、问责制以及用户信任度的严重担忧。在医疗领域，AI 辅助诊断模型如果不能清晰地解释诊断依据，医生和患者很难完全信任其诊断结果；在金融领域，贷款审批模型若无法说明拒绝贷款的原因，可能会引发用户对公平性的质疑。

为了有效应对这一挑战，可解释人工智能（Explainable AI, XAI）应运而生，其核心目标是开发出能够揭示 AI 模型决策逻辑的技术和方法，使人类能够深入理解、准确评估并放心信任这些系统。在众多 XAI 技术中，由 Lundberg 和 Lee 于 2017 年提出的 SHAP（SHapley Additive exPlanations）框架凭借其独特的优势，在学术界和工业界迅速崭露头角，吸引了广泛的关注。

本研究聚焦于将 CNN - GRU 回归模型与 SHAP 分析相结合。CNN（卷积神经网络）在提取数据局部特征方面具有卓越的能力，能够敏锐地捕捉到数据中的细节信息；GRU（门控循环单元）则在处理时间序列数据、挖掘数据中的长期依赖关系上表现出色。将两者结合，能够充分发挥各自的优势，在时间序列预测、多维数据回归等任务中展现出强大的性能。而引入 SHAP 分析，旨在利用其基于博弈论的 Shapley 值概念，深入量化每个输入特征对模型预测结果的贡献度。通过 SHAP 分析，我们不仅能够清晰地了解模型在单个样本上的决策过程，即哪些特征对该样本的预测结果起到了关键作用，以及它们的影响方向和强度；还能从全局层面把握模型的行为，识别出对模型整体预测贡献最大的特征，以及特征之间可能存在的交互作用。这种全局及局部双重解释视角，为我们深入理解 CNN - GRU 回归模型的决策机制提供了有力的工具，有助于打破模型的 “黑箱” 限制，提升模型的可解释性、可靠性和信任度，在实际应用中具有重要的意义和价值。

二、CNN - GRU 回归模型解析

2.1 CNN 与 GRU 模型原理

卷积神经网络（Convolutional Neural Network，CNN）最初是为了解决图像识别任务而设计的，在图像识别领域取得了举世瞩目的成就。例如，在著名的 ImageNet 大规模视觉识别挑战赛中，基于 CNN 的模型多次刷新了识别准确率的记录，推动了计算机视觉技术的飞速发展。其核心组件包括卷积层、池化层和全连接层。

卷积层通过卷积核在输入数据上滑动进行卷积操作，实现局部特征的提取。以一幅 64×64 像素的彩色图像（具有 RGB 三个通道）为例，当使用一个 3×3 大小的卷积核时，卷积核会在图像的局部区域（如一个 3×3 的像素块）上进行加权求和计算，得到一个特征值。随着卷积核在图像上逐像素滑动，就可以提取出图像中不同位置的局部特征，这些特征可能是边缘、角点、纹理等基本视觉元素。通过多个不同的卷积核，可以同时提取多种不同类型的局部特征，生成多个特征映射，丰富对图像的特征表示。

池化层则主要用于对卷积层输出的特征图进行降采样，常见的池化操作有最大池化和平均池化。最大池化是在一个固定大小的池化窗口内取最大值作为输出，例如一个 2×2 的池化窗口在特征图上滑动时，每次取窗口内 4 个元素中的最大值作为下一层的输入。这种操作可以减少特征图的尺寸，降低计算量，同时保留最重要的特征信息，增强模型对图像平移、旋转等变换的鲁棒性。例如，在图像识别中，即使物体在图像中的位置发生了小范围的变化，经过池化操作后提取到的关键特征依然能够保持稳定，从而提高模型的识别准确率。

在多变量回归预测中，CNN 同样发挥着重要作用。假设我们有一个包含多个时间步和多个变量的数据集，将其看作是一种特殊的 “图像” 结构，其中时间步可以类比为图像的高度，变量可以类比为图像的宽度，每个时间步和变量对应的数值则是像素值。通过 CNN 的卷积操作，可以有效地提取数据在时间和变量维度上的局部特征，捕捉到数据中局部的模式和规律。

门控循环单元（Gated Recurrent Unit，GRU）是为了解决传统循环神经网络（RNN）在处理长序列数据时遇到的梯度消失和梯度爆炸问题而设计的。传统 RNN 在处理长序列时，由于梯度在反向传播过程中会不断乘以权重矩阵，当序列较长时，梯度会逐渐消失或急剧增大，导致模型难以学习到长距离的依赖关系。GRU 引入了门控机制，主要包括更新门和重置门。

2.2 CNN - GRU 组合模型的优势

CNN - GRU 组合模型巧妙地融合了 CNN 和 GRU 两者的优点，形成了一种强大的多变量回归预测模型。在处理多变量时间序列数据时，这种组合模型展现出了独特的优势。

首先，CNN 负责对数据进行初步的特征提取，它能够敏锐地捕捉到数据中的局部特征和模式。以电力负荷预测为例，电力负荷数据受到多种因素的影响，如时间、日期、天气状况、用户用电习惯等。CNN 可以对这些多变量数据进行卷积操作，提取出不同因素在局部时间范围内的特征，例如在某一天内不同时段电力负荷的变化趋势、天气因素对电力负荷的短期影响等。通过多个卷积层和池化层的组合，CNN 能够将这些局部特征进行抽象和整合，生成更加高级和有代表性的特征表示，为后续的分析提供基础。

然后，GRU 接过 CNN 提取的特征，专注于处理数据中的时间依赖关系。由于电力负荷数据具有明显的时间序列特性，过去的负荷值对未来的负荷预测具有重要的参考价值。GRU 通过其门控机制，能够有效地记忆和利用历史负荷信息，学习到电力负荷在时间维度上的长期依赖模式。它可以根据之前多个时间步的负荷特征，结合当前的输入信息，预测出未来时刻的电力负荷值。例如，GRU 可以捕捉到电力负荷在每天、每周、每月等不同时间尺度上的周期性变化规律，以及特殊事件（如节假日、极端天气）对负荷的影响，并将这些信息融入到预测中，提高预测的准确性。

与单一的 CNN 模型或 GRU 模型相比，CNN - GRU 组合模型具有更高的预测精度和更好的稳定性。单一的 CNN 模型虽然在局部特征提取方面表现出色，但对于时间序列数据中的长期依赖关系处理能力有限；而单一的 GRU 模型在捕捉时间依赖关系时，可能无法充分挖掘数据中的局部特征。CNN - GRU 组合模型通过优势互补，实现了对多变量时间序列数据的全面分析和准确预测。在实际应用中，这种组合模型能够更好地应对复杂多变的数据环境，为相关决策提供更可靠的支持。例如，在智能电网的电力调度中，准确的电力负荷预测可以帮助电力公司合理安排发电计划，优化能源分配，降低运营成本，提高电力系统的稳定性和可靠性。

2.3 模型在实际应用中的表现与案例

CNN - GRU 回归模型在众多实际应用场景中都展现出了卓越的性能，为解决各类实际问题提供了有效的解决方案。

在电力负荷预测领域，准确预测电力负荷对于电力系统的稳定运行和优化调度至关重要。某电力公司采用 CNN - GRU 模型对电力负荷进行预测。他们收集了大量的历史电力负荷数据，同时考虑了时间、温度、湿度、节假日等多个影响因素作为输入变量。通过 CNN 对这些多变量数据进行特征提取，捕捉到了电力负荷与各影响因素之间的局部关系，如不同季节、不同时间段电力负荷随温度变化的规律等。然后，GRU 进一步处理这些特征，学习到电力负荷在时间序列上的长期依赖关系，成功预测出未来不同时间段的电力负荷。实验结果表明，与传统的预测模型相比，CNN - GRU 模型的预测误差明显降低，平均绝对百分比误差（MAPE）从原来的 8% 降低到了 5% 左右，大大提高了预测的准确性。这使得电力公司能够更加合理地安排发电计划，避免了因电力供应不足或过剩而导致的能源浪费和经济损失，有效提升了电力系统的运行效率和经济效益。

在交通流量预测方面，城市交通流量的准确预测对于交通管理和规划具有重要意义。研究人员利用安装在道路上的传感器收集到的交通流量、车速、车道占有率等多变量时间序列数据，运用 CNN - GRU 模型进行预测。CNN 首先提取出交通数据在空间和时间上的局部特征，例如某个路段在早晚高峰时段交通流量的变化特征、不同路段之间交通流量的关联特征等。接着，GRU 对这些特征进行处理，挖掘出交通流量在时间上的动态变化规律，如每天、每周的交通流量周期性变化。通过实际验证，CNN - GRU 模型在交通流量预测中的表现优于传统的 ARIMA 等模型，均方根误差（RMSE）降低了 15% 左右，能够更准确地预测未来的交通流量。这为交通部门制定科学合理的交通管制策略提供了有力支持，有助于缓解交通拥堵，提高城市交通的运行效率，为市民提供更加便捷的出行环境。

三、SHAP 分析方法详解

3.1 SHAP 的理论基础与核心概念

SHAP 的理论根基深植于合作博弈论中的 Shapley 值概念，这一概念最初由 Lloyd Shapley 于 1953 年提出，旨在解决合作博弈中如何公平分配收益的问题。在合作博弈场景里，多个参与者共同协作以达成一个共同的目标，并获取相应的收益。例如，在一个商业合作项目中，不同的合作伙伴分别投入资金、技术、人力等资源，最终项目获得了利润，此时就需要一种合理的方式来分配这些利润，确保每个参与者都能得到公平的回报。Shapley 值就是这样一种用于公平分配合作者在合作中所产生总收益的方法，它通过严谨的数学计算，考虑了每个参与者在不同合作组合中的边际贡献，从而为收益分配提供了一个公平且合理的方案。

将 Shapley 值的理念巧妙地应用于机器学习领域，为模型的可解释性开辟了新的路径。在机器学习模型中，我们可以将模型的预测结果看作是 “合作收益”，而输入的各个特征则相当于 “参与者”。每个特征在模型的预测过程中都发挥着独特的作用，它们相互协作，共同影响着模型的最终输出。SHAP 值的核心任务就是计算每个特征在不同特征组合中对预测结果的边际贡献。具体而言，对于一个给定的样本，当我们逐个添加或移除特征时，观察模型预测结果的变化，这个变化量就是该特征的边际贡献。通过对所有可能的特征组合进行这样的计算，并取平均值，就得到了每个特征的 SHAP 值。这个值量化了该特征对模型预测结果的贡献程度，数值越大，说明该特征对预测结果的影响越大。

例如，在一个预测客户是否会购买某产品的模型中，客户的年龄、收入、购买历史等特征都可能对预测结果产生影响。通过计算 SHAP 值，我们可以清晰地了解到，年龄这个特征在某个具体客户的购买预测中，是起到了促进购买的正向作用，还是抑制购买的负向作用，以及这种作用的强度大小。这使得我们能够深入理解模型的决策过程，不再仅仅局限于模型给出的预测结果，而是能够洞悉每个特征在其中所扮演的角色。

3.2 SHAP 如何打破 “黑箱” 限制

在机器学习中，许多复杂模型，如深度神经网络和集成树模型，虽然在性能上表现出色，但它们的内部决策过程却如同黑箱一般，让人难以捉摸。这些模型通过大量的数据训练和复杂的算法学习到输入特征与输出结果之间的关系，但却无法直观地向用户解释这些关系是如何建立的，以及每个特征在最终决策中起到了怎样的作用。这种不透明性在实际应用中带来了诸多问题，特别是在对决策透明度和可解释性要求较高的领域，如医疗诊断、金融风险评估等。

SHAP 方法的出现，为打破这一黑箱限制提供了有力的工具。它通过计算每个特征的 SHAP 值，能够清晰地揭示特征对模型预测的影响方向和强度。从影响方向来看，正的 SHAP 值表示该特征对预测结果有正向的推动作用，即该特征值的增加会使模型预测结果朝着某个方向变化（例如在二分类问题中，更倾向于预测为正类）；负的 SHAP 值则表示该特征对预测结果有负向的影响，特征值的增加会使预测结果向相反方向变化。例如，在一个预测房价的模型中，房屋面积的 SHAP 值为正，说明房屋面积越大，对房价的预测值提升作用越明显；而房龄的 SHAP 值为负，意味着房龄越大，房价的预测值越低。

从影响强度方面，SHAP 值的绝对值大小反映了特征对预测结果影响的程度。绝对值越大，说明该特征对预测结果的影响越显著。例如，在一个信用风险评估模型中，收入水平的 SHAP 值绝对值较大，表明收入是影响信用风险评估结果的一个关键因素；而一些其他特征，如居住地址的邮编，其 SHAP 值绝对值较小，说明它对信用风险评估结果的影响相对较弱。

除了揭示单个特征的影响，SHAP 还能够提供局部和全局两个层面的解释视角。在局部解释方面，针对单一样本，SHAP 可以详细解释模型为什么会做出这样的预测。通过分析该样本中各个特征的 SHAP 值，我们能够清楚地看到每个特征对该样本预测结果的具体贡献。例如，在医疗诊断中，对于某个被诊断为患有某种疾病的患者，SHAP 可以指出是哪些生理指标（特征）在诊断过程中起到了关键作用，以及它们是如何影响诊断结果的。这有助于医生理解诊断模型的决策依据，增强对诊断结果的信任，同时也可以为患者提供更详细的解释，让患者更好地了解自己的病情诊断过程。

在全局解释层面，SHAP 通过聚合所有样本的 SHAP 值，帮助我们理解整个模型的行为。我们可以识别出对模型整体预测贡献最大的特征，了解模型在不同特征组合下的行为模式，以及特征之间可能存在的交互作用。例如，在分析一个城市交通流量预测模型时，通过全局 SHAP 分析，我们可以发现交通流量与时间、天气、道路施工等多个因素之间的复杂关系，以及哪些因素在整体交通流量预测中起着主导作用。这对于交通管理部门制定科学合理的交通规划和管理策略具有重要的参考价值。