【数据集】多行为模式窃电检测数据集

原创于 2025-12-11 07:28:51 发布 · 385 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文内容如下：🎁🎁🎁

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能解答你胸中升起的一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥第一部分——内容介绍

一、研究方法详述

研究方法

在窃电检测这一复杂且关键的研究领域中，为达成精准、高效的检测目标，本研究创新性地运用了基于元学习器 XGBoost 的 Stacking 集成方法。该方法的核心思想在于，将四种具有不同特性和优势的初级学习器——K 近邻（KNN）、逻辑回归（LR）、随机森林（RF）和 XGBoost 进行有机融合。通过这种融合方式，能够充分发挥各个初级学习器的长处，弥补单一学习器的局限性，从而构建一个更为强大、全面的窃电检测模型，有效提升窃电检测的准确性和可靠性。

实验环境设置

为确保实验的顺利进行以及结果的准确性和可重复性，本研究精心配置了实验环境。在处理器方面，选用了性能卓越的 AMD Ryzen 7 4700U。这款处理器具备多核心、高主频的特点，能够为数据处理和模型训练提供强大的计算支持，确保在处理大规模数据和复杂模型运算时依然保持高效稳定。

内存方面，总容量为 8.00 GB，其中 7.40 GB 处于可用状态。充足的可用内存为实验过程中的数据存储和快速读写提供了保障，避免了因内存不足而导致的程序运行缓慢或出错等问题，使得实验能够流畅地进行。

开发环境基于广泛应用的 Anaconda 平台，并使用 Python 3.6 版本。Anaconda 平台集成了众多常用的科学计算和数据分析库，为实验的开展提供了便捷的工具和环境。Python 3.6 版本具有简洁易读的语法、丰富的库支持以及良好的跨平台性，在数据处理、机器学习和深度学习等领域得到了广泛应用，能够满足本研究中各种算法实现和数据处理的需求。

实验操作流程

数据预处理环节

数据质量是影响模型性能的关键因素之一。在实验中，数据预处理环节重点针对数据不平衡问题进行了深入处理。在实际的窃电检测数据中，正常用电数据和窃电数据的数量往往存在较大差异，这种数据不平衡会导致模型在训练过程中过度关注多数类（正常用电数据），而忽略少数类（窃电数据），从而影响模型对窃电行为的检测能力。因此，本研究采用了有效的数据平衡技术，对数据进行了重新采样和调整，使得正常用户和窃电用户两个类别的用电数据在数量上达到相对平衡，为后续模型的训练和评估提供了良好的数据基础。

初级学习器选择

从众多算法中挑选合适的初级学习器是构建集成模型的重要步骤。本研究综合考虑了各种算法的特点和适用场景，对多种算法进行了评估和筛选。最终选择了 KNN、LR、RF 和 XGBoost 这四种算法作为初级学习器。KNN 算法基于距离度量，根据 k 个最近邻居样本的输出平均值来判断用电数据是否异常，具有简单高效、容易实现的特点；LR 算法利用逻辑函数对用电数据归属类别进行判定，计算代价低，易于理解和实现；RF 算法通过构建多个决策树并进行投票，具有训练速度快、抗干扰能力强的优势；XGBoost 算法则是在 GBDT 的基础上进行了优化，能够更加精准地对用电数据进行分类。这四种算法各具特色，相互补充，为构建强大的集成模型奠定了基础。

元学习器确定

元学习器的选择对于集成模型的性能起着至关重要的作用。在本研究中，经过充分的实验和评估，确定了 XGBoost 作为用于集成的元学习器。XGBoost 算法具有诸多优点，它将 GBDT 的损失函数泰勒展开到二阶并且加入了正则化项，能够在保证模型准确性的同时有效防止过拟合。此外，XGBoost 还具有计算复杂度低、实现高效的特点，能够快速处理大规模数据，并且对数据中的噪声和异常值具有较好的鲁棒性。因此，选择 XGBoost 作为元学习器能够进一步提升集成模型的性能和稳定性。

对比不同窃电检测方法

为了验证所提出方法的有效性和优越性，本研究将基于 Stacking 集成的方法与其他常见的窃电检测方法进行了全面的对比分析。通过在相同的数据集和实验环境下进行实验，对比不同方法在检测准确率、召回率、F1 值等指标上的表现，深入分析各种方法的优缺点和适用场景。这种对比分析不仅能够为窃电检测领域的研究提供有价值的参考，还能够进一步优化和改进所提出的方法，推动窃电检测技术的发展。

二、直接研究工具说明

计算算法

数据不平衡处理算法

在窃电检测数据中，数据不平衡是一个普遍存在的问题，严重影响模型的性能。为了解决这一问题，本研究采用了 SMOTE（Synthetic Minority Over - sampling Technique）算法。SMOTE 算法的基本思想是通过对少数类样本进行合成来增加其数量，从而达到数据平衡的目的。具体而言，该算法首先随机选择一个少数类样本，然后找到其 k 个最近邻的少数类样本，接着在这些邻居样本中随机选择一个样本，并按照一定的比例在该样本和原始样本之间进行线性插值，生成新的少数类样本。通过这种方式，SMOTE 算法能够在不改变数据分布的前提下，有效地增加少数类样本的数量，改善数据不平衡问题，提高模型对少数类（窃电数据）的检测能力。

学习器备选算法

初级学习器和元学习器的备选算法丰富多样，涵盖了多种类型的机器学习算法。在单一学习算法方面，包括 KNN、LR、支持向量机（SVM）、误差逆传播（BP）和决策树（DT）。KNN 算法基于实例的学习方法，通过测量不同特征值之间的距离进行分类，简单直观但可能受到局部最优解的影响；LR 算法是一种广义的线性回归分析模型，常用于二分类问题，具有计算简单、易于解释的优点；SVM 算法通过寻找一个最优的超平面来对数据进行分类，能够处理高维数据和非线性问题，但对大规模数据的训练时间较长；BP 算法是一种按误差逆传播算法训练的多层前馈网络，具有强大的非线性映射能力，但容易陷入局部最小值；DT 算法通过对数据进行递归划分来构建决策树，易于理解和解释，但可能会出现过拟合现象。

在集成学习算法方面，包括 RF、AdaBoost、梯度提升决策树（GBDT）和 XGBoost。RF 算法通过构建多个决策树并进行投票或平均来提高模型的准确性和稳定性，能够处理高维数据和特征缺失问题；AdaBoost 算法通过迭代的方式不断更新各个弱学习器的权重并将它们集成，能够提高分类的准确性，但对异常数据较为敏感；GBDT 算法通过梯度下降法来优化损失函数，能够处理各种类型的回归和分类问题，但计算复杂度较高；XGBoost 算法在 GBDT 的基础上进行了改进，具有更高的准确性和更快的训练速度，能够处理大规模数据和复杂模型。

结合策略备选方案

为了充分发挥不同学习器的优势，提高集成模型的性能，本研究考虑了多种备选的结合策略，包括投票法、加权投票法、改进加权投票法以及 Stacking 集成。投票法是一种简单直观的结合策略，它将各个学习器的预测结果进行投票，根据投票结果确定最终的分类结果。加权投票法在投票法的基础上，为每个学习器分配一个权重，根据权重对投票结果进行加权平均，从而得到最终的分类结果。改进加权投票法则进一步优化了权重的分配方式，根据学习器在不同数据子集上的性能表现动态调整权重，提高模型的适应性和准确性。Stacking 集成是一种更为复杂的结合策略，它通过构建一个元学习器来对多个初级学习器的预测结果进行进一步整合和优化，能够充分发挥各个学习器的优势，提高模型的泛化能力和性能。

基于多异学习器融合的 Stacking 集成学习方法

本研究提出的基于多异学习器融合的 Stacking 集成学习方法，整合了 SMOTE、KNN、LR、RF 和 XGBoost 等基础算法。该方法的具体结构可参考正文图 2。在该方法中，首先使用 SMOTE 算法对原始数据进行预处理，解决数据不平衡问题。然后，将处理后的数据划分为训练集和测试集，使用训练集分别训练 KNN、LR、RF 和 XGBoost 这四个初级学习器，得到它们的预测结果。接着，将这些预测结果作为新的特征，与原始数据的标签一起构成新的训练集，用于训练元学习器 XGBoost。最后，使用训练好的元学习器对测试集进行预测，得到最终的分类结果。通过这种多层次的融合方式，该方法能够充分发挥各个算法的优势，提高窃电检测的准确性和可靠性。

样本数据

本文所采用的样本数据，是当前窃电检测研究领域常用的爱尔兰智能电表数据集。该数据集具有丰富的数据信息和较高的数据质量，为实验的开展提供了可靠的数据支持。爱尔兰智能电表数据集包含了爱尔兰地区 6,000 多户居民和企业用户长达 535 天的连续用电数据，每条数据以 30 分钟为单位记录了用户一天中 48 个时段的用电量，单位为 kW·h。这些数据详细记录了用户的用电行为和用电模式，能够反映出不同用户在不同时间段的用电特征和变化规律。

为了确保实验的准确性和可靠性，从剔除了异常数据和缺失数据后的数据集中选取具有良好数据质量的 1,000 名居民用户的用电数据进行实验。由于每个用户家中都装有智能电表，并且愿意提供他们的用电数据以用作研究，因此认为所有的用电数据均为正常数据。这些正常数据为模型的训练提供了基础，使得模型能够学习到正常用电的模式和特征，从而更好地识别窃电行为。

三、直接研究结果数据呈现

模拟窃电样本数据

为了提供足够的窃电数据以支持实验的开展，本研究按照六种常见的窃电模式将随机选择 10%的正常数据修改为窃电数据。这六种窃电模式分别为欠压法窃电、欠流法窃电、移相法窃电、扩差法窃电、无表法窃电以及一种综合窃电模式。欠压法窃电通过减小电表电压线圈上两端的电压而使电量减少；欠流法窃电以减小电表电流线圈上的电流来进行窃电；移相法窃电通过改变电压与电流之间正常的相位使有功功率减少从而实现窃电；扩差法窃电改变电表内的构造使电表的误差发生变化从而使电量少记；无表法窃电绕开电表直接从供电企业的公共线路上接线来实现窃电；综合窃电模式则综合了多种窃电方法的特点，更加复杂和隐蔽。

将生成的这六种窃电数据分别与正常数据进行混合，得到 ET1、ET2、ET3、ET4、ET5 和 ET6 共六种混合数据集。同时，从中任意选取正常数据和窃电数据混合，得到 MIX 混合数据集（即包含六种窃电数据）。这些混合数据集模拟了实际窃电场景中不同窃电模式下的用电数据，为模型的训练和评估提供了丰富的数据样本。根据六种窃电模式产生的窃电数据样本存储于 Dataset 文件夹中的以下文件：
ET_Data1.csv
ET_Data2.csv
ET_Data3.csv
ET_Data4.csv
ET_Data5.csv
ET_Data6.csv

对于以上混合数据集中的每一个数据集，可以将其中的全部数据按 6∶2∶2 的比例划分为训练集、验证集和测试集。训练集用于模型的训练，使模型学习到数据的特征和模式；验证集用于调整模型的参数，优化模型的性能；测试集用于评估模型的泛化能力，检验模型在实际应用中的效果。采用 SMOTE 算法对用电数据进行过采样，使正常用户和窃电用户两个类别的用电数据平衡，再用平衡的训练集训练模型，用验证集调整参数，而用测试集进行模型的评估。通过这种方式，能够确保模型在不同数据集上都具有较好的性能和稳定性。

生成正文图表和正文所描述结论的数据或关键程序代码

以下文件为参考论文中图表和正文所描述结论的数据或关键代码：
Tab1_Data.xlsx：正文表 1 的相关数据。该表格详细记录了不同方法在各项评估指标上的表现，通过对比分析这些数据，可以直观地看出所提出方法的优势和不足。
Tab2_Data.xlsx：正文表 2 的相关数据。此表格展示了不同数据集上模型的性能指标，为分析模型在不同场景下的适应性提供了依据。
Tab3_Data.xlsx：正文表 3 的相关数据。该表格包含了模型训练过程中的一些关键参数和训练时间等信息，有助于了解模型的训练效率和优化方向。
Fig3_Data.xlsx：正文图 3 的相关数据。该图表以直观的方式呈现了不同方法在检测准确率上的对比情况，通过图形化的展示，能够更加清晰地看出各种方法之间的差异。
Fig4_Data.xlsx：正文图 4 相关数据生成的关键代码。这段代码详细记录了生成图 4 数据的过程和方法，为其他研究者复现实验结果提供了参考。
Fig5_Data.xlsx：正文图 5 的相关数据。该图表展示了模型在不同数据子集上的性能变化情况，通过分析这些数据，可以深入了解模型的稳定性和泛化能力。

四、相关算法在窃电检测中的应用分析

在窃电检测二分类中，不同的算法具有各自的特点和适用场景。k 最近邻（KNN）算法根据 k 个最近邻居样本输出的平均值来判断用电数据是否异常，从而判别用户是否具有窃电嫌疑。KNN 算法简单高效，容易实现，不需要对数据进行复杂的预处理和模型训练，能够快速对新的数据进行分类。然而，KNN 算法也存在一些局限性，它依赖于距离度量，对数据的分布和尺度较为敏感，容易受到局部最优解的影响，不一定能够得到全局最优解。

逻辑回归（LR）算法利用逻辑函数对用电数据归属类别进行判定。LR 算法计算代价低，易于理解和实现，能够快速得到分类结果。它通过建立输入特征和输出类别之间的线性关系，并使用逻辑函数将线性输出映射到概率值，从而进行分类。然而，LR 算法的模型较为简单，容易产生欠拟合现象，对于复杂的数据分布和特征关系可能无法准确建模。

决策树（DT）算法根据递归的方式将用电数据划分到对应的类别。决策树算法易于理解和解释，能够直观地展示数据的分类过程和规则。它通过一系列的判断条件对数据进行划分，形成树状结构，每个叶子节点代表一个类别。决策树算法容易提取出规则，便于实际应用和决策。然而，决策树算法在构建过程中容易忽略用电数据的相互关联，可能会出现过拟合现象，导致模型在新数据上的性能下降。

误差逆传播（BP）算法通过误差逆向传播算法对用电数据归属类别进行判定。BP 算法是一种人工神经网络算法，具有强大的非线性映射能力，能够处理复杂的非线性问题。它通过不断调整神经元之间的连接权重，使得网络的输出尽可能接近真实标签。BP 算法自学习能力强，能够自动从数据中学习到特征和模式。然而，BP 算法也存在一些缺点，它的收敛速度慢，训练过程需要大量的迭代次数，并且容易陷入局部最小值，导致模型无法达到最优性能。

支持向量机（SVM）算法通过核方法优化损失函数和风险函数从而对用电数据进行分类。SVM 算法能够解决非线性和高维问题，通过寻找一个最优的超平面来将不同类别的数据分开。它通过核函数将原始数据映射到高维空间，使得在原始空间中线性不可分的数据在高维空间中变得线性可分。SVM 算法在处理小样本、高维数据和非线性问题时具有较好的性能。然而，对于大规模的用电数据，SVM 算法的训练时间较长，计算复杂度较高，难以实施。

RF 算法通过多个决策树的投票结果从而对用电数据进行分类。RF 算法训练速度快，抗干扰能力强，能够处理高维数据和特征缺失问题。它通过构建多个决策树，并对它们的预测结果进行投票或平均，从而降低模型的方差，提高模型的稳定性和准确性。然而，RF 算法也可能会产生过拟合现象，尤其是在决策树数量过多或深度过大的情况下。

AdaBoost 算法采用迭代的思想不断更新各个弱学习器的权重并将它们集成，进而判别用户是否具有窃电嫌疑。AdaBoost 算法分类结果准确，能够通过不断调整弱学习器的权重，使得模型更加关注那些难以分类的样本，从而提高整体的分类性能。然而，AdaBoost 算法对异常用电数据敏感，如果数据中存在较多的异常值或噪声，可能会导致模型的性能下降。

GBDT 算法通过梯度下降法最小化损失函数，能够较精准地对用电数据进行分类。GBDT 算法在每一轮迭代中都会构建一个新的决策树来拟合上一轮迭代的残差，通过不断迭代逐步减小损失函数，提高模型的准确性。然而，GBDT 算法计算复杂度高，训练过程需要较长的时间，尤其是在数据量较大或特征维度较高的情况下。

XGBoost 算法将 GBDT 的损失函数泰勒展开到二阶并且加入了正则化项，可以更加精准地对用电数据进行分类。XGBoost 算法计算复杂度低，实现高效，能够处理大规模数据和复杂模型。它通过引入正则化项防止过拟合，提高模型的泛化能力。然而，XGBoost 算法不适合处理超高维数据，当特征维度过高时，模型的训练和预测效率会受到影响。