基于仿真的物联网边缘数据挖掘方法

最新推荐文章于 2025-11-25 11:38:37 发布

原创最新推荐文章于 2025-11-25 11:38:37 发布 · 984 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 # 物联网 # 边缘计算 # 仿真 # 云计算

基于边缘计算的物联网数据挖掘仿真驱动方法论

克劳迪奥·萨瓦利奥和詹卡洛·福尔蒂诺，卡拉布里亚大学

随着智能设备和物联网（IoT）应用的不断普及，数据挖掘领域面临一系列全新的挑战。边缘挖掘和云挖掘分别指面向物联网场景、基于边缘计算或云计算原则执行的数据挖掘任务。鉴于数据挖掘任务目标（如准确性、支持度、精确率）之间、物联网应用需求（主要是带宽、节能、响应性、隐私保护和安全性）以及边缘/云部署特性（去中心化、可靠性、易于管理）之间的正交性和相互依赖性，我们提出了EdgeMiningSim——一种受软件工程（SE）原则启发的基于仿真的方法论，以支持物联网数据挖掘。该方法论可引导领域专家揭示可操作知识，即在资源受限且动态变化的物联网场景中采取有效措施所需的描述性或预测性模型。本文以一个智能监控应用程序作为案例研究进行实例化，旨在示范EdgeMiningSim方法，并展示其在有效应对影响物联网数据挖掘的各种复杂因素方面的优势。

CCS概念： •信息系统→数据挖掘；计算平台； •计算机系统结构→嵌入式与信息物理系统；

关键词和短语：数据挖掘，物联网，云计算，边缘计算

计算机协会（ACM）参考格式：
克劳迪奥·萨瓦利奥和詹卡洛·福尔蒂诺。2021年。一种基于边缘计算的物联网数据挖掘仿真驱动方法。计算机协会（ACM）互联网技术汇刊第21卷，第2期，第30篇文章（2021年3月），共22页。
https://doi.org/10.1145/3402444

1 引言

在数据库中的知识发现（KDD）过程中，数据挖掘是通过（半）自动技术从大型数据集中提取有价值信息的分析步骤[19]。数据挖掘涵盖计算机科学和统计学的不同子领域（如人工智能、数据库、商业智能、推理等），通过对观测数据集进行操作，以揭示用于描述性或预测性目的的新颖、有用且易于理解的模型。几十年来，数据挖掘在传统计算系统中得到广泛应用，未来必将在物联网（IoT）中发挥关键作用，物联网是由全球互联设备组成的生态系统，这些设备无处不在且普遍部署，以提供先进的信息物理服务[13]。事实上，

本工作部分由意大利教育部（MIUR）2017年PRIN项目“Fluidware”（CUPH24I17000070001）资助。作者地址：C.萨瓦利奥和G.福尔蒂诺，卡拉布里亚大学，意大利伦德（科森扎省）比奇路41C号，87036；电子邮件：csavaglio@dimes.unical.it，giancarlo.fortino@unical.it。允许出于个人或课堂教学目的免费复制本文全部或部分内容，前提是不得以盈利或商业利益为目的进行复制或分发，且所有副本须注明此声明及首页的完整引用信息。对于本作品中由非计算机协会（ACM）拥有的组成部分，其版权必须予以尊重。允许在注明出处的前提下进行摘要使用。如需其他方式复制、重新发布、上传至服务器或再分发至列表，则必须事先获得特定许可和/ 或支付费用。请向permissions@acm.org申请许可。©2021计算机协会（ACM）。1533‐5399/2021/03‐第30篇$ 15.00https://doi.org/10.1145/3402444
ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。
本文档由funstory.ai的开源PDF翻译库BabelDOCv0.5.10(http://yadt.io)翻译，本仓库正在积极的建设当中，欢迎star和关注。

30:2 C.萨瓦利奥和G.福尔蒂诺

从物联网设备提供的快速、异构、情境化的数据（即物联网数据）中挖掘出的知识，使我们能够采取有效措施，更好地管理城市、道路、健康、家庭、车间以及更多领域。随着新型物联网设备（如智能手表、智能眼镜、智能车辆等）和应用程序（如智能家居、智慧城市、智能电网等）数量的增加，以及物联网数据量和价值的随之增长，学术界和工业界最近都已认识到物联网数据挖掘既是一项关键需求，也是一个令人振奋的商业机遇[1]。

对于挖掘物联网数据（但总体而言，也包括真正交付物联网应用）的最初尝试依赖于云计算（CC），旨在通过集中式方式收集和处理信息来揭示知识[37]。一方面，云计算具有坚实的核心概念、技术和机制，能够简化异构物联网设备之间的互连以及其数据的远程采集与挖掘，克服存储和计算能力的限制。另一方面，将海量数据传输到云端并同时满足典型物联网应用对移动性、可靠性和响应性的需求，需要稳定可用的高带宽支持。然而，一些实际的物联网部署远未达到这样的设置，因此边缘计算（EC）成为一种可行的替代方案或对云计算的补充解决方案[43]。事实上，边缘计算所实现的范式转变使数据感知和数据处理更加接近，以最小化数据传输，并去中心化数据的处理与存储：这些原则有助于推动多种高要求物联网应用（如增强现实、自动驾驶汽车、智慧医疗等）的发展，同时也利于物联网数据挖掘[24]。有趣的是，尽管这种集成具有毋庸置疑的潜力，迄今为止，学术界对物联网数据挖掘、云计算和边缘计算在理论上的融合关注甚少，对其实际应用的关注则更少[40],。

鉴于物联网应用需求与边缘/云部署特性之间的正交性和相互依赖性，本文提出了 EdgeMiningSim方法论，这是首次系统化应对物联网数据挖掘的方法。该方法论依赖于一种交互式和迭代的过程，与传统数据挖掘方法不同[32],原因在于：（i）它专门针对物联网环境设计，并具有足够的灵活性以适用于各种物联网应用；（ii）它同时考虑了算法、基础设施和上下文等多方面因素，而这些因素在现有的物联网数据挖掘文献中仅被部分或单独分析；（iii）它借鉴了软件工程（SE）原则，并通过仿真活动提供支持，能够在实际部署前初步评估特定物联网数据挖掘任务在计算、通信和能耗方面的整体影响。本文通过一个案例研究展示了EdgeMiningSim方法论的运行过程，该案例是我们先前关于在智能环境中为监控目的对一组分散的物联网设备进行聚类的论文的扩展[40],其主要结果是，在计算、通信和能耗方面，一种近似的边缘挖掘聚类解决方案优于云挖掘方案，同时仍能保持可调节的高准确性。事实上，如参考文献[18, 25],所述，大多数（物联网）应用和系统具有容错性，因此放宽对绝对准确度或完全确定性操作的限制并不会显著影响整体性能，反而能提高其效率。总结来说，本工作的主要贡献如下：

• 对物联网场景中数据挖掘、云计算和边缘计算之间协同作用的深入分析；
• EdgeMiningSim，一种基于仿真的方法论，用于根据边缘计算和云计算部署进行物联网数据挖掘；并且
• 一个与智能环境相关的案例研究，用于展示EdgeMiningSim的应用以及云和边缘挖掘之间的权衡分析。

这些贡献在文章中的组织如下。在第2节中，我们简要概述了物联网、云计算和边缘计算，以便在第3节中引出物联网数据挖掘

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:3

及其一些典型的物联网应用程序。在第4节中，我们通过对比分析介绍了云和基于边缘的物联网数据挖掘方法，并引入了上述EdgeMiningSim方法论，该方法论随后在第5节的智能环境监测案例研究中进行实例化。最后，在第6节中，我们通过回顾主要研究成果并展望未来工作来总结本文。

2 背景

2.1 物联网、云和边缘计算

物联网是一个由异构但相互交互的信息物理智能对象组成的生态系统[23],即专门配备用于感知周围环境、处理和传输这些数据并最终执行某些操作的日常设备。这些物联网设备通常配备电池，并通过不同的通信协议（蓝牙、无线网络、Zig‐Bee等）实现无线互联，近年来得到了广泛应用，从小规模（如智能家居）到大规模场景（如智慧城市）均实现了普遍和广泛的部署。由于其运行，物联网设备产生了大量异构且动态的数据流量（不仅包括温度、空气污染、速度、湿度、存在感和光照等数值，还包括多媒体、推文、电力消耗等），以支持众多新型物联网应用（智能健康、智慧农业、工业物联网等）[13]。

物联网设备和应用程序的管理可以在云上远程进行，也可以在网络边缘本地进行[12]。
云计算（CC）是克服物联网设备硬件和软件限制以及简化其管理的一种可行解决方案。事实上，通过利用远程的高性能服务器，云计算提供了虚拟化物联网设备、动态为其增强额外资源，并透明地访问、利用和集成到物联网应用和/或第三方服务中的机制。在这种模式下，物联网设备将原始数据“感知并转发”至云，完全依赖可用带宽和服务器资源来获取计算结果。然而，由于用户交互路径中的长延迟，这种模型使得云计算难以满足某些物联网应用对响应性、可靠性、效率和隐私的要求。为了克服这些局限性，边缘计算（EC）范式最近被提出，以高效且去中心化的方式在靠近终端用户设备的位置处理数据。实际上，通过在相同的感知设备或位于一跳通信距离内的边缘服务器上处理数据，可以减少网络带宽消耗和额外的通信成本，从而实现时间敏感、上下文感知和移动物联网应用[43]。此外，在边缘进行去中心化的数据处理为敏感数据提供了相对于云的额外隐私保护层，并通过避免单点故障提高了可靠性。显然，将处理从地理上遥远但完全受控且强大的服务器转移到附近、廉价甚至有时是移动的边缘服务器，这种方案本身也带来了一系列问题：例如，边缘服务器相对计算能力较弱且功能固定，难以更换，同时由于充当边缘服务器的设备具有异构性，管理难度更大（例如，任务卸载的时机与位置、如何应对边缘服务器故障以确保可靠性、针对特定场景应采用何种边缘服务器配置）。经过上述简要讨论可以明显看出，选择最适合的基于云或基于边缘（甚至混合[47]）的物联网系统部署方式必须结合具体场景进行评估，因为其中涉及众多可能相互依赖且正交的因素。因此，在真实、昂贵且复杂的部署阶段之前借助仿真是一个明确可行的解决方案，旨在评估同时影响物联网系统性能的计算、通信及效率相关因素[20, 39]。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

2.2 EdgeCloudSim

除了通用模拟器（提供高级别的独立分析模型集合，但仅对综合分析部分可信，例如 MATLAB1和SimPy2）之外，目前仅有少数专用网络模拟器能够同时考虑定性和定量方面，以及计算、通信和与效率相关的方面。主要的模拟器包括Recap[33] Fog‐Torch[8], IoTSim-Edge[26], PureEdgeSim[34],和EdgeCloudSim[45]。其中最后三个模拟器基于著名的CloudSim[10]框架：此外，EdgeCloudSim是最早的（2017年），目标最明确且相关性最高（目前已被数十项研究采用并被引用数千次），因此我们决定在第5节的案例研究中使用它。

具体而言，EdgeCloudSim是一个开源的、基于事件的仿真框架，专为边缘计算场景设计。EdgeCloudSim支持对物联网设备、应用程序以及基于云/边缘的基础设施进行细粒度建模，使其适用于多种物联网应用（如增强现实、信息娱乐、电子健康等）。其架构具有模块化和高度可定制的特点，包含四个模块（核心仿真、移动性、网络和负载生成器），通过真实任务生成、移动性和广域网/无线局域网网络模型提供主要仿真功能。为了促进快速原型开发，每个模块都包含一个默认的（基于Java的）实现，用户可轻松扩展或替换为自定义实现：实际上，EdgeCloudSim采用了工厂方法模式，从而将模型的设计与模型本身解耦。尽管可以设计具有不同内部结构的架构，EdgeCloudSim的参考架构仍包含以下三层：（1）设备层，即在同一无线局域网（WLAN）中运行并能够与边缘层（通过 WLAN）和云层（通过互联网）通信的一组（移动）物联网设备；（2）边缘层，包含一个或多个边缘服务器，每个边缘服务器单独配备一个无线接入点（AP）。边缘服务器是指装备最好的物联网设备（例如单板计算机、微控制器、基站），能够处理应用程序和数据的某些部分。可选地，边缘层还包括一个编排器，用于监控系统资源可用性，并决定如何以及在何处处理传入的客户端请求（即通过任务调度来平衡边缘服务器的工作负载、最小化其能耗，或总体上符合给定的系统策略）。（3）云层，其中云服务器负责那些资源受限的边缘服务器无法完成的资源密集型操作，例如繁重计算或大规模/长期数据存储。云服务器可以通过互联网与设备层和边缘层进行交互。

仿真设置（例如，仿真时间、系统拓扑）、应用属性（例如，上传和下载数据大小、任务到达间隔时间）以及设备特性（例如，处理器、移动模式）被编码为结构化数据，并在 XML文件中进行管理，以便用户轻松修改以及仿真器引擎动态处理。仿真结果提供了对系统性能的细粒度分析：特别是，EdgeCloudSim使我们能够从计算（任务复杂度，以百万条指令衡量）和通信（例如，考虑网络拥塞以及移动物联网设备与边缘服务器接入点之间的当前距离）两个方面来检查服务时间、服务失败、资源利用率和能耗。由于这些及其他特性（可用性、低资源需求）

1 https://www.mathworks.com/.
2 https://simpy.readthedocs.io/en/latest/.

ACM互联网技术汇刊，第21卷，第2期，文章30。出版日期：2021年3月。

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:5

表1.数据挖掘与物联网数据挖掘的比较
数据挖掘物联网数据挖掘


目标	知识披露	可操作知识披露
Task	描述性、预测性	描述性、预测性
Goal	技术意义	技术意义&商业利益
利用的技术	自动的，半自动的	半自动的
过程	数据驱动的	数据驱动的&领域驱动的
计算位置	服务器，云服务器	物联网设备，云服务器
数据源	计算系统，传感器	每个物联网设备
Data	驻磁盘事务型 , 精炼数据集	现实生活中的未处理数据（流）
资源可用性	高且稳定	有限且不稳定
仿真重要性	有限	Key

可视化工具、庞大的社区等），EdgeCloudSim目前可被视为同时涉及云计算和边缘计算的物联网应用的基准模拟器。

3 从数据挖掘到物联网数据挖掘

由物联网设备产生的或面向物联网应用的高价值但稀疏、快速且嘈杂的数据海洋[1]给数据挖掘领域带来了一系列挑战。当前关于物联网数据挖掘的前沿研究主要探讨了以下两方面的适用性：（i）传统数据挖掘技术[1, 2, 24, 48, 51],架构和框架[4, 7, 14, 44],，这些技术最初是为传统计算机系统设计的，未考虑计算、通信或能量限制；以及（ii）为资源受限和协同应用（如无线传感器网络WSN）设计的分布式/并行数据挖掘算法和去中心化架构模型 [5, 6]。然而，研究发现，这些数据挖掘方法可能无法扩展到物联网场景，或难以适应其异构约束：事实上，尽管学术界取得了大量成果，但其中很少有真正得到实际应用。正如表 1所示，数据挖掘与物联网数据挖掘之间存在一些重要差异，涵盖从数据本身（前者为精炼数据集，后者为真实生活中的、通常未经处理的数据）到数据源（传统计算机或传感器 vs.各类智能设备），以及相关资源可用性（在计算、存储和带宽方面）。事实上，许多数据挖掘算法运行在驻留在磁盘的事务数据上，需要多个精炼步骤以及频繁交换中间结果，因此在资源受限的物联网场景中表现不佳或无法直接适用[6]。此外，数据挖掘最初是一种自主的、数据驱动的、以自动化发现隐藏知识为目标的试错过程；而由于物联网场景的独特性和信息物理特性，需要引入领域驱动的物联网数据挖掘，通过人类专家提供的深入领域知识来补充传统的知识发现过程（KDD）。这是因为物联网数据挖掘同时关注技术和商业视角，旨在揭示一种可操作的知识[11],，即兼具技术意义和实际效用的模型和模式，以满足应用目标（例如，一条分类规则不仅满足支持度和置信度的技术要求，还满足能源效率和响应性的应用需求）。为了在这些技术和商业目标之间取得平衡，许多研究活动从底层电路设计到高级编程语言，采用了诸如近似计算和不精确计算等范式[25]和不精确计算 [18]。事实上，一个近似的或次优解通常不会对整体

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

30:6 C.萨瓦利奥andG.福尔蒂诺

性能：相反，这些容错系统通常对时间或能量敏感，因此可以方便地以一定的准确性来换取能量和时间。在其他情况下，数据挖掘的技术意义可能与物联网的商业利益不同甚至冲突（例如，一种准确但不保护隐私的智慧医疗聚类算法），二者之间的权衡需要谨慎管理。

因此，可以得出结论，在物联网场景中，获得可作为采取有效行动依据的知识更像是一门艺术，而不是一个完全自动的过程。

在这方面，仿真活动发挥着关键作用，能够调优配置参数和阈值，从而最终平衡技术和业务目标[40]。不幸的是，目前还没有专门针对物联网数据挖掘的仿真框架：因此，迄今为止，数据挖掘算法在物联网数据上的评估依赖于R等统计计算环境[2]或直接通过小规模真实测试平台[24],进行，存在明显局限性。

3.1 物联网数据挖掘概述

物联网数据挖掘所追求的可操作知识，可以通过预测性（为未知/未来数据建立模型）或描述性（从现有数据中揭示显著的模式/趋势/轮廓）任务来具体实现，这一点与传统数据挖掘类似。此类任务种类繁多，我们并不旨在提供像参考文献中那样全面的综述[42]：相反，为了简洁起见，我们将重点介绍两种预测性（分类、时间序列分析）和两种描述性（聚类、关联分析）广为人知的数据挖掘任务，并为每一项任务提供简要描述以及其在典型物联网场景中应用的一些示例。

• 分类是一种监督学习过程，旨在构建一组分类器以表示模式的可能分布。换句话说，给定一组标注数据（用作知识库），分类器会识别出每个未标注数据应归属的目标类别。为了准确预测目标类别，可以采用多种变体方法，例如决策树、k‐近邻、朴素贝叶斯分类、AdaBoost和支持向量机。
物联网示例。在智慧医疗背景下，一个重要目的就是在室内/室外环境中对人类的健康状态进行分类[35]。特别是，在智能手表、智能手环和智能手机广泛且普遍部署的支持下，可以检测常见的活动（例如站立姿势、临时姿势和躺卧姿势）以及跌倒事件等事故。同样，另一项重要的分类活动涉及异常心电图信号的检测，这些信号可能预示着猝死事件，如心血管疾病。在这种情况下，实时性和准确性（主要受初步特征提取步骤的影响）可能会显著影响此类系统的有效性。相比之下，对于基于大规模多媒体数据（例如视频、图像或音频数据）的物联网应用而言，带宽消耗的效率是主要关注点。例如，在智慧交通领域，[30],摄像头和其他传感器的数据被联合利用于停车场监控系统（统计并分类进出车辆）、交通预测和事故检测（通过实时信息、历史数据、天气状况等预测交通拥堵）、物体识别以及辅助驾驶系统（疲劳与压力检测系统）。在这些示例中，基于事件的推理而非原始异构数据已成为一项必要要求，即使需要以牺牲响应性为代价。

• 聚类是一类无监督算法，涉及处理数据并将样本划分为称为簇的子集。此过程的目的是进行分类

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:7

将相似的对象归入同一簇，同时将不相似的对象保持在不同的簇中。分离标准可能包括（但不限于）最大化簇内相似性（内部度量）、最小化不同簇之间的相似性（外部度量），以及最小化簇元素与簇中心之间的距离。
物联网示例。聚类技术被广泛应用于不同的物联网相关应用领域。在社交物联网[3],中，可以通过分析其社会关系来使用聚类发现人和/或物联网设备之间的潜在社区。在智能家居中，也可以利用物联网设备的相同使用数据来发现用户行为，并提供更有效的自动化交互。然而，聚类技术最重要的用途之一涉及大规模、恶劣环境下的物联网部署。在这种场景下，例如智慧农业[49],中，聚类使我们能够将环境传感器划分为多个组，每组由一个簇头和多个簇成员组成。后者仅执行簇内流量（将感知到的数据传输给其簇头），而前者则处理簇外流量（接收、聚合、清洗数据并将其传输至基站）。这种聚类化通过延长网络寿命（优化的传输可使电池寿命延长多达10倍）、提高带宽利用率以及加快数据传输速度，从而整体提升了网络性能。鉴于恶劣的部署条件（电池供电节点、低带宽），这些改进尤为显著。

• 关联分析 旨在从大量数据项中发现隐藏的信息和联系。关联规则用于从一组交易中找出所有的共现关系；而当这些交易按一定长度排序时，该活动则被称为序列模式挖掘。在这两种情况下，结果都根据用户定义的支持度和置信度进行评估，目标是同时最小化两者。
物联网示例。类似于众所周知的“尿布和啤酒”案例，关联分析技术在许多涉及射频识别（RFID）等识别与追踪技术的物联网场景中找到了更现代的应用。例如， RFID在购买行为分析中起着关键作用，旨在将客户特定规则（如年龄、位置、家庭状况）、类别规则以及关联规则整合到同一推荐系统中，这些系统越来越多地基于增强现实技术。通过这种方式，购买建议可及时推送给客户佩戴的智能眼镜或智能手机。在工业物联网中，将关联分析技术应用于配备RFID的设备有助于更好地管理工业资产，并实现预测性维护等宝贵活动，仅举几例[28]。在日常生活活动中，有用的序列模式可用于描述和定义被监测对象的日常作息：此类分析对于老年人福祉研究尤为重要，因为主要时间性活动（如饮食、休息、个人卫生、娱乐）与个体精神状态之间的关联已得到广泛认可[46]。

• 时间序列 (TS)是按时间顺序索引的事件序列（因为每个事件由一个或多个先前的事件决定），用于描述特定过程。通过在大量数据上应用统计技术（如外推法、随机方法等），可以预测未来值，并利用这些信息支持长期战略决策。尽管时间序列也可用于描述性分析（如异常检测、关联分析等），但历史上其主要应用于预测性分析，面临的主要挑战包括高维度、相似性度量以及索引管理。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

30:8 C.萨瓦利奥和G.福尔蒂诺

Tabl图2.典型的物联网应用及相关的数据挖掘任务示例与需求 s
物联网领域数据挖掘任务示例主要需求


智能视频监控	基于分类的物体识别	带宽效率
智慧农业	聚类无线传感器网络	能源效率
智能健康	心电信号轮廓检测	响应性
智能家居	基于聚类的用户行为分析	隐私
智能交通	基于分类的疲劳检测系统	安全
智能电网	基于时间序列的消费者能源预测支出	准确性
社交物联网	社区检测异构物联网设备	互操作性
智慧城市	基于分类的停车管理	可扩展性

物联网示例时间序列具有高度的通用性，适用于处理以不同频率采集的多种类型的物联网数据（实值、连续、离散数值或符号数据）（长期轨迹或短期观测周期）。
例如，在智能电网和智能制造中，基于智能家用电器的历史趋势和实时信息，可以预测消费者的能耗和电价，这对需求侧管理具有显著益处[36]。在智慧城市场景中，安装在城镇各处的智能广告牌和智能交通信号灯可以收集环境数据以预测空气质量，或分析移动性以预测每天通过火车站的乘客数量[27]。在智能物流中，为了最小化供应链成本，时间序列可用于规划下一季收获，估算实时存储站点容量以及吞吐量与库存之间的关系[15]。请注意，在这些示例中，季节性和数据量差异显著，而机器学习技术主要用于趋势提取和预测。

从下文报告的物联网数据挖掘示例（总结于表2）中可以看出，为了满足异构物联网场景的具体需求、特点和限制，需要重新思考并重构传统的数据挖掘项目方法，从而获得可操作知识的重要性变得尤为明显。事实上，知识发现/数据挖掘与软件工程具有相似的操作模式，因为软件工程方法论中的若干活动[22]（如深入的初步建模阶段、适当的基础设施和部署选择、仿真活动的重要性等）是成功实施知识发现/数据挖掘（简称DM）项目的必要前提[31, 50]。

4 面向云挖掘与边缘挖掘：一种用于工程化物联网数据挖掘项目的基于仿真的方法论

传统数据挖掘系统依赖于本地/远程服务器，由强大的计算、存储和连接资源支持，用于收集和处理来自计算机或传感器的数据。相比之下，知识发现过程在物联网场景中则根据基于边缘或云的部署以不同方式执行（如图1所示），这显然反映了边缘计算和云计算范式的优缺点。
云挖掘允许用户从远程的、虚拟集成的数据仓库中检索有意义的信息，并确保获得强大的计算能力、可互操作性和安全的服务。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:9

示意图0

除了对软件、数据存储和硬件基础设施进行透明、集中和灵活的管理[37]。诸如 Arrayent、GoogleCloudIoT、AWSIoT、AltairSmartCore和Xively等云物联网平台提供的此类功能[41],使得云挖掘非常适合以下情况：（i）可容忍延迟的任务，可在云中高效执行以进行深度分析；（ii）具有高度异构数据格式和通信协议的混合应用程序；（iii）安全关键型场景，出于某些原因需要在不同地点进行数据采集和数据处理。

相反，在边缘挖掘中，数据通常在物联网边缘点广泛部署的资源受限的智能设备上进行本地处理，以发现与上下文相关的信息和隐藏的知识。因此，基于本地决策触发操作，并随后将数据与云服务器同步。与云挖掘相比，边缘挖掘提供了更高的（i）效率，因为直接在边缘进行数据挖掘减少了所需的带宽、存储及其相关成本，同时也降低了物联网设备的能耗，而能耗受无线通信活动影响较大；（ii）响应性，因为本地数据处理最小化了往返时间和相关的通信延迟，这对于提供移动应用程序至关重要；（iii）可扩展性和可靠性，因为边缘挖掘的去中心化和P2P方法有利于那些密集且大规模的物联网部署，在这些场景中云计算可能会遭遇瓶颈效应或单点故障；以及（iv）隐私保护，因为对个人物联网数据或挖掘模型的访问可以仅限于本地网络（包括物联网设备），从而防止外部访问、进一步挖掘、不当使用或泄露[52]。基于此，传感器数据流是连续且快速的数据记录的典型示例，这些数据流若通过云计算处理可能难以妥善应对（例如，通过需要进一步复杂处理的大数据窗口），而通过边缘计算则能够以可扩展且高效的方式处理[16]。

Defining a priori为每个数据挖掘项目预先定义最优设置是不可行的：事实上，云计算和边缘挖掘所提供的上述特性（响应性、隐私、管理便捷性等）在不同情况下优先级各不相同，而且这些特性之间具有很强的相互依赖性[39]——调整数据挖掘算法所使用的时间和能量会影响其准确性；同样，算法可用时间越长，其准确性和能耗就越有可能

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

30:10 C.萨瓦利奥和G.福尔蒂诺

be increased[25]。然而，对这些权衡的管理需要定量的洞察，而这些洞察只能通过仿真活动获得，而该仿真活动又必须建立在对整体物联网场景进行系统且准确的建模初步阶段基础之上。因此，下文我们提出EdgeMiningSim方法论，旨在根据数据挖掘项目的具体技术与商业目标，为其提供最优的设置。

4.1 EdgeMiningSim

所提出的EdgeMiningSim方法论依赖于一个过程模型，该模型与CRISP‐DM及其他传统数据挖掘方法一样[32],具有通用性（在不同应用程序中广泛稳定）、交互式（由用户做出战略决策）、迭代性（可回溯到先前步骤）以及独立于工具/技术但可被支持的特点。然而，它专门针对物联网场景进行了定制，并强调了在软件工程中关键但在数据挖掘领域通常未被涵盖的一些方面（例如详细的领域建模、基于仿真的方法、专家的跨学科协作）。事实上，当前的数据挖掘项目正逐渐呈现出工程问题的规模[31]：因此，借鉴一些成熟的软件工程研究实践（例如电气与电子工程师协会IEEE的开发过程指南 1074[50]）有助于揭示可操作知识，同时评估技术对业务需求的影响以及反之亦然。特别是，物联网系统开发方法论中的要素[23]可以成功地集成到数据挖掘项目中，以应对物联网场景中存在的正交且相互依赖的数据、设备和基础设施问题。据我们所知，EdgeMiningSim是首个具备此类特征的方法论，它通过逐阶段提出不仅包括过程（即做什么），还包括实践洞察（即如何做），从而在保持对厂商、工具和技术无关的前提下，推进物联网数据挖掘项目的工程化，超越了当前的前沿技术水平。

EdgeMiningSim的核心过程通过软件过程工程元模型（SPEM）3表示法进行描述，这是一种在工业界和学术界广泛使用的标准元建模语言。具体而言，该过程按层次结构分为三个抽象级别，即阶段、（通用或特定）活动和任务，如图2所示。

阶段代表了挖掘项目中的关键节点，由一个或多个活动组成。每个阶段至少由一名参与者执行，参与者可以是业务专家（即具有领域专业知识的用户）或技术专家（即具有物联网和数据挖掘专业知识的用户）。各阶段按特定顺序进行，允许回溯，且每个阶段都会生成一份定义的工作产品（WP），该工作产品可以是结构化程度不同的文档（如编码记录或自然语言的纯文本报告），并作为后续阶段的输入。

• 通用活动是所有数据挖掘场景中常见的高层操作（因此是必需的），其结构设计旨在涵盖各种应用程序，并适应尚未预见的发展，例如新型挖掘算法或技术。而特定活动则是可能在特定数据挖掘项目中需要但在其他项目中不必要的高层操作。要实际实现一个活动，需要执行一组/一系列任务（有时顺序可以不同）。

• 任务是低级别的操作，直接在特定的数据挖掘任务中实现某一活动（例如，用于数据清洗活动的去重或数据协调任务）。对于每个任务，建议使用相应的标准、协议和工具，而整体过程则独立于具体使用的标准、协议和工具。

3SPEM2.0规范，可从http://www.omg.org/spec/SPEM/获取。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

示意图1

示意图2

根据SPEM表示法，EdgeMiningSim的阶段也在图3中进行了描述，以下详细说明了相关活动、任务、参与者和工作产品（均以斜体表示）。这些元素也在表3中进行了概述，而所有可能的特定活动和任务的详尽列举（与所考虑的物联网数据挖掘项目密切相关）显然会因应用上下文的变化而变化。然而，EdgeMiningSim具有足够的灵活性，可根据特定需求进行扩展或定制。

(P1)物联网领域分析

本初始阶段旨在理解物联网数据挖掘项目的物联网领域。特别是，该初步分析旨在进行应用特征描述（P1.a，例如通过非正式叙述或UML建模任务

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:11

图2. EdgeMiningSim的三层组织结构（虚线部分为一个阶段的分解示例，包括其构成的活动以及具体实现其中部分活动的任务）。

图3. 构成EdgeMiningSim的阶段和工作产品。

(P1)物联网领域分析

本初始阶段旨在理解物联网数据挖掘项目的物联网领域。特别是，该初步分析旨在进行应用特征描述（P1.a，例如通过非正式叙述或UML建模任务），以便直接执行应用程序需求识别（P1.b，例如通过联合访谈来揭示这些需求是否具有不同优先级，参见表2）。相反，关键是要弄清楚满足这些需求的整体资源可用性：需考虑

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

30:12 C. 萨瓦利奥 and G. 福尔蒂诺

表3. 所提出方法论的构成要素分解（特定活动已加星号标注）

阶段 (ID)	活动(ID)	Task	工作产品 (ID)	参与者
物联网领域分析 (P1)	应用程序特征描述 (P1.a) 识别需求(P1.b) 设备表征 (P1.c) 场景表征 (P1.d)	UML建模，用户叙事联合访谈，需求排序数据表分析网络基础设施分析，拓扑分析	领域报告 ( WP1)	业务专家，技术专家
物联网数据分析 (P2)	数据格式理解 (P2.a) 数据生命周期理解 (P2.b) 数据质量问题识别 (P2.c)* 数据准备 (P2.d)*	ASIS HL7标准 DFD建模轮廓检测，缺失数据分析数据清洗，数据聚合，	数据报告 ( WP2)	业务专家，技术专家
数据挖掘设置 (P3)	数据挖掘目标识别 (P3.a) 数据挖掘任务识别 (P3.b) DM 算法识别 (P3.c) DM 算法定制 (P3.d)*	DM框架分析 DM框架分析 DM框架分析启发式方法, 算法优化	数据挖掘报告 ( WP3)	技术专家
物联网部署建模和仿真 (P4)	仿真场景建模(P4.a) 设备建模(P4.b) 应用建模 (P4.c) 模拟器选择 (P4.d) 模拟器定制 (P4.e)* DM算法初步设置 (P4.e)* 仿真执行(P4.f)	架构设计，网络建模，拓扑定义移动性建模, 能量建模任务生成建模 SOTA分析模型集扩展 , 统计编辑时间窗口评估，聚类SSE分析，训练集定义性能标准规范，结果绘图	仿真报告 ( WP4)	技术专家
评估与验证 (P5)	仿真结果评估 (P5.a) 权衡管理 ( P5.b ) 仿真结果验证 (P5.c)	对比分析尊重 WP1 参数调优回溯测试平台设计，讨论与业务专家一起	数据挖掘项目设置 ( WP5 )	业务专家, 技术专家

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:13

在此阶段，设备表征（P1.c，例如通过分析其数据手册以了解能量、存储和处理能力、通信协议等）和场景表征（P1.d，通过研究网络基础设施、场景拓扑和设备位置等）的活动展开。在该阶段，商业利益和技术专家与自动化系统协作，生成一份包含物联网应用特征及相关商业利益综合而高效概述的领域报告（WP1）。对这些方面的分析为后续阶段提供了重要的基础，因为它已经可以为后续采用的边缘/云部署提供初步指导（例如，隐私敏感型应用可能不会部署在云上；资源受限的物联网设备可能无法处理任何数据，而只能将其转发到云）。

(P2)物联网数据分析

本阶段旨在进行数据理解，并可选择性地进行数据预处理。主要问题在于数据的异构性，这反映了物联网设备的异构性，从简单的RFID读取器到先进的智能汽车或家用电器均包含在内。实际上，在物联网场景中，共存着具有不同表示形式和大小的数据（字节、二进制、字符串、数字、视频、图像、推文等），时序或非时序数据（带时间戳）、标注数据与未标注数据（如图像与传感器读数），并且它们可以组织成不同的数据集（例如单列或多列）。明确的数据格式理解（P2.a，例如通过参考OASIS HL7标准中的数据规范4）以及数据生命周期理解（P2.b，即使用数据流图描述谁生成数据、生成速率、数据包大小以及由谁接收），与传统数据挖掘类似，这些步骤有助于缩小合适任务和算法设置（见P3）的范围，并在需要时支持进一步的数据预处理（例如数据清洗或聚合任务）。在许多场景中，后一活动能够显著满足P1.b阶段确定的应用需求（例如，聚合传感器读数以节省带宽，删除数据特征以实现隐私保护），因为物联网数据通常以高速和大规模生成，因此无法直接以原始形式进行处理[21]。同样，业务和技术专家在此协同合作，并共同生成一份数据报告（WP2），用以总结主要的数据相关信息。

(P3)数据挖掘设置

数据挖掘问题的制定需要对P1、P2阶段的物联网领域和物联网数据进行初步分析，以正确开展数据挖掘目标 (P3.a)，数据挖掘任务 (P3.b)，以及数据挖掘算法 (P3.c) 识别。事实上，基于WP1和WP2中综合的上述数据和领域知识，可以明确是否需要构建预测性或描述性模型、合适的数据挖掘任务（例如，针对有标签且为时序数据的情况采用分类，针对无标签且为非时序数据的情况采用关联规则等），以及应使用的特定算法（例如，k‐means、DBSCAN或层次聚类）。类似参考文献中所述的数据挖掘框架[48]和[19]即可满足该目的。可选的数据挖掘算法定制(P3.d) 活动涉及确定一种特定实现方式（例如启发式方法或优化方法），以更深入地捕捉领域特征，并更好地适应前几个阶段分析的结果（例如，采用计算需求更低的启发式方法，或使用能够在早期停止或交换更少信息的数据特异性变体算法，从而减少需处理的数据量）。该阶段仅由技术专家执行，其依赖于WP1和WP2的工作成果，并生成数据挖掘报告（WP3），进而提出数据挖掘问题。

4htt p s://w ww.oasis-o p en.or g /committees/ubl/lcsc/doc/ q ateam/Comment%20work%20from%20HL7/datat yp es.html。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

30:14 C. 萨瓦利奥和G. 福尔蒂诺

(P4)物联网部署建模与仿真

This phase旨在创建一组 f 对构成物联网部署的最重要元素建立准确模型，以实现有效且逼真的仿真。具体而言，诸如架构设计（基于云或边缘）、网络建模（子网络、接入点的数量和位置）以及拓扑定义等多种任务共同完成仿真场景建模(P4.a)。而设备建模(P4.b) 和应用程序建模(P4.c) 则旨在建立最合适的模型，以反映在 P1、P3 中识别并分别在 WP1 和 WP3 中报告的设备/应用程序/算法特性（如移动性、能耗、任务生成、计算和存储需求等）。完成这些活动后，技术专家将调研持续更新的最新技术进展，旨在选择功能最符合这些模型的仿真器，以提供真实的结果。尽管理论上任何仿真器都可用于本方法论中，但仿真器选择(P4.d) 是一个关键点：因此，我们建议使用 EdgeCloudSim [45]，因为它能够对云计算和边缘计算场景进行细粒度建模，如第 2.2节所述，并且提供了模拟器定制的可能性。最后，根据 WP3 中报告的数据挖掘设置，可进行DM算法初步设置(P4.g)（例如，定义聚类数量、设置训练集、时间窗口评估）。仿真报告(WP4) 总结了该阶段的主要成果，并最终开展实际的仿真执行以及根据目标性能指标进行后续结果收集。

(P5)评估与验证

根据WP1中综合的仿真输出和物联网应用需求，仿真结果评估（P5.a）最终得以进行。为了确定最合适的项目设置（例如数据挖掘算法设置、物联网应用程序参数、物联网部署配置），商业和技术专家与技术专家共同参与关键活动——在技术与商业目标之间进行权衡管理（P5.b）：实际上，可以通过回溯到P3阶段（例如，在 P3.d中选择不同的启发式方法用于数据挖掘算法定制）或回溯到P4阶段（例如，修改物联网部署模型，并在可能的情况下，在P4.b的设备建模中考虑更强大的服务器/ 边缘服务器，或在P4.a的仿真场景建模中调整接入点的位置）来影响所获得的性能。最后这一活动可能非常复杂且敏感，因此可以不断进行更改并重新执行仿真，直到达到令人满意的配置为止。随后，进行仿真结果验证（P5.c），例如通过真实测试平台来验证仿真结果是否符合预期结果。该阶段以及整个过程的最终成果是DM项目设置（WP5），报告最合适的配置集合。

5 案例研究

在本节中，我们以环境监测的典型物联网应用为例，扩展了参考文献[40]中报告的应用。下文将分别用独立段落详细介绍图3中每个阶段的过程，相关活动以斜体标出。各阶段产生的工作产品（WPs），代表数据挖掘项目的结果，最后在表4中列出。

5.1 物联网领域分析

我们考虑一种用于室内环境的智能监控物联网应用，旨在通过利用微型无线设备感知最常见的物理属性（如温度、湿度等），使家庭或办公室等日常空间更加舒适、健康和安全。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:15

Ta表4. 在案例研究中应用所提出方法产生的工作包

领域报告 (WP1)	数据报告 (WP2)	数据挖掘报告 ( WP3)	仿报真告 (WP4)	数据挖掘项目设置 ( WP5)
P1a: 智能监控，环境室内	P2.a： 230万次读数，实时时间戳数据，温度，湿度，光照，电压值	P3.a：描述性模型	P4.a: 基于云和基于边缘的部署	P5.a: 参见图4–6
P1.b：准确性，带宽、能量效率	P2.b： 65字节的数据包每31秒	P3.b: 聚类任务	P4.b, P4.c: 根据WP1, WP2 和 WP3	P5.b：基于边缘部署，18 迭代，环消息传递模型
P1.c: 54 MICA2点传感器, AWS服务器	P2.c: 噪声和缺失数据	P3.c: 分布式 k‐means	P4.d: EdgeCloudSim	P5.c: 参见图7
P1.d: 网格部署	P2.c: 噪声和缺失数据	P3.d: 环形与泛洪消息传递模型	P4.e: 能量模型参考 [29]	P5.c: 参见图7
P1.d: 网格部署	P2.c: 噪声和缺失数据	P3.d: 环形与泛洪消息传递模型	P4.f: k = 3, n = 4	P5.c: 参见图7

等等。(P1.a)。所考虑的应用程序不存在移动性问题（固定传感器），也没有严格的响应性或隐私要求，因此我们按优先级升序依次重视准确性、带宽和能源效率(P1.b)，旨在保留居民活动（工作操作、多媒体流等）所需的可用带宽以及设备电池电量。所选设备为54个 MICA2点5无线传感器，配备气象板用于收集环境数据；它们搭载运行TinyOS的916兆赫低功耗微控制器6（一种小型、开源、节能的软件操作系统），操作系统从其128K字节的内部闪存运行，而512K字节的闪存则使我们能够存储超过100,000条测量数据(P1.c)。这些设备通过3伏纽扣电池供电，并布置在 32 × 39米的网格上，彼此间距最大为17米(P1.d)，以确保它们与基站之间的无线连接，进而连接到云（一个配备8个3.9吉赫处理器、4GB内存和32GB只读存储的AWS服务器实例）。

5.2 物联网数据分析

所选数据集7在我们的案例研究中包含230万次关于湿度、温度、光照和电压的读数，这些读数均带时间戳，并附有拓扑信息 (P2.a)。根据OASIS HL7规范，所有数据均为“真实”数据4；具体而言，温度单位为摄氏度；湿度值为经过温度校正的相对湿度，范围为0至100%；光照值单位为勒克斯，范围从（月光）1–400（明亮办公室）；电压值以伏特表示，范围在2到3之间，在节点寿命期间相当稳定。Mica2Dot传感器每隔31秒通过65字节的数据包将这些数值发送至基站，以便在本地处理或进一步转发至云 (P2.b)。这是一个典型的物联网场景，其中数据具有上下文‐

5 https://www.datasheetarchive.com/MICA2DOT-datasheet.html.
6 http://www.tinyos.net/.
7 http://db.lcs.mit.edu/labdata/labdata.html.

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

30:16 C. 萨瓦利奥和 G. 福尔蒂诺

化特征，有时存在噪声（在此情况下为被截断的数据）或缺失（例如由于无线干扰导致的数据包丢失）(P2.c)，但并无严重的质量问题。

5.3 数据挖掘设置

为了满足P1.b中规定的智能监控应用程序要求（准确性、带宽和能量利用率），需要一个描述性的数据挖掘模型(P3.a)。此外，聚类数据挖掘任务能够有效地对传感器进行分组，并使它们仅通过簇内通信进行交互(P3.b)。由于数据集由未标记的记录组成，常用的无监督k‐ 均值算法（其中k表示用户指定的簇数量）适用于此目的。特别是，参考文献[17]中设计的k‐均值算法代表了一种适当的定制方案(P3.c)，因为它相对于集中式k‐均值算法具有以下优势：(i) 相同的正确性和收敛条件；(ii) 较高的可扩展性和加速比，因为通信阶段的成本与计算阶段相比可以忽略不计；以及(iii) 在节点之间均衡分担计算负担和数据集，从而能够处理更大的数据集或实现更快的计算。被选为簇头（CH）的节点之间的信息交换通过消息传递模型进行，该模型可根据洪泛法或环形机制实现(P3.d)：前者涉及更多的消息交换，但易于实现；而后者更高效，但需要维护一个查找表，当传感器因故障或能量不足而停止工作时需更新该表。对这两种消息传递模型优缺点的精确量化评估需要通过仿真来完成。

5.4 物联网部署建模与仿真

由于在P1的物联网领域分析中没有先验地排除任何部署模型apriori（即智能监控应用没有严格的隐私或响应性约束），我们根据上述两种消息传递模型，对集中式（云挖掘）和分布式（边缘挖掘）场景下的案例研究进行了建模(P4.a)。最优簇数通过肘部方法在k= 3处确定，依据是簇的误差平方和（SSE）分析结果；而数据集的最佳分区数量，即运行 k‐means算法的节点数量，则通过实验在n= 4(P4.f)处得出。增大n的值将增加消息交换的数量，从而对能量效率和带宽效率产生负面影响。这些参数以及从P1–P3收集的其他配置信息（节点数量、硬件特性、位置和能量模型、数据包大小和间隔速率）被用于在 EdgeCloudSim上对Mica2Dot传感器(P4.b)和智能监控应用程序(P4.c)进行建模(P4.d)。具体而言，我们扩展了EdgeCloudSim，采用了文献中著名的能量模型[29]，该模型考虑了无线电和处理器活动对能耗的影响(P4.e)。最后，我们运行仿真，并针对P1.b中的物联网应用需求所对应的性能指标（准确性、功耗和带宽消耗、服务时间）收集了结果。

5.5 评估与验证

建模阶段和仿真完成后，将对基于云和基于边缘的数据挖掘项目(P5.a)获得的结果进行评估。

准确性。根据迭代次数，k‐means算法提供不同的聚类准确性值，如图 4所示（值得重申的是，该算法的串行和并行版本收敛情况完全相同）。针对我们的数据集，经实验发现k‐means在30次迭代后收敛。由于执行的迭代次数显著影响其他性能指标，因此应基于具体的物联网应用需求谨慎管理这种权衡

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:17

示意图3

示意图4 基于云和边缘的版本（采用两种消息传递模型）的k均值算法能耗及算法迭代次数；(b) 基于边缘的k均值版本的两种消息传递模型的带宽消耗及算法迭代次数)

的基础上根据具体的物联网应用需求进行权衡。例如，在本案例研究中，仅通过18次迭代即可达到 99.5%的聚类准确率，可能是一个合适的解决方案 (P5.b)。

能效与带宽效率。一般来说，物联网设备消耗的能量主要来自计算和通信操作：然而，众所周知，后者比前者需要更多的能量 [38]。因此，簇头节点的能效和带宽效率随着迭代次数的增加而降低，从而也随着交换的消息数量的增加而降低，如图 5所示。对于边缘挖掘而言，环状消息传递模型在能效方面优于洪泛式模型达50%，在带宽方面优于洪泛式模型达66%(P5.b)。这种差异显然在簇头节点数量 n更多的情况下会更加显著。而云计算挖掘模型由于通信延迟更高，导致节点需要进行更密集且耗能更高的无线通信活动，因而能源效率最低，如下文所述 (P5.b)。

响应性。尽管在此用例中它不是主要需求，但为了全面起见，本文也提供了对数据挖掘任务响应性的评估。k‐均值执行时间受到所考虑的基于云/边缘的部署、所实现的消息传递模型以及所执行的迭代次数的影响，即

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月。

30:18 C. 萨瓦利奥和 G. 福尔蒂诺

我们设定的准确性。特别是，如图 6所示，基于云的版本相比基于边缘的版本总是需要更多时间 (P5.b)：这是由于在集中式场景中通信时间（占总执行时间的88%）占主导地位，网络带宽成为系统瓶颈。相反，由于物联网设备的硬件资源有限，在基于边缘的场景中，大部分时间消耗在计算上，而通信时间，尤其是在环状消息传递模型中（占总执行时间的 32%，洪泛式模型为44%），则处于适中水平。如果所考虑的物联网应用是时间敏感的，则可以通过限制算法迭代次数，或通过为物联网设备提供更多的带宽或计算资源，来适当牺牲一些准确性，以进一步加快聚类操作 (P5.b)。

结果验证。通过在EdgeCloudSim上进行的仿真，已通过将去中心化k‐means算法在多处理器计算机上以相同算法参数运行至收敛所需的计算时间进行对比而得到验证，其中每个处理单元反映了一个物联网设备的硬件资源 (P5.c)。具体而言，该分析仅关注计算时间，因为单台计算机上的网络通信时间和处理器间通信时间不可比。图7中显示的获得的趋势具有一致性：这表明仿真结果与实际结果相符，支持了基于仿真的方法的有效性，并特别证明了EdgeCloudSim的适用性。

结果分析。获得的结果表明，对于所考虑的案例研究，边缘挖掘在节能、带宽和服务时间方面明显优于云挖掘，最高可节省一半的能量和最多三分之一的带宽及服务时间。这一结果符合预期，但通过仿真使我们能够对这些优势进行定量估计。18次迭代在准确性与效率之间似乎是一个良好的折衷，环状消息传递模型也是如此，因为节点在通信上花费了大量时间和能量。这些考虑适用于所研究的智能监控案例：显然，最佳配置

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月

一种基于边缘计算的物联网数据挖掘仿真驱动方法 30:19

为了平衡准确性、响应性、带宽和节能，必须根据具体情况并结合特定应用程序的需求来定义。

6 结论

实现物联网潜力的一个主要挑战是对大量物联网数据进行有意义的利用，以推动高度创新、可靠且高效的物联网应用程序的发展。物联网数据挖掘结合了传统数据挖掘技术与云计算和边缘计算范式的优势，旨在获取可操作知识，即提取洞察和知识，提供学习与预测能力以支持决策和自主行为，实现物理过程向信息对应部分的反馈，最终促进信息物理系统的集成。为了在物联网应用的正交且相互依赖的需求以及边缘/云挖掘特性的背景下系统化地开展物联网数据挖掘，本文提出了EdgeMiningSim——一种新颖的方法论，也是同类中的首个方法论，该方法基于对物联网领域和仿真活动的精确建模，并遵循系统工程操作模式（SE modus operandi）。EdgeMiningSim的指导原则源于对传统数据挖掘与物联网数据挖掘的对比分析，旨在平衡技术目标与商业利益，以促进知识的揭示。文中所展示的用例虽然简单但有效，展示了我们基于仿真的方法论的应用，特别是边缘挖掘相较于云挖掘的适用性。事实上，边缘挖掘的优势显而易见：通过本地操作，能量消耗和带宽需求、服务时间以及隐私风险显著降低，同时保持可调节的高准确性。因此，采用分布式边缘计算范式（而非传统的集中式解决方案）使我们能够有效且高效地在那些要求苛刻的物联网应用领域中执行物联网数据挖掘，即使这些领域涉及资源受限的物联网设备。总体而言，不存在一种始终最优的部署模型，而我们的方法有助于明确针对特定物联网数据挖掘项目更为便捷的设置方案。

未来，我们将进一步完善和深化EdgeMiningSim，特别是从整体上考虑数据库中的知识发现（KDD）过程。实际上，我们不仅关注数据挖掘，还关注数据预处理。

ACM互联网技术汇刊，第21卷第2期，文章30。出版日期：2021年3月 .

30:20 C. 萨瓦利奥 and G. 福尔蒂诺

而表示和呈现步骤是关键：前者使我们能够降低维度灾难，并以事件为单位进行推理，而非原始数据；后者则使我们能够支持不同专业背景的利益相关者的决策过程。具体而言，为了增强EdgeMiningSim，我们未来的工作将集中在以下三个方面：（i）本地物联网数据采样、压缩、集成和过滤的方法，从而使其能够在大规模异构场景中实现高效的预处理；（ii）轻量级仿生技术（例如群优化和蚁群算法），直接在物联网设备上实现，以进一步增强边缘挖掘的去中心化；（iii）一个功能完备的软件框架，以支持该方法论在所有阶段的应用。我们相信，只有通过全面的物联网数据挖掘方法，才能充分释放物联网潜力，并防止浪费物联网数据的全部价值。