I‐SAFE：边缘模糊决策的可疑行为识别-优快云博客

I‐SAFE：基于模糊决策的边缘即时可疑活动识别

1 引言

为居住在人口密集城市的居民提供安全和保障正面临日益严峻的挑战。城市规划者通过增加更多摄像头以加强无处不在的监控来应对这一安全挑战[8]。实时活动监控能力使得应急人员在紧急情况下能够更快地做出反应。例如，当安全人员看到实时画面并识别出问题时，便可迅速采取行动。然而，当事件发生时，要求安全人员同时关注众多摄像头中的某一个是非常困难、甚至不可能的。事实上，大多数监控视频流通常仅用作事后取证，用于诊断、总结经验教训以及为未来事件做准备。同样，从数千个视频片段中调查信息也需要大量时间。当视频因存储空间有限而被删除时，情况可能会更加糟糕。为了更高效地利用有限的存储空间，许多视频监控系统集成了运动传感器。摄像头只有在检测到运动传感器触发的特定运动时才会开始录制视频。

目前，智能安防摄像头利用智能技术来检测、分类和识别感兴趣对象，以确定保留哪些视频片段[26]。这些进步加快了操作员的决策速度，同时也对数据进行分类，以便后续进行取证分析。最近，机器学习（ML）模型被用于通过识别特定的生物力学动作来检测异常行为[41],，但由于训练不足，容易出现较高的误报率。

边缘计算被认为是解决当今无处不在的视频监控系统所面临挑战的一种有前景的解决方案。将计算能力迁移到边缘，使得每个边缘节点具备更强的智能性，从而实现现场或近场数据处理，进而在边缘实现实时物体检测、跟踪和特征提取。

目前，基于特征识别活动并发现可疑行为仍然具有挑战性。

示意图0

2 背景与相关工作

2.1 人机协同监控系统

监控领域意识到，解释实时视频流等数据对人力资源的需求日益增长[45]。联网的固定和移动摄像头广泛部署，产生了大量视频数据，这些数据被传输到数据中心进行分析[6]，并分解该过程[16]和[26]。许多自动化目标检测算法已通过在监控系统的服务器端实施的机器学习[38]和统计分析[13]方法进行了研究。

还通过利用上下文[5], 提供查询语言[3], 重新配置网络摄像头[37], 利用事件驱动可视化来提升操作人员的意识[12],并将传统的实时图像映射到3D摄像头图像[42]。可扩展性的缺乏仍然是传统人工参与解决方案在满足实时监控需求方面面临的一个挑战。

2.2 安全建模和异常检测

异常检测可以有多种定义。例如，一些研究者将异常定义为序列中最稀有的状态 [11],[24]。在视频场景中，算法会选择序列中最稀有的帧。例如，在生活模式/异常检测（POL/AD）中检测不符合正常行为的人或车辆[4]。

在外貌与运动深度网络（AMDN）框架中，多个分类器并行工作，以检测帧中是否存在物体[43],，例如公园中的汽车或自行车[27]。集成管道结合了物体轨迹分析和基于像素的分析结果，用于异常行为推断[10]。其目标是通过一种能够稳健捕捉诸如徘徊、打架和经过的汽车等活动的算法，实现监控系统的更高自动化。尽管 POL/AD方法较为全面，但不幸的是，其实现成本过高，难以在承载边缘单元数据流的雾节点上部署。通过对部分视频片段而非视频帧中的边界框进行标注，异常分析可分割出包含移动、盗窃或事件等动作的视频段[15],[40]。使用改进的循环神经网络（ RNN）进行视频范围标注，还能更准确地实现稀有实例检测，并输出围绕异常物体的边界框[25]。

选择徘徊检测作为案例研究，以实现和测试I‐SAFE框架。徘徊是指在中心位置附近来回移动。因此，停止、启动和返回同一位置是明显的指标。尽管徘徊与走走停停的动作看起来相似，但拥有一个能够区分其动机的模型有助于准确区分两者。

采用了一种基于行人速度的时空聚类方法进行分类[35]。该方法使用一些特征进行运动检测和报警，但整体性能较低。有研究提出了一种无监督动态稀疏编码方法，利用原子学习事件字典进行异常事件检测[50]。该方法能够显示可能包含徘徊在内的异常场景，但未涉及安全方面。最后，尝试使用马尔可夫随机场（MRF）[20]来解决徘徊问题，并普遍寻求稀发异常检测。

在静态图像和视频中进行的二维人体姿态估计已得到研究，其中提出了自上而下和自下而上两种方法。研究社区还通过匹配整体人体形状、从分割结果中聚合姿态或利用轮廓建模人体部位形状来获取人体的空间构型。最近，许多新的机器学习模型被引入，可用于检测并连接人体部位以识别人体姿态。这些方法在对帧中每个物体进行图像分析时存在巨大的计算负担；因此，在拥挤场景中，计算时间可能超过一秒。除了识别物体姿态存在较长延迟外，还需将检测到的姿态与预定义的“正常姿态”进行比较，以检测异常姿态，从而实现异常行为的识别。

准确率高度依赖于训练集的质量。如果训练集未能提供足够数量的“正常姿态”示例，系统可能会出现较高的误报率。为了减少对完整训练数据集的需求，我们寻求一种利用模糊逻辑在代表性CNN提取示例之间进行估计的模型。

2.3 模糊控制器

模糊集合和模糊逻辑共同构成了模糊控制器——这是一种处理不确定性的有吸引力且前景广阔的方法[19]。尽管模糊数学的概念及其应用并非新事物，但当方法论过于复杂而难以通过传统定量技术进行分析，或可用的信息源以定性不准确或不确定的方式被解释时，模糊数学尤为有用[48]。

模糊逻辑是模糊逻辑控制所基于的形式化算子，它模仿人类思维和自然语言处理，而非传统的布尔逻辑[22]。它是一种有效捕捉现实世界中近似性和不精确性的工具。从语义分类器的角度来看，模糊逻辑控制器（FLC）的核心部分是一组通过模糊蕴含和合成推理规则这两个概念相互关联的语言规则。FLC提供了一种自动化技术，能够将基于专家知识的语言控制策略转化为对环境和测量噪声具有鲁棒性的独立控制系统[46]。

当FLC应用于其训练所针对的领域时，相关报告表明，与传统控制方法相比，FLC能够取得更优的结果。因此，模糊逻辑控制被视为连接传统精确数学控制与类人决策之间的重要一步 [14]。

由于描述人类活动存在高不确定性和复杂性，模糊决策在公共安全监控系统中用于可疑人类行为检测具有吸引力。在[23]中给出了针对视频分析的视频分类和异常检测的综合调查。一些研究工作专注于特定的人类行为分类[47]。这两种方法都利用了数据上下文来展示人类决策和行为预测，而非异常行为。研究人员还尝试通过结合模糊逻辑和隐马尔可夫模型（HMM）[30]来提高人类行为预测的准确率。

3 I‐SAFE系统架构

在一个性能良好的安全系统中，会检测到人类并密切观察其移动和行为，以判断其意图。该过程可由人工代理或智能系统完成。所提出的I‐SAFE系统试图模拟人工代理相同的决策逻辑。

示意图1

在此架构中，I‐SAFE方案的功能可分为三个步骤：

• 视频特征提取 ：根据决策算法的设计，提取来自视频的特征。这些特征展示了帧中作为感兴趣目标的人的运动。一个轻量级卷积神经网络（CNN）为在线跟踪器提供输入，得到每个处理后的帧中目标的位置。在寻找用于决策的领域选择特征时，I‐SAFE计算帧中每个人的相对速度以及相对运动方向。

• 特征上下文化 ：显然，数据的上下文可以支持决策。执法人员的经验证实，时间和地理位置是影响警员是否展开进一步调查结果的不可否认的因素。认识到这一重要性，I‐SAFE将上下文信息融入到特征中，然后将其输入决策算法。

• 模糊决策 ：作为控制环境的一种较为稳健的方法，模糊系统若具备完整的规则集和全面的隶属函数（详情请参见第5节），便可成为强大的决策工具。输入与输出之间的模糊关系增强了系统对噪声的鲁棒性。这种效应由于物体跟踪器和特征提取的不完善而被放大，这些不完善会导致位置相关特征引入额外的噪声。

如图1所示，I‐SAFE系统利用边缘摄像头单元。该边缘设备要么是配备单板计算机（SBC）的基本监控摄像头，例如树莓派开发板，要么是具有集成计算资源的智能摄像头。边缘节点对视频帧进行处理，并提取用于决策的特征[31]。在 I‐SAFE框架下，尽管控制室的人工操作员可以访问实时画面，但由于流量较大，不建议采用此方式，且期望人工操作员从数百个实时视频流中识别出有用信息也是不现实的。只有对决策至关重要的提取特征才会被立即传输，以确保较低的网络通信负载。通过利用Web服务，在没有请求的情况下可以停止摄像头视频流。此外，由于添加数据上下文会导致特征通信中产生不必要的开销，因此不在边缘为特征添加数据上下文。

特征Stream被外包到最近的雾设备。雾节点可以是智能手机、笔记本电脑或台式机，其性能强于边缘设备，并且部署在数据源附近。这种外包的原因仅仅是边缘节点的局限性。经过视频处理后，更多的计算可能会严重影响性能，这一点已在第6节报告的实验研究中得到验证。

采用去中心化方法，I‐SAFE方案相较于传统的基于云的服务具有多项优势。在系统架构设计方面，消除了通常会随着节点数量增加而成为性能瓶颈的网络管理器。根据雾节点的容量，在系统设置时为其分配一定数量的边缘服务器。运营商可以访问来自边缘的实时流或雾服务做出的决策。

图1显示，对边缘的访问由私有blockchain access control（BAC）协议管理。访问认证在网络设置阶段进行，智能合约在区块链网络中执行。为确保整个平台具有可扩展性且易于升级，视频处理和安全管理功能均采用微服务架构实现。每个微服务都置于Docker容器内，并包含便于分发所需的所有依赖。

由于篇幅有限，本文未展示其设计原理、架构、实现细节及性能评估。感兴趣的读者可参考两篇论文以获取更多信息，其中一篇详细介绍了基于微服务的监控平台[33]，另一篇则聚焦于基于区块链的安全机制[44]。

4 特征准备

在I‐SAFE方案中，通过以下步骤分析动态数据以生成模糊引擎所需的特征：特征生成、选择、提取和上下文化，其中分类器在特征对各类别产生最大区分度时表现最佳。深度学习（DL）模型可自动定义特征，但需要标注训练数据集，而这类数据集在安全用例中通常不可用。因此，本节展示了基于领域专家（SME）选定的特征。此外，通过引入环境、社会和文化信息，上下文支持了更稳健的操作。

4.1 特征选择

查看近期关于异常检测的出版物，有许多不同的特征可能具有重要性。然而，本研究借助执法人员来更好地理解哪些特征值得关注。根据他们的反馈，在异常时间或地点徘徊表明存在较高可能性的不当行为。尽管其他线索如外貌、衣着和某些气味也可能引起警员注意，但为了尽量减少偏见或对个人进行画像，并避免提取个体的敏感个人信息，系统仅在跟踪人体大致轮廓后考虑其移动模式。未来，可将手势和重要的身体关键点添加到跟踪模块中，以更准确地描述活动。

个人的移动模式是警员决策过程中的一个重要因素。实际上，许多机器学习模型可以从动态时间序列数据中学习以建模模式并检测异常[3]。在随机场景的二维RGB图像中，由于上下移动也包含了深度信息，因此运动模式可能变得混淆。此外，研究表明运动模式是依赖上下文的[49]。例如，一个人在停车场走向自己的汽车时的行为可能与进入自己宿舍房间时的行为不同。因此，通过比较模式和方向来泛化场景会导致较高的误报率。此外，绘制移动模式耗时且资源消耗大，对于资源受限的边缘或雾设备而言，无法负担为每个人进行此类处理。因此，选择运动指标是因为它们能够适用于所有场景。

采用一种策略，利用速度和方向的变化次数来获取移动模式。变化次数越多，表明徘徊的可能性越高。此外，根据每天密切观察行人移动的执法官员的说法，心中有明确目的地的人往往会以一定的合理速度直线行走。在某个区域来回走动或改变位置却没有明显目的地的行为应触发警报。该策略的另一个优点是无需为每个人提取复杂的过往路径，而只需依赖指标即可。当帧中出现三个以上目标时，计算时间的差异更加明显。

有两个互补特征。长时间停留在一个位置可能是徘徊的迹象。然而，该特征应结合上下文使用。此外，如果存在更多

示意图2 一天中的小时。(b) 物体速度变化的次数。(c) 物体在画面中的总时间。(d) 画面中出现的人数。(e) 每个物体运动方向变化的次数。(f) 恶意行为水平。)

4.2 视频特征提取

人体检测采用卷积神经网络（CNN）。当检测到以人体作为感兴趣对象时，该物体的边界框坐标将存入队列中。在接下来的每一帧中，队列会根据跟踪器对边界框的预测结果进行更新。

每隔若干帧，当再次将卷积神经网络应用于输入帧时，不仅会将新检测到的目标添加到队列中用于跟踪，还会检查每个先前边界框中目标的位置。如果交并比（IOU）小于管理员设定的阈值，则会将该人视为一个新的目标，并删除原有的边界框及其相关信息。

在线跟踪器应对每个物体的位置进行准确估计，否则提取的特征将导致不准确的分类。卡尔曼混合跟踪器[31]保持跟踪，并支持轨迹交接以提高跟踪准确率。通过提取帧中物体的坐标，并将其与先前收集的信息进行比较，可以获得用于决策的指标和特征。在接收到每个边界框后对帧进行的后处理如算法1所示。然后，每帧的特征集被传输到雾计算单元进行上下文化处理和变化检测判定。

需要提到的是，I‐SAFE系统的准确率包含了用于检测和跟踪作为感兴趣对象的人体的算法。尽管在边缘端用于人体检测和跟踪的算法采用了深度学习架构和方法，但其性能准确率并非100%，这意味着摄像头可能会丢失感兴趣对象，从而导致在雾节点中使用的特征受到干扰。I‐SAFE框架采用了一种非统一的架构，其性能可以通过集成新的算法来提升。

4.3 特征上下文化

实现动态数据分析的第一步是考虑所有能够解释输入数据的特征，包括特征生成方法。特征生成是从先前的分析中通过显著特征选择学习得到的。在以人为中心的公共安全监控中，特征直接从视频帧（例如，强度、线条、形状）以及其他外部因素（例如，摄像头位置、光照条件和场景内容）中提取。将这些特征与相关因素结合起来的过程被称为特征上下文化。

本文聚焦于大学校园监控并尝试进行泛化。在校园建筑的正常工作时间内，场景中可能会检测到许多学生、教职员工及其他人员。白天出现大量人员是正常的，但在晚上11:30之后出现大量人员则属于异常情况。在异常检测的情况下，时间这一上下文特征有助于决策。根据警员的说法，一天中的时间决定了他们在监控时对人群聚集的关注程度。应选择哪些上下文特征，以及这些特征在监控案例中如何被普遍利用？

算法1 针对每帧中检测到的每个行人的视频特征提取过程
人所执行的视频特征提取过程。
1: 过程指标(obj_ls, buffer)
2: 对于 obj 在 obj_ls 中执行
3: new_coord ← obj.coord(0)
4: pre_coord ← obj.coord(buffer)
▷ 缓冲区显示历史中的帧以进行比较当前帧位置到
5: pre_Dir ← obj.dir(buffer)
6: pre_V ← obj.V(buffer)
7: mvx ← new_coord_x − pre_coord_x
8: mvy ← new_coord_y − pre_coord_y
▷ 根据mvx、mvy计算obj.dir
9: 如果 obj.dir != pre_Dir 则
10: obj.dir_chnд + 1
11: obj.V ← √(mv²x + mv²y)
12: 如果 obj.V != preV 则
13: obj.sp_chnд + 1
14: 返回 obj_ls
15: 过程 ExtraFeatures(obj_ls)
16: num_ppl = 0
17: for obj in obj_ls do
18: num_ppl ← num_ppl + 1
19: obj.detection_t ← obj.时间() − 时间.now()
▷ obj.time() 在检测时设置
20: 返回 (obj_ls, num_ppl)
21: 过程 FeatureSent(obj_ls, 缓冲区)
22: obj_ls ← 指标(obj_ls, buffer)
23: obj_ls, nppl ← ExtraFeatures(obj_ls)
24: Stream(obj_ls, nppl) 将当前帧发送到雾节点

根据我们校园警察的建议确定。负责从视频中进行数据提取并为每帧生成特征列表的边缘设备，由于资源限制，无法处理特征的上下文化。视频处理任务占用了大部分计算能力[34]，其余资源则分配给传输和安全模块。此外，上下文信息（如时空信息和地理位置）通常是重复数据，若随每一帧发送会造成较大开销。因此，视频特征由边缘摄像头提取后发送至雾节点进行上下文化。在上下文化阶段，有三个特征被添加到摄像头数据中。

第一个是一天中的时间。这一特征的重要性可能因位置而异，但在安全系统中，它被认为是做出决策的最重要因素之一。第二个因素是摄像头的地理位置。安装在室内的摄像头与室外摄像头在决策时应采用不同的阈值。正如可访问性和空间使用场景各不相同，正常行为也会发生变化。此外，安装在银行外部的摄像头在非工作时间对人员出现的检测应具有更低的容忍度，并在此类情况下立即发出警报。因此，安全级别

5 模糊模型

5.1 原理

安全监控系统的决策过程基于模糊控制系统模型。尽管在许多挑战中由于缺乏专家而导致模糊逻辑控制器系统失去动力，但模糊方法仍然是处理高噪声水平系统的最佳方法之一。在监控中，执法官员可以充当专家，并将其意见用于系统运行。警员需要数月甚至数年的时间才能对其职责区域内形成一种内在的行为分析感知。

能够以适当准确率进行分类的深度神经网络训练需要大量包含负样本和正样本的训练集，而负样本数据容易获取，正样本则较难收集。即使经过标注，如果数据集未涵盖所有场景，结果将无法覆盖整个输入空间，从而导致未检测到的事件。

对于校园安全系统而言，有许多校园警察长期在相关领域工作，他们清楚人群中可能出现的情况。这些警员的经验被用于创建一系列规则，并将其应用于模糊模型中以检测异常。另一方面，采用无监督学习方法的通用分类器无法提供高准确率，且在深层模型中容易受到噪声失真、平凡解以及特征坍缩的影响[7]。

利用上下文化特征，引入模糊控制系统来模拟警员的决策过程，并生成便于人工操作员理解的语义输出。与数学概率分析不同，基于模糊的模型不依赖于数值，而是依赖于语义类。模糊逻辑控制器（FLC）将输入的传感器测量值映射到语言标签，这些语言标签是对输入的描述。模糊系统有助于将操作员知识融入决策模型中。

在异常行为检测中，警员通过在其脑海中进行类似语言的推理，判断某一行为是正常或异常，而不是对观察结果给出数值描述。为了模拟这种认知行为，模糊模型输出的是一个语言型分类标签。该输出可根据去模糊化公式转换为数字计算机可处理的数值。结果将连同所需的关注程度（即基于置信度、可信度或可靠性估计）一并报告给警察部门，以评估特定场景。

5.2 模糊模型

每个感兴趣对象的特征集被发送到雾节点的模糊逻辑控制器，控制器对其进行上下文化处理并输入到FLC。

实现模糊模型的第一步是模糊化，即将特征转换为模糊值。对于任意集合X，隶属函数表示其模糊子集。对于元素x，模糊子集A对应的值由μA(x)表示，如公式(1)所示：
A ≜ {x, µA(x); x ∈ X} (1)

为了对测量值（此处为上下文化特征）进行模糊化，将每个测量值与其对应的子集μAi(x)进行比较，如公式(2)所示，从而生成在规则中使用的语言变量。语言变量与普通变量不同，每个语言变量表示一系列含义，例如冷、中、热。
wxi ≜ max x[min(A′(x), µAi(x))] (2)
其中每个测量值被视为由A′(x)表示的一个范围。如果x仅为一个测量数值，则A′(x)也变为单一数值。注意，下标i代表每个模糊化器（隶属函数）。

如果在模糊系统中考虑两个集合X和Y，则针对每个读数在每组中的每个模糊化器，计算语言变量wxi和wy i。这些语言变量用于规则集中以计算每条规则的结果(C′i(z))。结果前提Wi与输出的每个模糊隶属函数Ci(z)之间的最小值得到公式 (3)：
Wi ≜ min[wx i, wy i] (AND Operand)
Wi ≜ max[wx i, wy i] (OR Operand)
C′ i(z) = min[Wi, Ci(z)] (3)

5.3 隶属函数

根据公式(2)，语言变量被映射到一个区间[0, 1]，这可以解释为可信度分析。如果某个子集的可信度小于0.5，则该语言变量不够可靠。因此，应设计子集（隶属函数）以覆盖整个集合，使得在任何点x上，将特征对齐到某一集合的可信度均不低于0.5。反过来，这能确保系统的输出结果具有更高的可信度，因为输入得到了更可靠的模糊化处理。此外，选择最合适的隶属函数来覆盖整个集合也非常重要。若选择了不恰当的隶属函数，可能导致该集合的可信度迅速降低，或无法覆盖集合中期望的区域。

示意图3 一天中的小时。(b) 物体速度变化的次数。(c) 物体在画面中的总时间。(d) 画面中出现的人数。(e) 每个物体运动方向变化的次数。(f) 恶意行为水平。)

在图2中，x轴表示变量x的值，y轴表示该变量x所属的隶属函数的可信度。例如，在部分(d)中，帧中有五个人意味着“中等活动”的置信度约为1.0，而“高活动”的置信度为0.27。然后，公式(2)确定帧中有五个人属于“中等活动”，并将其作为语言变量集合“NumPpl”的取值。

每个特征区间考虑三个隶属函数，同时使用五个隶属函数来高精度地描述所有可能的可疑行为水平。如图2所示，以下上下文化特征被输入到模糊系统中，从而对输入进行模糊化，并基于规则生成输出：

• (a) 一天中的时间，即从[0:00到24:00]的小时；
• (b) 物体在帧中改变速度的次数 [0 30]。如果一个人在帧中长时间行走并多次改变方向，表现出没有明确目的地，则很可能是在徘徊；
• (c) 物体在帧中停留的时间，通常情况下，如果人以正常速度行走，会在几秒内走出帧 [0 30]秒；
• (d) 当前处理帧中的人数[0 40]；
• (e) 帧中物体改变方向的次数[0 30]

每个集合的边界设计用于处理几乎所有可能的情况，但在出现异常值时，模糊系统能够很好地处理噪声和超出范围的数值。关键在于模糊化过程。在计算阶段，如果数值为异常值（超出集合范围），模糊化仍会将语言变量映射到最接近集合边界的位置。如果模糊系统无法将测量值与集合值对齐，操作人员将收到确认信息，提示输入有误，并提醒操作人员通过视频观察现场情况。该情况会被记录在错误日志中，同时输出被设为零，且不发出警报。

值得注意的是，在图2的模型中，对于任何给定输入，每个集合至少被一个隶属函数覆盖，并且在x轴上不存在任何一个点使得至少有一个隶属函数超过标称值的0.5。隶属函数(f)更加密集，导致在任何给定点的置信度高于0.6。

具有在较长时间范围内显著值的隶属函数意味着相应的语言变量具有更高的权重和更强的影响力。选择所有隶属函数形状时都考虑到了这一点。因此，在恶意行为的隶属函数中，只有一个点具有最高置信度，以避免对某种行为产生偏见。

在一个完全定义的模糊控制系统中，规则集应考虑模糊语言变量的所有可能组合。然而，规则数量与处理时间之间存在指数关系。因此，I‐SAFE的规则集设计旨在覆盖所有感兴趣的场景，同时结合使用各种特征。

5.4 生成输出

示意图4

图3展示了如何在规则中组合特征以得出结论。Com列显示了语言条件（特征）之间的组合。仅使用逻辑交集（AND）和并集（OR），括号表示条件之间应优先执行的逻辑运算。由于速度变化和方向变化变量容易受到较高的测量噪声影响，I‐SAFE系统在这些变量之间采用或操作符，以减少它们的影响，具体取决于使用这些变量的规则数量。

基于每个上下文化特征对应的五个语言变量及其各自的模糊集，系统可给出可疑活动的模糊概率。经过去模糊化后，可结合摄像头的地理位置和建筑安全等级进行考虑。

给出一个适当的阈值以触发警报，使得摄像头位置和建筑物安全被视为两个最终特征。

专家的经验或知识强制执行规则以控制环境。这些规则可能因不同条件而异。专家需概括出在决策过程中至关重要的规则和特征。请注意，图2中用于输入和输出生成的每个隶属函数边界均基于安装在校园建筑走廊中的摄像头。如果受监控区域需要更严密的监管，管理员可根据情况调整模糊化器，以容忍更少的活动和/或在特定时间更早地发出警报。所有更改均在设置时完成，之后无需进一步调整。

I‐SAFE系统中使用的规则集模拟了警员在接近可疑物体前进行的判断过程。如模糊集中所示，视频帧中的人数是一个重要特征。夜间人少的场景最受关注。根据执法经验，视频中仅出现一人的画面最为关键。因此，包含一到两个人的视频片段被视为高度关注对象。随着人数增加，根据双符号隶属函数，关注度逐渐降低。另一个关键因素是物体在特定位置停留的时间。随着时间延长，该物体属于徘徊行为的概率也随之增加，这与其隶属函数相关。

5.5 可疑评分

最后一步是将规则的结果去模糊化，并将其转换为0到100%之间的数值。一个阈值决定输出是否应触发警报，以使操作员注意到某项活动。然后操作员将据此做出决策以采取进一步行动。

可通过公式（4）对C′i(z)进行去模糊化：
F⁻¹(c) = ∫(Wiµc(x)) / ∫ µc(x) (4)
其中μc是输出的隶属函数。

I‐SAFE系统能够关注被判定为异常或可疑活动的场景，但最终采取行动的决策由人工操作员做出。该模糊模型在雾计算层设备上实现，如果操作员需要，可通过单个云节点轻松访问并重新配置连接到雾节点的一批边缘单元的参数。

6 实验结果

I‐SAFE方案的概念验证原型已使用真实世界监控视频流进行了实现和测试。实验结果令人鼓舞，表明设计目标已经实现，能够提供一个安全、敏捷且快速的监控系统用于安全监控。在特征预处理完成后，I‐SAFE系统平均在0.002秒内成功检测到活动。

6.1 系统设置

该原型包含边缘层和雾计算层功能单元。在边缘层，使用轻量L‐CNN和克尔曼算法实现人体检测与跟踪。特征通过前述的指标及其他方法生成。边缘层功能由搭载1.8 GHz基于ARM的RK3288 SoC和2 GB LPDDR3双通道的Tinker板承载。

Tinker板位于摄像头后方，在此意义上，摄像头可被视为传感器，而边缘设备则是通过局域网(LAN)连接该传感器的Tinker板。所生成的特征通过无线局域网(WLAN)以100Mbit/s速率发送至作为雾节点运行Ubuntu 16.04操作系统的笔记本电脑，I‐SAFE方案的上下文化及模糊决策功能均位于该笔记本电脑上。该笔记本电脑配备7代Intel酷睿i7处理器 @3.1GHz和32GB内存。

6.2 阈值设置

可疑行为可以有不同的解释；但其目标是为操作员提供一种针对人类异常行为的机器级分选。例如，异常行为可能指在一个多人的地方有骑自行车者，而其他所有人都是步行[43]。在另一种情况下，某个人体的特定姿势可能是异常行为的迹象[36]。挑战在于确定一种活动本体论，以提醒操作员潜在的异常行为。

本文考虑的是校园环境，在这种环境中，学生不太可能在晚些时间在停车场或走廊无故逗留。该系统设计为在触发警报前必须满足某些阈值。

需要注意的是，特征映射与决策算法的分离使得该项目更适合边缘计算范式，在该范式中将处理过程外包到层次结构中的更高层级是不可避免的。

示意图5

图4是一个场景，其中两个人以正常速度行走，当他们到达走廊尽头时将离开画面。该算法跟踪这两个目标，并输出对应的异常分数，该分数反映了每个人可疑行为的测量可能性。

示意图6

图5比较了这些情况下的恶意评分。x轴是帧中物体的时间（秒），y轴是去模糊化后的可疑评分。红线表示上午11:00单人行走案例的评分，其中该物体通过

0 50 100 150 200 250 300
时间（秒）
30
40
50
60
70
80
90
Suspicious activity score
可疑行为正常行走

该人在约100秒内穿过走廊，评分处于合理范围内，显示无可疑行为。相比之下，蓝线表示的是凌晨3:00单独一人行走并在该区域长时间停留的评分。随着时间推移，可疑评分逐渐上升，因为在时间零点时蓝线的初始值高于红线，这是因为该方案认为凌晨3:00行走更具可疑性。随着运动时间增加，正常活动的评分上升较慢，因为除时间外其他参数并未表现出可疑行为；然而蓝线的评分上升幅度更高。

图5并未指明触发警报的阈值。系统管理员可根据建筑使用经验方便地设置该阈值。换句话说，设定合理的阈值需要对本建筑中行为模式对应的活动分数分布进行统计分析。

6.3 性能评估

图6显示了从边缘到雾节点的数据传输所导致的延迟。比较了三种场景：无加密、AES（高级加密标准）加密和AES+RSA（Rivest‐Shamir‐Adleman）加密。AES+RSA基于RSA进行握手和连接建立，其余数据传输则基于AES，这在资源受限设备上具有更低的延迟优势。可以看出，该延迟对系统的实时性能没有显著影响，因为边缘设备处理输入帧的速度为每秒五到八帧。此外，随着检测到的人体目标数量增加，每帧传输的特征文件变大，通信所需时间也随之增加。由于传输的数据量增大，在不稳定网络连接下，传输时间会出现波动。图6中包含了两种场景：一种是每帧包含0到2个目标，另一种是每帧包含6到10个目标，以比较文件增大时的延迟情况。

图7比较了在边缘和雾计算层处理模糊模型的差异。图7中所示的总时间包括数据上下文化和模糊控制系统结果所需的时间。如图6所示，通信时间远短于决策过程所需的时间，因此在图7中忽略了通信时间。注意边缘设备在实现约1.5帧率（FPS）时面临的困难。同样的操作在雾节点上仅需约0.002秒。

图7证明了将模糊决策功能外包给雾节点的合理性，同时也表明边缘设备负载较重。在人体活动检测中，平均在0.002秒内完成一帧的处理并生成决策，满足实时要求。考虑到行人速度，在当前应用于边缘的视频处理速率（每0.1秒一帧）下，行人无法移动太远，从而为安全响应提供了充足的时间。

未来，随着更强大的边缘设备的引入，整个过程可能在边缘执行。图7是基于帧中两个人的场景生成的。直观上，如果图像帧中的人数更多，则视频处理和决策都将预期出现更长的延迟。

图8展示了一些检测和跟踪算法失效的情况。如前所述，这会导致决策的准确率降低。图8包含了三个实例。该图的（a）部分显示了初始时刻感兴趣对象（穿白色衣服的人），此人靠近摄像头并从另一个人旁边经过。当穿红色衣服的人变得更近时，跟踪算法停止跟踪穿白色衣服的人，转而跟随穿红色衣服的人。然而，检测算法重新检测到了穿白色衣服的人，并删除了另一个边界框。不幸的是，针对穿白色衬衫的人所收集的可疑评分数据

丢失了。图8(b)显示了一个场景，穿红色衣服的人远离摄像头，系统未能检测到他们。图8(c)是检测算法仅检测到一个人而不是帧中实际存在的两个人的情况。尽管存在这些问题，但在多次试验中发生频率非常低。最后，图8(d)展示了一个极具挑战性的情况，当一个物体遮挡了另一个物体时，无法同时检测到两个人。这些问题可以通过智能设计加以缓解，例如增加摄像头数量和增强跟踪器，其整体操作具有可扩展性。

我们还在两个公开可用的视频数据集上运行了I‐SAFE，分别是亚当[1]地铁入口以及来自商场安防摄像头的超过3小时的视频。在这些数据集中一个非常明显的问题是，原始视频的×5帧数与所提供的相比要多得多。这种降采样的主要原因在于人类动作相对于当今高速摄像头而言较慢。

图9展示了一些I‐SAFE检测到人并为其分配分数的实例。在图9中，围绕人的边界框及其对应目标上的徘徊分数被标出。注意，远离摄像头的目标未被检测到，这是由于像素密度不足导致无法检测，或在某些拥挤情况下检测分辨率较低所致。值得强调的是，在图9中，蓝色框是跟踪器的输出，而绿色框则表示检测算法，该算法以每5帧检查1帧的频率来检测新目标。

从图9的这些样本图片中可以看出，对于更传统的检测方法，摄像头需要针对具有异常行为的人（此处为一个拿着带有不同颜色纸板片并正在打电话行走的男子）进行训练。需要注意的是，所提出的I‐SAFE在部署时无需训练，因为摄像头位置支持操作员重新计算阈值参数。

检测模型	地铁入口 TP	FP	商场1 TP	FP	商场2 TP	FP
真实值	14	0	4	0	4	0
亚当等 [1]	13	4	4	1	4	3
赵等 [50]	14	5	NA	NA	NA	NA
科斯卡尔等 [10]	14	4	NA	NA	NA	NA
金等 [20]	13	6	NA	NA	NA	NA
I‐SAFE	13	4	3	2	4	1

表1：不同视频样本中的徘徊得分（TP：真阳性，FP：假阳性，NA：不适用）。FN = GT ‐ TP

最后，表1将I‐SAFE在异常徘徊检测方面的结果与各论文中报告的真实情况和其他模型进行了比较，结果显示具有可比性。尽管其他算法检测到的徘徊案例数量较少，I‐SAFE在去中心化边缘计算范式环境中实现了这些结果，同时最小化了延迟和网络开销。通过观察数据集中视频的得分，我们得出结论：使用单线程平均68.3%的中央处理器和96 MB内存的情况下，60%的阈值最适合显示异常行为。当然，随着阈值的提高，系统的误报会减少。

尽管这些示例用于模型性能分析，但它们包含的正例数量非常有限，不足以支持其他机器学习解决方案。

仔细观察表1和图9可知，人体活动识别在很大程度上取决于其检测和跟踪每个个体的准确性。在商场视频片段中，由于帧复杂度以及物体部分或完全遮挡，跟踪可能会中断，数据可能丢失。将特征提取与决策分离的优势在于，我们可以在未来使用更精确的视频处理技术时，仍采用相同的模糊模型。

7 结论

用于公共安全的智能监控系统应能够实时检测可疑人员或行为。基于此前报道的轻量级人体物体检测与跟踪算法，本文通过提出I‐SAFE，推进了主动监控系统设计。I‐SAFE是一种在边缘范式下利用CNN特征提取和模糊决策实现即时可疑行为识别的方法。从输入视频流中提取特征的算法在边缘设备上实现，有效降低了通信开销，并支持外包将决策过程下放到雾计算层。雾设备对特征进行上下文化处理，利用模糊逻辑控制系统融合七个特征并提供决策。所采用的规则和特征是在校园警察的指导下选定的。I‐SAFE方案的概念验证原型已实现，并使用真实世界监控视频流进行了测试。

我们正在进行的努力包括两个方向：（1）为跟踪和分类算法添加特征，以检测手势，实现更准确的决策；（2）增强轻量级检测与跟踪算法，以应对图8所示的复杂情况。