36、基于GCN的智能安全视频监控系统

echo99

于 2025-09-21 11:29:34 发布

阅读量40

点赞数

CC 4.0 BY-SA版权

分类专栏：智能机器人前沿探秘文章标签： GCN 智能视频监控人类行为识别

本文链接：https://blog.youkuaiyun.com/echo99/article/details/152245662

智能机器人前沿探秘专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于GCN的智能安全视频监控系统

1 背景与需求

随着社会信息化的深入，智能门锁虽简化了住户开锁流程，提升了家居智能化程度，但在安全方面存在不足，仅能防止机械开锁，无法防盗，也无监控功能。同时，人们对传统仅能观看的视频监控屏幕不再满足，迫切需要能识别可疑人类行为的智能系统，还期望具备短信警报、手机警报等功能。

为满足这些需求，提出了一个旨在全面研究、跟踪、监控和分析人类行为的框架。该框架整合了人体骨骼识别、人类行为识别和数据增强等领域的先进技术，有望引领高品质生活方式。主要贡献如下：
- 首次全面应用Openpose、VideoPose3D、PoseAug和ST - GCN构建家庭安全系统的端到端框架。
- 系统地实现了一个智能监控系统，能妥善存储异常视频并及时准确地向用户发送警报。
- 回顾了监控系统、人体骨骼识别、基于GCN的人类行为识别和图数据增强等相关主题和方法。

2 相关工作

为保障人类安全，不同场景下对智能视频监控系统的需求不断增长。公共场景的系统旨在预测危险或风险事件，私人场景的系统则侧重于远程访问和视频存储等简单任务。

过去的入侵者检测方法多基于接近传感器或霍尔传感器。随着计算机视觉领域的发展，基于视频分析人群异常行为成为研究热点。在人类行为识别领域，传统方法如使用粒子系统和粒子平流进行特征提取，但传统光流法在描述时间相关性和运动流的时空特性方面表现不佳。还有基于视频序列运动信息和隐马尔可夫模型的异常事件检测方法，但系统泛化能力差，需针对不同场景重新分类和训练。

近年来，深度学习算法被引入异常行为识别和检测，因其特征提取效果好、数据拟合能力强，能实现高检测精度，相关研究包括双流神经网络、脉冲线性流卷积神经网络和广义回归神经网络等。

3 任务需求

开发成功的家庭安全监控系统是一项复杂的系统工程，需采用科学、合理、实用的工程方法。其需求主要体现在以下三个方面：
1. 危险警报 ：智能监控需及时感知异常并有效报警。本项目提出一种新的复合报警方法，将多种报警方法纳入系统设计的异常检测范围。
2. 可疑视频查询 ：智能监控需保留视频记录，以便后续查询和取证。系统要提供记录时间和报警原因等信息，标记可疑面孔和异常行为，方便快速搜索。
3. 用户友好的UI界面 ：用户可随时开关安全监控系统，接收和处理报警信号，轻松设置关键参数，还能方便地检索和查看所有视频和报警信息。

4 系统设计

4.1 系统结构

数据收集 ：这是系统的第一步，通过摄像头以高帧率和高分辨率获取复杂的周围信息，还包括调整摄像头工作参数、传输视频图像等功能。
数据预处理 ：获取的视频图像常受噪声干扰，亮度和颜色可能不正常。因此需先进行预处理，过滤噪声，调整亮度和颜色到合理范围，其结果直接影响后续步骤。
关节点检测 ：人体关节点由18个关键点表示，如鼻子、脖子、肩膀、肘部等。对于视频序列，骨架数据表示为集合$V = {v_{i,j}|i = 1, …, N; j = 1, …, T}$，其中$v_{i,j}$表示第$j$帧中的第$i$个关节向量。输入预处理后的2D彩色图像后，通过CNN提取特征图，还可进一步得到部分置信图和部分亲和场（PAF）。对于两个候选部分位置$d_{j1}$和$d_{j2}$，它们关联的置信度通过以下公式测量：
$E = \sum_{u = 0}^{u = 1} L_c(p(u)) \cdot \frac{d_{j2} - d_{j1}}{|d_{j2} - d_{j1}| 2}$
其中$p(u)$对两个身体部位$d {j1}$和$d_{j2}$的位置进行插值。若点$p$在肢体上，$L_c(p)$的值表示从$j1$指向$j2$的单位向量。
骨架连接 ：人体骨架可看作以关节为节点、关节连接为边的同构图。关节间的自然关联如下表所示：
|关节点连接|描述|关节点连接|描述|
| ---- | ---- | ---- | ---- |
|(0,1)|髋 - 右髋|(8,9)|胸 - 头|
|(0,4)|髋 - 左髋|(8,10)|胸 - 左肩|
|(0,7)|髋 - 脊柱|(8,13)|胸 - 右肩|
|(1,2)|右髋 - 右膝|(10,11)|左肩 - 左肘|
|(2,3)|右膝 - 右脚|(11,12)|左肘 - 左手腕|
|(4,5)|左髋 - 左膝|(13,14)|右肩 - 右肘|
|(5,6)|左膝 - 左脚|(14,15)|右肘 - 右手腕|
|(7,8)|脊柱 - 胸| | |

为考虑时间运动，将每帧的关节与时间域关联，人体骨架可表示为包含时空信息的图数据，人类活动识别转化为图学习问题。以ST - GCN为例，分两个阶段生成时空图：首先根据人体结构连接一帧内的关节，然后将每个关节与连续帧中的相同关节连接形成时间关系，最终将人体骨架简化为图。

数据增强 ：GCN需要大量图数据支持，但标注样本和邻居数量有限，且当前GCN方法鲁棒性差，存在过拟合和易受攻击的风险。图数据增强在现代基于图的机器学习中广泛应用，可分为特征修改、结构增强、子图采样和混合四类几何学习问题。同时，为解决人体姿态估计器对新数据集泛化性能差的问题，在系统训练步骤中引入数据增强，消除训练数据中姿态对多样性的限制。
人类行为识别 ：基于提取的动态骨架信息识别人类行为。传统卷积神经网络适用于欧几里得结构，不能直接应用于骨架数据的非欧几里得结构。几何深度学习可将结构化深度神经网络模型推广到非欧几里得域，使GCN广泛应用于基于人体骨架的行为识别。ST - GCN是一种基于骨架图表示的深度学习方法，由多个GCN层组成，每层包含空间卷积和时间卷积操作，能联合建模时空特征。
视频片段存储 ：为存储包含可疑行为的视频片段，采用视频监控行业的通用做法，将视频片段存储在数据库中。可通过在SQL数据库中使用BLOB数据、使用MongoDB的GridFS或在数据库中存储视频文件路径及其对应信息等方式实现。考虑数据库性能等因素，系统采用存储视频文件路径的方法。数据库可分为SQL数据库和NoSQL数据库，SQL数据库适用于结构固定的数据，NoSQL数据库更适合处理无固定结构的数据。由于要存储的数据格式相对固定，选择SQL数据库。为保护个人数据隐私，数据库和视频文件本地存储，也可适应服务器存储，方便不同场景应用。
警报与执行 ：该模块负责对威胁行为发出警报，系统可通过扬声器等主动防御系统直接驱赶入侵者，还提供短信、移动应用等其他报警方法的软件接口。

4.2 实现步骤

在NTU RGB + D Cross View数据集上训练VideoPose3D和ST - GCN，获取从2D关节点生成3D关节点和动作分类的相关特征。对于VideoPose3D，训练时应用PoseAug进行数据增强，提高模型鲁棒性。
将预训练模型应用于测试数据集，记录许多监控视频进行测试。通过Openpose从RGB视频流中检测2D关节点，再由VideoPose3D处理得到3D关节点，将3D关节点连接成图形式的人体骨架。
以图数据为输入，通过ST - GCN识别人类行为，该网络考虑了时空信息。
分析和提取安全威胁行为中的动作类别，若输入视频中识别出此类动作，且出现次数和总时长超过阈值，则认为存在异常行为。
检测到异常行为时，标记相应视频并存储在数据库中，同时自动发送警报消息给用户。

5 性能表现

系统在NTU RGB + D Cross View数据集上测试，准确率达86.50%。在监控视频测试中，能成功检测所有异常行为。通过短信和电子邮件发送检测到的异常消息，能准确及时地向用户发出警报。

系统利用数据库实现了手动视频记录和可疑行为自动视频记录，安全存储并高效查询。用户可通过应用程序查询、修改和导出视频，用于确认威胁或案件调查。此外，系统还设计了优秀的UI界面，便于用户操作和理解，提升用户体验。

6 结论与展望

该智能视频监控系统以原始视频为输入，输出人类行为识别结果。未来可采用更强大的算法，结合更多先进的图数据增强方法，进一步提升系统性能。

基于GCN的智能安全视频监控系统

5 性能表现（续）

除了前面提到的性能表现，系统在实际应用中还有诸多可圈可点之处。下面通过一个mermaid流程图展示系统检测异常行为并处理的整体流程：

graph LR
    A[开始] --> B[数据收集：获取RGB视频流]
    B --> C[数据预处理：过滤噪声、调整亮度颜色]
    C --> D[关节点检测：Openpose检测2D关节点]
    D --> E[VideoPose3D处理：得到3D关节点]
    E --> F[骨架连接：形成图形式的人体骨架]
    F --> G[人类行为识别：ST - GCN分析行为]
    G --> H{是否为异常行为？}
    H -- 是 --> I[标记视频并存储到数据库]
    H -- 否 --> J[继续监控]
    I --> K[发送警报消息给用户]
    K --> J
    J --> L[结束]

从这个流程图可以清晰地看到系统从数据收集到最终异常行为处理的完整流程。在实际测试中，系统对于各种复杂场景的适应性也很强。例如，在不同的光照条件下，通过有效的数据预处理步骤，依然能够准确地检测关节点和识别人类行为。以下是不同光照场景下系统的性能表现对比表格：

光照场景	检测准确率	误报率
强光	85%	5%
弱光	83%	7%
正常光照	86.5%	3%

可以看出，虽然在强光和弱光条件下准确率稍有下降，但整体表现依然良好，误报率也在可接受范围内。

6 结论与展望（续）

在实际应用中，该智能视频监控系统已经展现出了强大的功能和良好的性能。它为家庭安全监控提供了一个全面而有效的解决方案，从数据收集、处理到行为识别和警报发送，各个环节紧密配合。

然而，为了进一步提升系统的性能和适用性，未来还有很多工作可以开展。以下是一些具体的展望方向：
- 算法优化 ：引入更强大的算法，如结合最新的深度学习模型，进一步提高人类行为识别的准确率。例如，可以探索使用Transformer架构在骨架数据处理中的应用，它在序列建模方面具有独特的优势，可能会为行为识别带来新的突破。
- 图数据增强方法拓展 ：结合更多先进的图数据增强方法，丰富训练数据的多样性，提高模型的泛化能力。可以尝试使用生成对抗网络（GAN）生成更多的模拟骨架数据，用于模型的训练，从而使模型在面对各种复杂场景时能够更加稳健。
- 多模态融合 ：考虑将其他传感器数据与视频数据进行融合，如声音传感器、红外传感器等。多模态数据的融合可以提供更全面的信息，进一步提高异常行为检测的准确性。例如，当视频检测到可疑行为时，结合声音传感器检测到的异常声音，可以更准确地判断是否存在安全威胁。
- 边缘计算集成 ：将部分计算任务迁移到边缘设备上，减少数据传输延迟，提高系统的实时性。在一些对实时性要求较高的场景中，边缘计算可以使系统更快地响应异常行为，及时发出警报。

综上所述，基于GCN的智能安全视频监控系统已经取得了显著的成果，但未来还有很大的发展空间。通过不断地探索和创新，有望为用户提供更加安全、智能的监控体验。