概述
以色列和日本的一项新的合作研究认为,行人检测系统存在固有弱点,这使得消息灵通的人能够通过精心规划路线,穿过监控网络效果最差的区域,从而避开人脸识别系统。
借助来自东京、纽约和旧金山的公开视频片段,研究人员开发出了一种自动计算此类路线的方法,该方法基于公共网络中可能使用的最流行的物体识别系统。
研究中使用的三个十字路口:日本东京的涩谷十字路口、纽约的百老汇和旧金山的卡斯特罗区。 来源:https://arxiv.org/pdf/2501.15653
通过这种方法,可以生成置信度热力图,该图可划定摄像头画面中行人最不可能被成功进行人脸识别的区域:
在右侧,我们可以看到研究人员的方法生成的置信度热力图。红色区域表示置信度较低,行人的姿势、摄像头角度以及其他因素的组合可能会阻碍人脸识别。
理论上,这种方法可以被应用到一个具有位置感知功能的应用程序中,或者其他类型的平台上,以传播在任何计算出的地点中从A点到B点的“最不易被识别”的路线。
这篇新论文提出了这样一种方法,名为基于位置的隐私增强技术(L - PET);它还提出了一种名为基于位置的自适应阈值(L - BAT)的应对措施,该措施本质上运行的是完全相同的程序,但随后会利用这些信息来加强和改进监控措施,而不是设法避免被识别;在许多情况下,如果不进一步投资监控基础设施,就无法实现这些改进。
因此,这篇论文引发了一场潜在的技术升级战,一方是试图优化路线以避免被检测到的人,另一方则是监控系统充分利用人脸识别技术的能力。
此前的躲避检测方法不如这种方法巧妙,主要集中在对抗性方法上,例如TnT攻击,以及使用印刷图案来混淆检测算法。
2019年的研究“欺骗自动监控摄像头:用于攻击人员检测的对抗性图案”展示了一种对抗性印刷图案,该图案能够让识别系统误以为没有检测到任何人,从而实现某种程度的“隐身”。 来源:https://arxiv.org/pdf/1904.08653
这篇新论文的研究人员指出,他们的方法所需的准备工作较少,无需设计对抗性的可穿戴物品(见上图)。
这篇论文的标题是《一种无需使用对抗性配件即可躲避街道视频摄像头检测的隐私增强技术》,由内盖夫本 - 古里安大学和富士通有限公司的五名研究人员共同撰写。
方法与测试
与之前的研究如对抗性面具、AdvHat、对抗性图案以及其他各种类似研究一致,研究人员假设行人“攻击者”知道监控网络中使用的是哪种物体检测系统。由于像思科和超参数公司(目前是YOLO开发的核心推动力量)等公司的监控系统广泛采用了最先进的开源系统,如YOLO,所以这个假设并非不合理。
这篇论文还假设行人可以访问互联网上针对待计算地点的实时视频流,同样,在大多数可能有密集监控覆盖的地方,这是一个合理的假设。
像511ny.org这样的网站提供了对纽约市地区许多监控摄像头的访问权限。 来源:https://511ny.or
除此之外,行人需要能够使用所提出的方法,并且能够进入实际场景(即要确定“安全”路线的十字路口和路线)。
为了开发L - PET,作者评估了行人角度相对于摄像头的影响、摄像头高度的影响、距离的影响以及一天中不同时间的影响。为了获得真实数据,他们以0°、45°、90°、135°、180°、225°、270°和315°的角度拍摄了一个人。
研究人员进行的真实数据观察。
他们在三种不同的摄像头高度(0.6米、1.8米、2.4米)以及不同的光照条件(早晨、下午、晚上和“实验室”条件)下重复了这些变化。
将这些视频片段输入到更快的区域卷积神经网络(Faster R - CNN)和YOLOv3物体检测器中,他们发现物体的置信度取决于行人角度的锐度、行人的距离、摄像头高度以及天气/光照条件*。
随后,作者在相同场景下测试了更广泛的物体检测器:更快的区域卷积神经网络(Faster R - CNN)、YOLOv3、单 shot 多框检测器(SSD)、扩散检测(DiffusionDet)以及实时多尺度检测(RTMDet)。
作者指出:
“我们发现,这五种物体检测器架构都受到行人位置和环境光的影响。此外,我们发现,在这五种模型中的三种(YOLOv3、SSD和RTMDet)中,这种影响在所有环境光水平下都持续存在。”
为了扩大研究范围,研究人员使用了从三个地点的公开交通摄像头拍摄的视频片段:东京的涩谷十字路口、纽约的百老汇和旧金山的卡斯特罗区。
每个地点提供了五到六个视频记录,每个记录大约有四个小时的视频片段。为了分析检测性能,每隔两秒提取一帧,并使用更快的区域卷积神经网络(Faster R - CNN)物体检测器进行处理。对于所获得的帧中的每个像素,该方法估计了该像素中存在“人”检测边界框的平均置信度。
“我们发现,在这三个地点,物体检测器的置信度会根据帧中人员的位置而变化。例如,在涩谷十字路口的视频片段中,远离摄像头的区域以及靠近摄像头但有杆子部分遮挡过往行人的区域,置信度都较低。”
L - PET方法本质上就是这个过程,可以说它被“武器化”了,用于获得一条穿过城市区域的路线,使行人最不可能被成功识别。
相比之下,L - BAT遵循相同的过程,不同之处在于它会更新检测系统中的分数,创建一个反馈循环,旨在消除L - PET方法的影响,使系统的“盲区”更有效。
(然而,在实际操作中,根据获得的热力图来提高覆盖范围,不仅仅需要升级位于预期位置的摄像头;根据包括位置在内的测试标准,还需要安装额外的摄像头来覆盖被忽略的区域——因此,可以说L - PET方法将这场特殊的“冷战”升级到了一个非常昂贵的境地)
在卡斯特罗街的观测区域中,跨不同检测器框架,每个像素的平均行人检测置信度,通过对五个视频进行分析得出。每个视频是在不同的光照条件下录制的:日出、白天、日落以及两种不同的夜间设置。结果按每种光照场景分别呈现。
在将基于像素的矩阵表示转换为适合该任务的图表示后,研究人员对迪杰斯特拉算法进行了调整,以计算行人通过监控检测较少的区域的最优路线。
该算法不是寻找最短路径,而是进行了修改,以最小化检测置信度,将高置信度区域视为“成本”较高的区域。这种调整使算法能够识别出穿过盲点或低检测区域的路线,从而有效地引导行人沿着对监控系统来说可见性较低的路径行走。
一幅可视化图像,展示了场景的热力图从基于像素的矩阵到基于图的表示的转换。
研究人员使用一个由上述公共行人交通的四小时视频记录构建的数据集,评估了L - BAT系统对行人检测的影响。为了构建这个数据集,每隔两秒使用单 shot 多框检测器(SSD)处理一帧图像。
从每一帧中,选择一个包含检测到的人的边界框作为正样本,另一个随机的没有检测到人的区域作为负样本。这两个样本组成了一个用于评估两个更快的区域卷积神经网络(Faster R - CNN)模型的数据集——一个应用了L - BAT,另一个没有应用。
通过检查模型识别正样本和负样本的准确性来评估模型的性能:与正样本重叠的边界框被视为真正例,与负样本重叠的边界框被标记为假正例。
用于确定L - BAT检测可靠性的指标包括曲线下面积(AUC)、真正例率(TPR)、假正例率(FPR)和平均真正例置信度。研究人员断言,使用L - BAT提高了检测置信度,同时保持了较高的真正例率(尽管假正例率略有增加)。
最后,作者指出,这种方法存在一些局限性。其中之一是,他们的方法生成的热力图特定于一天中的某个时间。虽然他们没有详细阐述这一点,但这表明需要一种更全面、多层次的方法,以便在更灵活的部署中考虑一天中的不同时间。
他们还观察到,这些热力图不会转移到不同的模型架构中,并且与特定的物体检测器模型相关联。由于这项工作本质上是一个概念验证,因此可以推测,也可以开发出更巧妙的架构来弥补这种技术缺陷。
结论
任何一种新的攻击方法,如果其解决方案是“购买新的监控摄像头”,都有一定的优势,因为在监控密集的地区扩大公共摄像头网络可能会面临政治挑战,并且这通常需要选民授权,代表着一笔显著的公共开支。
这项工作提出的最大问题或许是**“封闭源的监控系统是否利用了像YOLO这样的开源最先进框架?”** 当然,这是无法知晓的,因为为许多国家和公共摄像头网络提供支持的专有系统的制造商(至少在美国)可能会辩称,披露此类使用情况可能会使他们容易受到攻击。
尽管如此,政府信息技术和内部专有代码向全球开源代码的迁移表明,任何使用(例如)YOLO来测试作者观点的人都可能会立即获得成功。