大规模视听视频分析平台
1. 音频相似性搜索
音频相似性搜索省略了按特征单位分组进行归一化的步骤,同时对节奏模式特征集使用相关距离,这在之前的实验中表现出更好的性能。该搜索具有多个目标:
- 若在某视频中无法识别嫌疑人,此功能可用于识别具有相似声学特征的视频片段,如紧急车辆经过的声音,其他声音序列也可能具有重要意义。
- 录制的音频信号可用于即时定位。相似的声音模式通常在声源附近被记录,因此相似性搜索的结果能为指定位置提供视频结果。
2. 视频分析
2.1 通用目标检测与分类
目标检测与分类可识别视频帧中的语义概念,包括用边界框分割识别区域,并为其标注分类类别,如汽车或人。这有助于快速搜索特定场景内容,减轻执法部门的工作负担。
近年来,深度神经网络(DNNs)在图像检测和分类任务中表现出色,它能直接从输入数据中学习语义表示和分类器,无需手动设计特征。YOLO(You Only Look Once)检测器是基于卷积神经网络(CNN)的流行检测算法之一,它在9000多个不同目标类别上进行了训练,具备实时性能。经过评估,YOLO在准确性和运行时间之间取得了最佳平衡。为可扩展的法医平台开发的目标检测模块基于YOLO检测器,并进行了优化,以适应分布式环境并将结果存储在分布式数据库索引中。
2.2 多类多目标跟踪
视觉跟踪在计算机视觉中具有挑战性,因为存在目标变形、光照变化、尺度变化、快速突变运动、部分遮挡、运动模糊和背景杂乱等问题。多目标跟踪的任务是在每个时间帧同时检测多个目标,并在不同帧中匹配它们的身份,从而得到一组随时间变化的目标轨迹。
基于DNN的多目标
超级会员免费看
订阅专栏 解锁全文
434

被折叠的 条评论
为什么被折叠?



