估计视频中的背景
概述
虽然基于深度学习的方法能够很好的估计处视频中的背景,但是当遇到运算能力较低的设备时,还是使用传统的计算机视觉的方法更为简单和有效。
在这篇博文中,我们将介绍一种计算机视觉技术,它用于当相机处于静态时,估计运动场景的背景。这种情况并不少见,例如,许多交通和监控摄像头都是固定的。
时间中值滤波器
为了更好的理解这一概念,我们首先从简单的一维问题出发。假如我们每10毫秒估算一个量(比如房间的温度,这里的房间温度设置为华氏70度)。
上图中,左图为好的温度计测量出的结果,右图为坏的温度计测量出的结果。可以看出,虽然左图有一些噪声,但是可以通过简单的取平均值就可以得到较为准确的温度度数。而坏的温度计虽然也有部分时间能够正常估计温度,但是出现了严重的错误。
虽然右图的数据有较多的异常值,但是我们可以使用中位数(升序或降序排序时数据的中值)来估计更为稳定和准确的值。但使用中值有个缺点,就是需要消耗更大的计算力。
使用中值进行背景估计
通过上述的例子,大伙应该对中值的方法有些了解,那现在就回到估计视频背景的任务中来。
根据该任务的特殊性(相机没有发生移动),我们可以假设,在大多数情况下,我们所看到的背景是同一块。因此,我们可以这样考虑:对于一个视频序列,我们可以随机抽取几个帧(比如说25帧)。换句话说,对于每个像素,我们现在有25个背景估计值。只要一个像素在超过50%的时间内没有被汽车或其他移动物体覆盖,那么这25帧上像素的中位数就可以很好地估计出该像素处的背景。我们可以对每个像素重复这个过程,然后恢复整个背景。具体看代码,就很好理解了:
import numpy as np
import cv2
# 打开视频
cap = cv2.VideoCapture('video.mp4')
# 随机选取25帧
frameIds = cap.get(cv2.CAP_PROP_FRAME_COUNT) * np.random.uniform(size=25)
# 从视频中选取指定的帧
# 存入frames数组中
frames = []
for fid in frameIds:
# 将指针移动到第fid帧
cap.set(cv2.CAP_PROP_POS_FRAMES, fid)
ret, frame = cap.read()
frames.append(frame)
# 计算中值帧
medianFrame = np.median(frames, axis=0).astype(dtype=np.uint8)
# 展现中值帧
cv2.imshow('frame', medianFrame)
cv2.waitKey(0)
# 重置视频的指针到开头
cap.set(cv2.CAP_PROP_POS_FRAMES, 0)
# 将中值帧转灰度图
grayMedianFrame = cv2.cvtColor(medianFrame, cv2.COLOR_BGR2GRAY)
# 依次遍历视频
ret = True
while(ret):
ret, frame = cap.read()
frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
# 计算当前帧和中值帧的绝对差
dframe = cv2.absdiff(frame, grayMedianFrame)
# 将差图二值化
th, dframe = cv2.threshold(dframe, 30, 255, cv2.THRESH_BINARY)
# Display image
cv2.imshow('frame', dframe)
cv2.waitKey(20)
cap.release()
cv2.destroyAllWindows()