一、背景简述
本文主要是为了了解光流的基本原理,以及其一些应用,并实现其两个主要变体(稀疏和密集)。简要讨论了使用深度学习的最新方法和有前景的未来方向。
然而,对于处理实时视频输入,这些技术的大多数实现仅处理同一帧内对象的关系(x,y)忽略时间信息(t)。换句话说,对于每次运行,它们独立地重新评估每一帧,就像它们是完全不相关的图像一样。然而,如果我们确实需要连续帧之间的关系,例如,我们想要跟踪车辆在帧之间的运动,以估计其当前速度并预测其在下一帧中的位置,该怎么办?
或者,如果我们需要关于连续帧之间的人体姿势关系的信息来识别人体动作,例如射箭、棒球和篮球,该怎么办?