Temporal Relational Reasoning in Videos
框架

TRN(Temporal Relation Networks)
公式:
T2(V)=hϕ(∑i<jgθ(fi,fj))
T_{2}(V)=h_{\phi}\left(\sum_{i<j} g_{\theta}\left(f_{i}, f_{j}\right)\right)
T2(V)=hϕ(i<j∑gθ(fi,fj))
T3(V)=hϕ′(∑i<j<kgθ′(fi,fj,fk)) T_{3}(V)=h_{\phi}^{\prime}\left(\sum_{i<j<k} g_{\theta}^{\prime}\left(f_{i}, f_{j}, f_{k}\right)\right) T3(V)=hϕ′⎝⎛i<j<k∑gθ′(fi,fj,fk)⎠⎞
T4(V)=hϕ′(∑i<j<k<lgθ′(fi,fj,fk,fl)) T_{4}(V)=h_{\phi}^{\prime}\left(\sum_{i<j<k<l} g_{\theta}^{\prime}\left(f_{i}, f_{j}, f_{k}, f_{l}\right)\right) T4(V)=hϕ′⎝⎛i<j<k<l∑gθ′(fi,fj,fk,fl)⎠⎞
Multi-Scale Temporal Relations
MTN(V)=T2(V)+T3(V)…+TN(V) M T_{N}(V)=T_{2}(V)+T_{3}(V) \ldots+T_{N}(V) MTN(V)=T2(V)+T3(V)…+TN(V)
优点
文章指出,TRN的强大之处在于能够解释视频常识,这个是优于C3D和I3D(后续会介绍,常用算法)的地方:
- 视频中具有代表性的画面有利于TRN识别一个活动;
- 对于同一类视频,具有很好的适用性;
- 对行为识别来说,TRN的时序性很重要,尤其是单方向的动作;
- 能够在动作的早期完成识别。
本文介绍了视频理解中的时序关系网络(TRN)框架,通过多种尺度的时序关系建模来捕捉视频中的动作特征,特别适用于行为识别任务,并能在动作早期进行准确识别。
261

被折叠的 条评论
为什么被折叠?



