ECCV 2020 Representation Learning on Visual-Symbolic Graphs for Video Understanding
动机自然视频中的事件通常产生于演员和目标之间的时空交互,并且涉及多个共同发生的活动和目标类。因此,需要开发能够对时空视觉和语义上下文进行有效建模的算法。捕捉这种上下文的一种方法是使用基于图的建模,它在计算机视觉中有着丰富的历史。传统的基于图的方法,例如使用概率图模型,主要侧重于在符号而不是信号/视觉表示的层次上对上下文进行建模。然而,最近的进步使得图结构化数据的表示学习能够使用称为图神经网络(GNNs)的深层架构,这些架构学习如何通过聚合来自其邻居的消息来迭代更新节点表示。视频可以表
原创
2021-05-18 23:30:24 ·
381 阅读 ·
0 评论