Fully Convolutional Neural Networks for Crowd Segmentation
https://arxiv.org/abs/1411.4464
这里设计了一个全卷积网络用于视频中的人群分割,主要考虑三个信息:Apperance、 Motion 、Structure,思路还是很原始的。
主要的难度在于 静态的人群我们也想分割出来,再就是当人群的纹理和背景相似的时候,这个时候就需要靠运动信息了。
CNN and FCNN models
Multi-stage fusion structure
三个网络结构一样的:The our proposed FCNN can be represented as: Conv(32,7,1) - ReLU - Pool(MAX,2,2) -Conv(64,7,1) - ReLU - Pool(MAX,2,2) - Conv(128,3,1) -ReLU - Conv(128,3,1) - ReLU - Conv(64,3,1) - ReLU -Conv(16,3,1) - ReLU - Conv(1,1,1) - Sig.
Fusion Schemes and Extensible Architecture
input fusion, feature fusion, and decision fusion.
1) The input fusion directly concatenate input maps as multiple channels.
2) The feature fusion combines output feature maps of a certain fusion layer and use feature maps of all three networks to make a decision.
3)The decision fusion scheme combines the output maps of three separately trained networks.
训练数据标记
多视角训练

本文介绍了一种基于全卷积神经网络(FCNN)的人群分割方法,该方法能够处理视频中的静态人群,并利用外观、运动和结构信息提高分割准确性。面对人群纹理与背景相似的挑战时,运动信息成为关键。文章还详细介绍了三种融合方案,包括输入融合、特征融合和决策融合。
394

被折叠的 条评论
为什么被折叠?



