IEEE Conference Proceedings arXiv: Computer Vision and Pattern Recognition Jan 2019
解决的问题与改进
现有方法不能结合直接可视信息和深层语义信息。
- patch search等方缺少法高层语义一致性的理解。
- generative models的stacked constructions和poolings存在over-smooth, lack of visually-realistic等问题。
模型搭建
以UNet为骨架,能够在image-level 和 feature-level上填充缺失区域.
pyramid-context encoder:使用cross-layer 注意力传播和金字塔填充的机制
每一层的𝜓由这一层的feature map - 𝜙 和 更高一层的𝜓共同经过ATN(式中f)得到。
Attention Transfer Network(ATN)(即上面的f)
一、由高层语义重建特征图 ψ L \psi^L ψL填充下一层特征图的 ϕ L − 1 \phi^{L-1} ϕL−1,以获得下一层的重建特征图 ψ L − 1 \psi^{L-1} ψL−1。
-
首先提取 ψ l