论文精读6:Cross-View Image Synthesis using Conditional GANs

这篇博客由中佛罗里达大学计算机视觉研究中心的Krishna Regmi和Ali Borji撰写,探讨了跨视角图像合成的挑战,如信息过载、瞬态物体不匹配和建筑多样性丢失等问题。他们提出利用Conditional GANs(条件生成对抗网络),设计了两种新结构——Crossview Fork和Crossview Sequential,来处理不同分辨率的图像。研究证明了cGANs的适应性和可解释性,并提出了一种通用的Image-to-Image Translation框架。然而,模型在处理道路变化、遮挡和标签噪声时仍面临困难。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Cross-View Image Synthesis using Conditional GANs


  • Cross-View Image Synthesis using Conditional GANs

    • 作者

      • Krishna Regmi and Ali Borji
    • 单位

      • 中佛罗里达大学计算机视觉研究中心
    • idea

      • 由于跨视角,各种问题比较难以解决

      • 使用Conditional generative adversarial networks

      • 提出了两种结构,Crossview Fork 和 Crossview Sequential,用来处理不同分辨率(64*64, 256 * 256)

      • 现在的问题

        • 空中图像比街景图像覆盖的地面区域更大,而街景图像比空中图像包含更多有关物体(例如房屋,道路,树木)的细节。因此,不仅航空图像中的信息太嘈杂,而且街景图像合成的信息量也较少。同样地,网络需要估计很多区域以合成航拍图像。

        • 瞬态物体(例如汽车(也包括人))不在图像对的相应位置出现,因为它们是在不同的时间拍摄的

        • 街景不同的房屋与鸟瞰图相似。这会导致合成的街景图像包含具有相似颜色或纹理的建筑物,从而阻止了生成建筑物的多样性。

        • 由于视角和遮挡,在两种视图中道路之间的变化。虽然道路边缘几乎呈直线形,并且在街景视图中可见,但它们通常被茂密的植被遮挡并在鸟瞰图中扭曲。

        • 当使用模型生成的分割图作为基础事实来提高生成图像的质量时,标签噪声和模型错误会在结果中引入一些伪像

    • method

      • 以pix2pix网络为baseline,提出两种 new cGAN network,分别为 X-Fork (对baseline修改,在倒数第二个块处分叉以生成两个输出,即目标视图图像和分割图)和 X-Seq (是具有连接两个baseline network 的序列)

    • Contribution

      • 证明了 conditional GANs广泛的适应性和可解释性

      • 提出了一个“Image-to-Image Translation”的通用框架,并分析几个重要架构选择的效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

枫楠Kuiy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值