论文精读6：Cross-View Image Synthesis using Conditional GANs

枫楠Kuiy

已于 2022-09-12 11:04:48 修改

阅读量287

点赞数

CC 4.0 BY-SA版权

分类专栏： Geo-Localization 论文精读笔记文章标签：深度学习机器学习人工智能 python 算法

于 2022-09-12 10:10:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43968093/article/details/126813770

Geo-Localization 论文精读笔记专栏收录该内容

10 篇文章

订阅专栏

这篇博客由中佛罗里达大学计算机视觉研究中心的Krishna Regmi和Ali Borji撰写，探讨了跨视角图像合成的挑战，如信息过载、瞬态物体不匹配和建筑多样性丢失等问题。他们提出利用Conditional GANs（条件生成对抗网络），设计了两种新结构——Crossview Fork和Crossview Sequential，来处理不同分辨率的图像。研究证明了cGANs的适应性和可解释性，并提出了一种通用的Image-to-Image Translation框架。然而，模型在处理道路变化、遮挡和标签噪声时仍面临困难。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Cross-View Image Synthesis using Conditional GANs

Cross-View Image Synthesis using Conditional GANs
- 作者
  - Krishna Regmi and Ali Borji
- 单位
  - 中佛罗里达大学计算机视觉研究中心
- idea
  - 由于跨视角，各种问题比较难以解决
  - 使用Conditional generative adversarial networks
  - 提出了两种结构，Crossview Fork 和 Crossview Sequential，用来处理不同分辨率（64*64， 256 * 256）
  - 现在的问题
    - 空中图像比街景图像覆盖的地面区域更大，而街景图像比空中图像包含更多有关物体（例如房屋，道路，树木）的细节。因此，不仅航空图像中的信息太嘈杂，而且街景图像合成的信息量也较少。同样地，网络需要估计很多区域以合成航拍图像。
    - 瞬态物体（例如汽车（也包括人））不在图像对的相应位置出现，因为它们是在不同的时间拍摄的
    - 街景不同的房屋与鸟瞰图相似。这会导致合成的街景图像包含具有相似颜色或纹理的建筑物，从而阻止了生成建筑物的多样性。
    - 由于视角和遮挡，在两种视图中道路之间的变化。虽然道路边缘几乎呈直线形，并且在街景视图中可见，但它们通常被茂密的植被遮挡并在鸟瞰图中扭曲。
    - 当使用模型生成的分割图作为基础事实来提高生成图像的质量时，标签噪声和模型错误会在结果中引入一些伪像
- method
  - 以pix2pix网络为baseline，提出两种 new cGAN network，分别为 X-Fork （对baseline修改，在倒数第二个块处分叉以生成两个输出，即目标视图图像和分割图）和 X-Seq （是具有连接两个baseline network 的序列）
- Contribution
  - 证明了 conditional GANs广泛的适应性和可解释性
  - 提出了一个“Image-to-Image Translation”的通用框架，并分析几个重要架构选择的效果

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

枫楠Kuiy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。