- 博客(6)
- 收藏
- 关注
原创 Boosting Monocular Depth Estimation Models to High-Resolution viaContent-Adaptive Multi-Resoluti
然后,由于单目深度估计仅能提供相对深度,我们之前设计的合并网络可以再次使用,将补丁估计中的高频细节合并到基本估计上。我们证明,使用一个预先训练的模型,在不同的分辨率与不断变化的内容下通过合并估计,我们可以生成多百万像素的深度图与高层次的细节。我们的目标是将高分辨率输出的高频细节嵌入到低分辨率输出中,这为完整图像提供了一致的结构和固定的深度范围。我们的目标是生成待合并的单个图像的多个深度估计,以实现具有一致的整体结构的高频细节的结果。)检索图像中的上下文线索的分布,我们将使用该分布来确定网络的输入,以及(
2023-09-06 21:29:23
274
1
原创 Generative Diffusion Prior for Unified Image Restoration and Enhancement(2023,CVPR)
它利用训练良好的DDPM作为通用图像恢复和增强的有效先验,使用退化图像作为指导。作为一个统一的框架,GDP不仅可以处理各种线性逆问题,而且首次将其推广到非线性的、盲的图像恢复和增强任务。因此,我们采用盲退化估计策略,在去噪过程中对GDP的退化模型参数进行随机初始化和优化。此外,为了进一步提高图像的真实感和图像质量,我们系统地研究了一种有效的方法来指导扩散模型。值得注意的是,这种退化模型一般是非线性的,因为f和m依赖于x和y。在推理过程中给定一个退化的图像y,用以引导逆向扩散过程,可以在预测出的干净的图像。
2023-04-09 21:44:25
2002
原创 视觉领域的ChatGPT,Segment Anything
此外,当使用重型图像编码器时,SAM可以实时处理提示,但SAM的整体性能仍不是实时的。我们的模型经过设计和训练,可以接受提示,因此可以在新的图像分布和任务上进行零样本迁移。我们将点和框表示为位置编码[95],并将每个提示类型的学习嵌入与自由形式文本一起求和,使用CLIP[82]的现成文本编码器。按照的做法,我们模拟一个交互式设置,对每个掩模随机采样11轮,使SAM能够无缝地融入我们的数据引擎。SAM包括三个组件,如图所示:一个图像编码器,一个灵活的提示编码器和一个快速的掩模解码器。
2023-04-09 21:06:59
529
1
原创 RainDiffusion: When Unsupervised Learning Meets Diffusion Models for Real-world Image Deraining
扩散模型去雨
2023-04-02 20:17:17
819
1
原创 DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建
DiffIR,一种强大、简单、高效的基于扩散模型的的图像修复方法。与图像生成不同的是,输入图像的大部分像素都是给定的。因此,我们利用DM强大的映射能力来估计一个紧凑的IPR(IR Prior Representation,图像修复的先验表示)来引导图像修复,从而提高DM在图像修复中的恢复效率和稳定性。
2023-04-02 19:17:46
5532
1
原创 High-Resolution Image Synthesis with Latent Diffusion Models 稳定扩散模型论文笔记
其优势是特征空间可迁移并且训练较为稳定,但是不容易进行模型评估,当输入的图像数据的分布情况复杂时,其学习到的特征泛化能力不足,而且生成的图像模糊。调整AE中encoder下采样f,如果f=1那就等于没有对输入进行压缩,本文对比了f在{1,2,4, 8, 16, 32}下的效果,如果f越大,则信息压缩越严重,会造成图片失真,但是训练资源则占用越少,反之f约小则训练的会越慢。其效果超过了GANs和LSGM,并且对于比同为扩散模型的DDPM效果要好,与ADM的效果接近,说明了隐空间的确保留了主要的特征信息。
2023-03-31 21:35:09
2412
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人