图像生成
文章平均质量分 94
JennnyZhang
电子科技大学-计算机学院-计算机视觉 https://github.com/JennyZhang0810
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Making Images Real Again: A ComprehensiveSurvey on Deep Image Composition 图像合成综述阅读
本文综述了图像合成(对象插入)任务中的关键挑战与解决方案,重点分析了前景与背景之间的不一致性问题及其对应的子任务。研究将不一致性分为外观、几何和语义三类,并系统梳理了物体放置、图像融合、图像调和、阴影生成等子任务的技术进展。文章对比了传统方法与深度学习方法,总结了相关数据集与评估指标,并提供了开源工具库资源。针对不同应用场景,作者提出了顺序处理与端到端生成的策略比较,特别强调了扩散模型在生成式图像合成中的潜力。最后,文章讨论了前景对象搜索技术及其在遥感等领域的应用建议,为未来研究提供了方向性指导。原创 2025-09-22 20:31:55 · 1189 阅读 · 0 评论 -
Dispersive Loss:为生成模型引入表示学习 | 如何分析kaiming新提出的dispersive loss,对扩散模型和aigc会带来什么影响?
摘要:何恺明团队提出「DispersiveLoss」方法,巧妙弥合扩散模型与表示学习的鸿沟。该方法通过鼓励模型内部特征在隐藏空间分散分布,实现无需正样本对的对比学习机制,既保留扩散模型原有采样流程,又显著提升表示质量。相比依赖外部预训练模型的REPA方法,DispersiveLoss具有即插即用、零额外开销的优势,在ImageNet上使DiT/SiT等主流扩散模型性能持续提升,并在一步生成模型MeanFlow上创下新SOTA。该研究为生成模型引入高效表示学习提供了简洁路径,使模型在生成图像的同时获得更好的语原创 2025-08-02 20:01:06 · 1270 阅读 · 0 评论 -
Highly Compressed Tokenizer Can Generate Without Training
这篇ICML 2025论文提出了一个颠覆性观点:1D图像Tokenizer本身具备强大的生成能力。研究发现,高度压缩的1D令牌空间(如32个令牌)能解耦不同语义特征,通过测试时梯度优化即可实现文本引导的图像生成和编辑,无需训练专用生成模型。实验表明,该方法在FID等指标上接近SOTA生成模型,同时支持即插即用的图像编辑和修复。这一发现为生成式AI开辟了新思路:构建更强大的Tokenizer可能比训练复杂生成模型更为关键。原创 2025-08-02 19:24:18 · 1054 阅读 · 0 评论 -
Diffuse and Disperse: Image Generation with Representation Regularization
本文提出了一种简洁有效的扩散模型正则化方法——分散损失(Dispersive Loss),通过促使模型内部特征在隐空间中分散分布,显著提升了图像生成质量。该方法仅需在标准扩散损失基础上增加一个正则化项,无需修改模型结构或引入外部数据,计算开销极小。实验表明,分散损失在DiT、SiT等多种模型上稳定提升性能10-15%,在一步生成模型MeanFlow上也取得新SOTA。这一工作揭示了通过内部表示正则化提升生成模型的有效路径,实现了生成任务与表示学习的巧妙结合。原创 2025-08-02 17:29:39 · 719 阅读 · 0 评论 -
ICCV2025 | SkyDiffusion: 从地面街景生成卫星视角图像, 真实、结构一致!
摘要: 本研究提出SkyDiffusion框架,首次结合鸟瞰图(BEV)与扩散模型,实现地面街景到空中图像的跨视角生成。针对传统BEV平面假设的不足,提出Curved-BEV转换方法,通过非平面映射保留建筑顶部等高层结构信息;设计Multi-to-One BEV映射策略,融合多视角街景解决遮挡问题;并构建BEV引导的扩散模型增强生成一致性。实验基于新提出的G2A-3数据集(含灾害、无人机及历史卫星场景)验证了方法的有效性,在结构一致性与视觉质量上均优于基线模型。相关成果发表于ICCV 2025,代码与数据已原创 2025-08-02 11:53:34 · 1293 阅读 · 1 评论 -
从马赛克到色彩错乱:一次前景图像处理异常的全流程踩坑记录
图像生成任务中的诡异问题排查全记录 在基于前景和背景融合的图像生成任务中,作者遇到了前景图生成后变为彩色斑点+马赛克的诡异现象。经过多阶段排查,包括文件清洗、尺寸匹配、通道检查、裁剪补全等操作后,发现问题仍未解决。最终发现核心原因是输入图像的位深不一致:前景图为16位(uint16),而模型仅支持8位(uint8)输入,导致数值范围错乱。解决方案是强制将16位图像缩放至8位范围。 经验总结: 数据检查优先:务必确认图像类型(uint8/16)、通道(RGB/BGR/Alpha)、尺寸等基础属性; 中间可视化原创 2025-07-01 17:20:32 · 1003 阅读 · 0 评论 -
论文精读-Generate Your Own Scotland: Satellite Image Image Generation Conditioned on Maps 2023 NIPSW
论文的核心目标是解决扩散模型在地球观测 (Earth Observation, EO) 领域探索不足的问题,特别是如何利用如 OpenStreetMap (OSM) 这样的地图数据。通过条件生成逼真的卫星图像,作者希望提升 EO 分析能力,并支持数据增强、可视化等多种应用场景。原创 2025-01-17 19:54:45 · 989 阅读 · 0 评论 -
论文精读-RSDiff: Remote Sensing Image Generation from Text using Diffusion Model 2024 Neural Computing a
该论文的创新在于通过级联扩散模型解决了文本到遥感图像生成的语义一致性和高分辨率挑战,既降低了计算成本,又在生成质量上取得显著突破。原创 2025-01-15 16:41:29 · 1213 阅读 · 0 评论 -
论文精读-Method of Efficient Synthesizing Post-disaster Remote Sensing Image with Diffusion Model and LL
这篇论文通过结合扩散模型和 LLM 提出了创新的灾后遥感图像生成方法,具有以下特点:使用自然语言描述控制生成任务,增强了图像生成的可控性。通过 Hypernetworks 降低了模型微调成本。提供了高效的灾后伪样本生成工具,可用于支持灾害管理和解译任务。原创 2025-01-15 15:53:46 · 1041 阅读 · 0 评论 -
论文精读-CRS-Diff:Controllable Remote Sensing Image Generation with Diffusion Model
♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习目录1. Motivation2. Contribution3. Method3.1. 引入扩散模型与多条件控制3.2. 生成流程的核心部分A. 文本到图像生成B. 图像解耦3.3. 多条件融合A. 文本条件融合B. 图像条件融合3.4. 训练策略条件控制的实现条件组合的训练机制3.5. 总结4. ExperimentA. 数据集B. 实现细节C. 评估指标D. 比较与分析文本到图像生成单一条件图像生成多条件图像生成E. 消融实验(A原创 2025-01-12 17:19:09 · 1558 阅读 · 1 评论 -
论文精读-⭐MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation
♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。原创 2025-01-11 22:29:26 · 1590 阅读 · 0 评论 -
论文精读-GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis CVPRW 2024
*会议:**CVPR 2024 workshop一句话总结:SD+ControlNet为baseline,SatCLIP提取地理位置特征,OSM+Canny+SAM控制,感觉是DiffusionSat(2024ICLR)的低配版,而且很多瞎写的内容;But!!资源很牛,实验很卷,可以说是文章写的很漂亮。♥创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。原创 2025-01-09 23:26:05 · 951 阅读 · 0 评论
分享