- 博客(59)
- 资源 (2)
- 收藏
- 关注
原创 【论文阅读笔记】MoGe: 使用最优训练监督解锁开放域图像的精确单目几何估计
在计算机视觉领域,单目几何估计一直是一个重要的研究方向。本文介绍了一种新模型——MoGe,它能够从单目开放领域图像中恢复3D几何形状。MoGe通过引入最优训练监督,显著提高了几何估计的准确性和泛化能力。Authors: 中国科学技术大学,微软,哈佛,清华MoGe(Monocular Geometry)是一种强大的模型,能够从单张图像直接预测捕获场景的3D点图。该模型采用仿射不变表示法,消除了真实全局尺度和位移的影响。这一创新使得训练过程中避免了模糊的监督,从而促进了有效的几何学习。
2025-01-07 03:04:23
1127
1
原创 【论文阅读笔记】LTX-Video: Realtime Video Latent Diffusion
近来看到两篇之一从VAE的角度来提升图与视频生成效果包括效率的文章。另一篇「todo」LTX-Video,一种基于变换器的潜在扩散模型,它通过无缝整合视频变分自编码器(Video-VAE)和去噪变换器的功能采用整体方法进行视频生成。LTX-Video 旨在优化它们之间的交互,Video-VAE,能够实现 1:192 的高压缩比,每个标记的时空下采样为 32×32×8 像素,这得益于将分块操作从变换器的输入迁移到 VAE 的输入。在这种高度压缩的潜在空间中,
2025-01-05 20:35:00
1202
1
原创 【论文阅读笔记】IC-Light
ICLR 2025满分论文技术背景:基于扩散的图像生成器用于光照协调和编辑现有技术面临保持图像细节和固有属性的挑战创新方法:提出ICLight(一致光线传输)方法基于物体在不同光照条件下外观线性混合的物理原理主要优势:可处理大规模数据(>1000万)支持多种数据类型(真实场景、渲染样本等)兼容强大的模型架构(SDXL、Flux等)关键成果:实现稳定可扩展的光照学习只改变图像光照,保持其他属性不变减少不确定性和伪影(如材质不匹配)
2024-12-25 21:56:14
808
1
原创 【论文阅读笔记】Scalable, Detailed and Mask-Free Universal Photometric Stereo
给定未知空间变化的光照下的多个图像,可以直接恢复出非凸的、非朗伯曲面的详细表面法线。SDM-UniPS,一个开创性的可扩展、详细、无掩码和通用光度立体网络。可以恢复惊人的复杂表面法线贴图,与3D扫描仪的质量相媲美,即使图像是在不受控制的环境中未知的、空间变化的照明条件下捕获的。
2024-12-24 22:36:08
1473
2
原创 【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models
弥合封闭源视频基础模型和开源视频基础模型之间的差距,以加快社区探索。”——混元基础模型团队不愧是大组,下游任务刷了个遍,也做了非常丰富的实验。
2024-12-17 21:33:02
1530
1
原创 【论文阅读笔记】VAR:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
VAR,视觉自回归的大突破
2024-12-12 21:57:56
1562
1
原创 【论文阅读笔记】One Diffusion to Generate Them All
Authors:Allen Institute for AI(AI2)\ 加州大学欧文分校 \ 华盛顿大学。
2024-12-12 16:01:37
1183
1
原创 【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
我们模型的一个自然问题是,为什么不仅仅是训练一个 GAN,它可以使用传统的设置一次性生成样本,而我们的模型通过迭代去噪生成样本。在图像生成中,我们观察到我们的模型获得了与扩散模型竞争的样本质量和模式覆盖率,同时只需要两个去噪步骤,与Song等人(2021c)在CIFAR-10上的预测器校正器采样相比,采样速度提高了约2000倍。为了说明这一点,在图 2 中,我们可视化了多模态数据分布的不同去噪步长的真实去噪分布。具体来说,我们的正向扩散的设置类似于Eq. 1中的扩散模型,主要假设T很小(T≤8),
2024-09-10 17:10:18
1761
1
原创 【论文阅读笔记】Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields
如图1所示,**我们可以看到MipNeRF呈现了高质量的渲染,但是,它的重建速度非常慢(最多约3天),这极大地阻碍了适用性。工作线程致力于通过将场景分割成许多单元[42,43]来降低推理的复杂性,学习减少每条射线的样本[27,38],或缓存训练字段值[20,17,56,6]来减少渲染中的计算。我们的 Tri-MipRF 生成的代理网格即使在复杂的结构细节中也呈现出高保真的质量,如图 4 (a) 的左侧所示,而 Instant-ngp [37] 和 NeuS [49] 产生的结果显示在右侧作为参考。
2024-08-11 16:00:21
1245
原创 【论文阅读笔记】Meta 3D AssetGen
我们提出了 Meta 3D AsetGen (AssetGen),这是文本到 3D 生成的重大进步,它产生了忠实、高质量的网格,具有纹理和材料控制。与在 3D 对象外观中烘烤阴影的作品相比,AsetGen 输出基于物理的渲染 (PBR) 材料,支持逼真的重新照明。AsetGen 使用分解阴影和反照率外观通道生成对象的前几个视图,然后使用延迟阴影损失重建 3D 中的颜色、金属度和粗糙度以进行有效监督。**它还使用符号距离函数更可靠地表示 3D 形状,并为直接形状监督引入了相应的损失。
2024-07-06 18:43:02
1159
1
原创 【论文阅读笔记】HYPERHUMAN: HYPER-REALISTIC HUMAN GENERA-TION WITH LATENT STRUCTURAL DIFFUSION
1)我们高效的架构设计(仅添加轻量级分支)实际上可以在更小的数据集规模和更少的训练迭代下产生合理的结果,捕获 RGB、深度和表面法线的联合分布。此外,在最后的评估过程中,我们在不绘制的帮助下使用原始人体姿势,但仍然可以达到卓越的性能。我们将此视为一个有前途的研究问题,并将在未来的工作中对其进行探索。1)我们可以将我们的模型更改为更小的扩散主干,以节省计算和内存成本,例如 Small SD 和 Tiny SD (Kim et al., 2023),与稳定扩散实现了相当的性能,但在训练和推理方面更轻、更快。
2024-07-06 17:16:13
996
1
原创 【论文阅读笔记】InstantID : Zero-shot Identity-Preserving Generation in Seconds
现有的基于 ID 嵌入的方法,虽然只需要一个前向推理,但面临挑战:它们要么需要对众多模型参数进行广泛的微调,缺乏与社区预训练模型的兼容性,要么无法保持高人脸保真度为了解决这些限制,我们引入了 InstantID,这是一种强大的基于扩散模型的解决方案。我们的即插即用模块擅长仅使用单个面部图像处理各种风格的图像个性化,同时确保高保真度为此,我们设计了一种新的,通过施加强语义和弱的空间条件,将人脸和地标图像与文本提示相结合,引导图像生成。
2024-02-04 16:40:28
3102
2
原创 【论文阅读笔记】Taming Transformers for High-Resolution Image Synthesis
旨在学习序列数据的远程交互,transformer继续在各种任务中展示最先进的结果。与 CNN 相比,它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力,但对于长序列(如高分辨率图像)也在计算上是不可行的。我们演示了如何将cnn的归纳偏差与变压器的表达能力相结合,使它们能够建模,从而合成高分辨率图像。我们展示了如何 (i) 使用CNN 来学习图像成分的上下文丰富的词汇进而 (ii) 利用transformer有效地对它们在高分辨率图像中的组成进行建模。
2024-02-02 21:25:47
2793
3
原创 【论文阅读笔记】Advances in 3D Generation: A Survey
生成 3D 模型位于计算机图形学的核心,一直是几十年研究的重点。随着高级神经表示和生成模型的出现,3D 内容生成领域发展迅速,能够创建越来越高质量和多样化的 3D 模型。该领域的快速增长使得很难跟上所有最近的发展。在本次调查中,我们旨在介绍 3D 生成方法的基本方法并建立结构化路线图,包括 3D 表示、生成方法、数据集和相应应用。
2024-02-01 18:28:24
1735
1
原创 【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS
开发了一种潜在的扩散技术,其中我们学习了一个用于指导扩散过程的详细但极其紧凑的语义图像表示。与语言的潜在表示相比,图像的这种高度压缩的表示提供了更详细的指导,这显着减少了实现最先进结果的计算要求。(直观上理解就是文本的表示和图像的表示tokens一起作为条件引导图像生成)基于用户偏好研究提高了文本条件图像生成的质量。与稳定扩散 2.1 的200,000 GPU 小时相比,我们方法的训练需求由 24,602 A100-GPU 小时组成。我们的方法还需要较少的训练数据来实现这些结果。
2024-02-01 17:31:38
1400
2
原创 【论文阅读笔记】Make-A-Character: High Quality Text-to-3D Character Generation within Minutes
定制和富有表现力的3D角色的需求越来越大,但传统的计算机图形学手动创建创建是昂贵的。提出了一个名为 Make-A-Character (Mach) 的用户友好的框架,以从文本描述中创建类似生命的 3D 化身。该框架利用大型语言模型的强大功能进行文本意图理解和中间图像生成,然后是一系列面向人类的视觉感知和 3D 生成模块。两分钟左右生成、可以和现有CG管道集成、可支持动画驱动。
2024-02-01 15:31:59
1375
1
原创 【论文阅读笔记】NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images
通过联合优化许多输入图像上的单个场景表示,NeRF对高水平的图像噪声具有惊人的鲁棒性。我们利用这一事实直接在完全未处理的HDR线性原始图像上训练RawNeRF。在这个仅由单个蜡烛 (a) 照明的夜间场景中,RawNeRF 可以从经过后处理 (b, c) 破坏的噪声原始数据中提取细节。RawNeRF 恢复完整的 HDR 颜色信息,使 HDR 视图合成任务成为可能,例如改变渲染新视图的焦点和曝光。生成的渲染可以像任何原始照片一样修饰:在这里,我们展示了 (d, left) 具有简单全局色调映射的暗全焦曝光和 (
2024-01-05 01:50:18
1227
1
原创 【论文阅读笔记】Stable View Synthesis 和 Enhanced Stable View Synthesis
code:暂无。
2024-01-04 20:24:00
696
1
原创 【论文阅读笔记】Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
MipNeRF360是在NeRF++和MipNeRF的基础上进行的扩展,利用NeRF++提出的远景参数化技巧和MipNeRF的低通滤波思想同时实现了无界场景的高质量渲染与抗锯齿。现有方法在新视角合成方面取得了令人影响深刻的结果但是现有方案由于附近和远处物体的细节和比例不平衡导致模糊和低分辨率渲染场景参数化在线蒸馏和一种失真正则化来克服抗锯齿和无界场景渲染目标场景是相机围绕一个点旋转360度的场景,同时能够得到较低的误差和更好的渲染质量、更详细的深度图使用一种新颖的类卡尔曼场景参数化。
2024-01-04 14:38:33
3613
1
原创 【论文阅读笔记】DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance
文本引导的3D数字人脸生成。
2023-12-31 18:16:59
1336
1
原创 【论文阅读笔记】NeRF+Mip-NeRF+Instant-NGP
NeRF是NeRF系列的开山之作,将三维场景隐式的表达为神经网络的权重用于新视角合成。MipNeRF和Instant NGP分别代表了NeRF的两个研究方向,前者是抗锯齿,代表着渲染质量提升方向;后者是采用多分辨率哈希表用于加速NeRF的训练与推理速度。通过NeRF实现新视角合成。
2023-12-10 23:26:16
2536
1
原创 【论文阅读笔记】Prompt-to-Prompt Image Editing with Cross-Attention Control
文本驱动的图像编辑
2023-11-28 19:26:08
1148
原创 【论文阅读笔记】InstructDiffusion: A Generalist Modeling Interface for Vision Tasks
通过训练统一多视觉任务提升模型性能和泛化性能
2023-11-27 19:44:55
1015
原创 【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
伴随文生图扩散模型在3d内容生成方面的应用,提出一种3D风格化身生成方法。通过利用预训练的文本到图像扩散模型来生成风格化的 3D 化身,该框架提供了使用文本提示定义样式和面部属性的能力,大大提高了化身创建的灵活性。所提出的从粗到细的鉴别器可以有效地解决生成的训练图像和姿势之间的错位问题,从而提高利用姿态标注不准确的图像数据。最后,开发了一个基于潜在扩散的附加条件生成模块,实现了基于图像输入的 3D 模型生成。
2023-11-25 22:38:37
283
原创 【论文阅读笔记】Emu Edit: Precise Image Editing via Recognition and Generation Tasks
基于指令的图像编辑,Emu Edit
2023-11-22 18:42:26
1863
原创 【论文阅读笔记】Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
论文阅读笔记:Emu
2023-11-22 13:53:30
634
原创 【面试题合集】(1)
生成对抗网络(GAN)中的模式崩塌是指生成器网络只能生成有限的几种样本,而不能生成更多的样本。在扩散模型中,模型通过迭代地应用马尔可夫链的转移算子来生成样本,而不需要通过生成器和判别器的对抗训练。生成过程更加确定性:扩散模型的生成过程是确定性的,每个时间步都根据前一个时间步的样本生成下一个时间步的样本。这种确定性的生成过程可以避免生成器网络学习到有限的样本特征,并且可以保证生成样本的多样性。这种简单的模型结构使得模型更容易学习到数据的分布,并且不容易出现模式崩塌的问题。
2023-09-24 18:41:41
1691
原创 百度conda、pypi、apt源
Miniconda 是一个 Anaconda 的轻量级替代,默认只包含了 python 和 conda,但是可以通过 pip 和 conda 来安装所需要的包。Miniconda 安装包可以到http://mirrors.baidubce.com/anaconda/miniconda/下载。Anaconda安装包可以到http://mirrors.baidubce.com/anaconda/archive下载。配置完后,即可使用百度pypi源安装您所需要的Python库。
2023-09-04 15:05:40
1605
原创 ubuntu20.04 安装colmap 报错:Cmake error while running “cmake .. -GNinja“ command during installation
日常Debug:Colmap安装过程中编译报错
2023-07-28 02:40:03
660
原创 使用FFmpeg将视频帧转换为png图像
一个使用ffmpeg多进程将大量mp4文件转换为对应多帧png/jpg/bmp等图片文件的代码实例,其中png存储于与视频同名的文件夹当中。
2023-02-28 04:11:07
4184
原创 关于python:Cython ValueError:ValueError: Buffer has wrong number of dimensions (expected 2, got 3)
[TOC](关于python:Cython ValueError:ValueError: Buffer has wrong number of dimensions (expected 1, got 2))
2023-02-12 03:23:45
472
原创 ubuntu 20.04配置蓝牙以及 btusb not found解决
想把ubuntu20.04当做日常开发平台,需要连接蓝牙耳机所以记录一下蓝牙配置和debug过程。又是debug的一天。有问题欢迎留言~
2022-07-31 16:50:05
13090
4
原创 AttributeError: module ‘distutils‘ has no attribute ‘version‘
(深度学习日常报错)AttributeError: module 'distutils' has no attribute 'version' :
2022-07-14 20:55:01
971
原创 python提取COCO,VOC数据集中特定类,实现xml转coco(voc转coco)格式
python提取COCO数据集中特定类别,VOC数据集中特定类别,实现xml转json(voc转coco)格式
2022-05-05 00:08:11
2230
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人