LuH1124-优快云博客

原创【每日技术点-0908】LoRA (Low-Rank Adaptation)

LoRA（低秩适应）是一种高效微调大模型的技术，通过引入低秩矩阵分解减少可训练参数量，显著降低计算资源需求。其核心原理是将权重更新ΔW分解为两个低秩矩阵BA（r≪d,k），仅训练A和B而冻结原始权重W。技术优势包括参数高效（0.1%-1%参数量）、内存友好和模块化。典型应用场景包括多任务适配、资源受限环境及快速实验。扩展变体如QLoRA（4位量化）和DoRA（方向/幅度分解）进一步优化性能。推理时可将W+BA合并为单一矩阵，不增加延迟。LoRA通过冻结大权重、旁路低秩适配和巧妙初始化，实现了高效稳定的微调。

2025-09-08 15:53:01 847

原创解决推送代码到 GitHub 时遇到的 “Permission denied (publickey)“ 错误

你是否在尝试将本地 Git 仓库推送到 GitHub 时遇到过令人沮丧的 “Permission denied (publickey)” 错误？这是一个很多开发者都会遇到的常见问题，尤其是在首次设置 SSH 密钥时。这个错误本质上意味着 GitHub 无法识别你的 SSH 密钥，从而阻止你推送代码。

2025-08-31 23:18:29 883

原创【论文阅读笔记】TransparentGS：当高斯溅射学会“看穿”玻璃，如何攻克透明物体重建难题？

TransparentGS：基于高斯散射的透明物体快速逆向渲染本文提出TransparentGS，一种基于3D高斯散射(3D-GS)的新型逆向渲染框架，用于高效重建透明物体并实现实时新视角合成。该方法通过三个关键创新解决了透明物体渲染的挑战：1) 设计透明高斯基元，采用延迟折射策略精确模拟高光折射；2) 提出高斯光场探针(GaussProbe)，统一编码环境光和邻近物体内容；3) 开发基于深度的迭代探针查询算法(IterQuery)，有效减少视差误差。实验表明，该方法能在1小时内完成高质量重建，支持实时渲

2025-06-22 22:27:15 1546 1

原创【论文阅读笔记】ICLR 2025 | 解析Ref-Gaussian如何实现高质量可交互反射渲染

新视图合成得益于越来越强大的NeRF和3DGS方法，经历了显著的进展。然而，反射物体的重构仍然具有挑战性，缺乏在实现实时高质量渲染的同时处理相互反射的适当解决方案。为填补这一空白，我们提出了一种反射高斯重构（Ref-Gaussian）框架，其特点在于两个组成部分：（I）基于物理的延迟渲染，通过公式化分裂和近似，使渲染方程能够利用像素级的材料属性；（II）基于高斯的相互反射，首次在高斯重构范式中实现所需的相互反射函数。

2025-06-13 17:24:30 1286 1

原创【论文阅读笔记】CVPR2025 | 2D高斯溅射的几何-光照解耦：Ref-GS实现开放世界级真实渲染

摘要 Ref-GS是一种新颖的2D高斯喷溅方法，通过方向光因子分解实现了逼真的视角相关渲染和精确几何恢复。该方法基于延迟渲染技术，将方向编码应用于渲染表面，有效降低了方向与视角间的歧义。创新性地引入球形Mip-grid来捕捉多级表面粗糙度，实现粗糙度感知的高斯阴影。通过向量外积进行几何-光照因子分解，显著减少了渲染开销。实验表明，Ref-GS在开放世界场景中不仅能实现高质量的逼真渲染（800×800分辨率下>45 FPS），还能准确恢复几何形状，其训练效率与隐式方法相当。该方法解决了传统高斯喷溅在反射

2025-06-13 12:00:50 1674 1

原创【论文阅读笔记】高光反射实时渲染新突破：3D Gaussian Splatting with Deferred Reflection 技术解析

本文提出了一种结合延迟着色与3D高斯溅射的镜面反射渲染新方法，解决了现有技术在高频辐射场拟合中的难题。该方案通过两个关键创新：1) 将反射强度与法线向量融入高斯溅射过程，构建屏幕空间贴图；2) 设计法线传播训练算法，使反射高斯的准确法线能渐进扩散至邻近区域。实验表明，该方法在合成与真实场景中均显著提升PSNR指标，镜面反射质量超越当前最优技术，同时保持实时渲染性能。研究还发现该方法能生成更精确的法线和环境贴图估计，为复杂反射效果建模提供了新思路。

2025-06-12 21:58:41 1860 1

原创【论文阅读笔记】GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces

本文针对3D高斯泼溅（3DGS）技术在反射场景重建中的不足，提出了GaussianShader方法。通过在高斯球面上引入简化着色函数，结合漫反射颜色、直接镜面光和残差颜色项，有效提升了反射表面的渲染质量。为解决离散高斯球面法线估计难题，创新性地利用最短轴方向作为法线基准，并联合法线残差与几何一致性约束进行优化。实验表明，该方法在保持实时渲染效率的同时，显著提升了反射场景的渲染质量（PSNR提升1.57dB），且训练速度远超Ref-NeRF等现有方法（23小时 vs 0.58小时）。这项研究为实时高质量反射场

2025-06-11 22:23:42 973 1

原创【论文阅读笔记】MoGe: 使用最优训练监督解锁开放域图像的精确单目几何估计

在计算机视觉领域，单目几何估计一直是一个重要的研究方向。本文介绍了一种新模型——MoGe，它能够从单目开放领域图像中恢复3D几何形状。MoGe通过引入最优训练监督，显著提高了几何估计的准确性和泛化能力。Authors: 中国科学技术大学，微软，哈佛，清华MoGe（Monocular Geometry）是一种强大的模型，能够从单张图像直接预测捕获场景的3D点图。该模型采用仿射不变表示法，消除了真实全局尺度和位移的影响。这一创新使得训练过程中避免了模糊的监督，从而促进了有效的几何学习。

2025-01-07 03:04:23 2362 1

原创【论文阅读笔记】LTX-Video: Realtime Video Latent Diffusion

近来看到两篇之一从VAE的角度来提升图与视频生成效果包括效率的文章。另一篇「todo」LTX-Video，一种基于变换器的潜在扩散模型，它通过无缝整合视频变分自编码器（Video-VAE）和去噪变换器的功能采用整体方法进行视频生成。LTX-Video 旨在优化它们之间的交互，Video-VAE，能够实现 1:192 的高压缩比，每个标记的时空下采样为 32×32×8 像素，这得益于将分块操作从变换器的输入迁移到 VAE 的输入。在这种高度压缩的潜在空间中，

2025-01-05 20:35:00 2068 1

原创【论文阅读笔记】IC-Light

ICLR 2025满分论文技术背景：基于扩散的图像生成器用于光照协调和编辑现有技术面临保持图像细节和固有属性的挑战创新方法：提出ICLight（一致光线传输）方法基于物体在不同光照条件下外观线性混合的物理原理主要优势：可处理大规模数据（>1000万）支持多种数据类型（真实场景、渲染样本等）兼容强大的模型架构（SDXL、Flux等）关键成果：实现稳定可扩展的光照学习只改变图像光照，保持其他属性不变减少不确定性和伪影（如材质不匹配）

2024-12-25 21:56:14 1187 1

原创【论文阅读笔记】Scalable, Detailed and Mask-Free Universal Photometric Stereo

给定未知空间变化的光照下的多个图像，可以直接恢复出非凸的、非朗伯曲面的详细表面法线。SDM-UniPS，一个开创性的可扩展、详细、无掩码和通用光度立体网络。可以恢复惊人的复杂表面法线贴图，与3D扫描仪的质量相媲美，即使图像是在不受控制的环境中未知的、空间变化的照明条件下捕获的。

2024-12-24 22:36:08 1716 2

原创【论文阅读笔记】Learning to sample

让我们将生成的点集表示为。

2024-12-23 16:34:13 1713 1

原创【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models

弥合封闭源视频基础模型和开源视频基础模型之间的差距，以加快社区探索。”——混元基础模型团队不愧是大组，下游任务刷了个遍，也做了非常丰富的实验。

2024-12-17 21:33:02 2085 1

原创【论文阅读笔记】VAR：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

VAR,视觉自回归的大突破

2024-12-12 21:57:56 2496 1

原创【论文阅读笔记】One Diffusion to Generate Them All

Authors：Allen Institute for AI（AI2）\ 加州大学欧文分校 \ 华盛顿大学。

2024-12-12 16:01:37 1404 1

原创【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

我们模型的一个自然问题是，为什么不仅仅是训练一个 GAN，它可以使用传统的设置一次性生成样本，而我们的模型通过迭代去噪生成样本。在图像生成中，我们观察到我们的模型获得了与扩散模型竞争的样本质量和模式覆盖率，同时只需要两个去噪步骤，与Song等人(2021c)在CIFAR-10上的预测器校正器采样相比，采样速度提高了约2000倍。为了说明这一点，在图 2 中，我们可视化了多模态数据分布的不同去噪步长的真实去噪分布。具体来说，我们的正向扩散的设置类似于Eq. 1中的扩散模型，主要假设T很小(T≤8)，

2024-09-10 17:10:18 2041 1

原创【论文阅读笔记】Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields

如图1所示，**我们可以看到MipNeRF呈现了高质量的渲染，但是，它的重建速度非常慢(最多约3天)，这极大地阻碍了适用性。工作线程致力于通过将场景分割成许多单元[42，43]来降低推理的复杂性，学习减少每条射线的样本[27，38]，或缓存训练字段值[20，17，56，6]来减少渲染中的计算。我们的 Tri-MipRF 生成的代理网格即使在复杂的结构细节中也呈现出高保真的质量，如图 4 (a) 的左侧所示，而 Instant-ngp [37] 和 NeuS [49] 产生的结果显示在右侧作为参考。

2024-08-11 16:00:21 1495

原创【论文阅读笔记】Meta 3D AssetGen

我们提出了 Meta 3D AsetGen (AssetGen)，这是文本到 3D 生成的重大进步，它产生了忠实、高质量的网格，具有纹理和材料控制。与在 3D 对象外观中烘烤阴影的作品相比，AsetGen 输出基于物理的渲染 (PBR) 材料，支持逼真的重新照明。AsetGen 使用分解阴影和反照率外观通道生成对象的前几个视图，然后使用延迟阴影损失重建 3D 中的颜色、金属度和粗糙度以进行有效监督。**它还使用符号距离函数更可靠地表示 3D 形状，并为直接形状监督引入了相应的损失。

2024-07-06 18:43:02 1472 1

原创【论文阅读笔记】HYPERHUMAN: HYPER-REALISTIC HUMAN GENERA-TION WITH LATENT STRUCTURAL DIFFUSION

1）我们高效的架构设计（仅添加轻量级分支）实际上可以在更小的数据集规模和更少的训练迭代下产生合理的结果，捕获 RGB、深度和表面法线的联合分布。此外，在最后的评估过程中，我们在不绘制的帮助下使用原始人体姿势，但仍然可以达到卓越的性能。我们将此视为一个有前途的研究问题，并将在未来的工作中对其进行探索。1）我们可以将我们的模型更改为更小的扩散主干，以节省计算和内存成本，例如 Small SD 和 Tiny SD (Kim et al., 2023)，与稳定扩散实现了相当的性能，但在训练和推理方面更轻、更快。

2024-07-06 17:16:13 1179 1

原创面试题合集（2）

Transormer 面试问题汇总

2024-05-27 18:12:50 978

原创【论文阅读笔记】InstantID : Zero-shot Identity-Preserving Generation in Seconds

现有的基于 ID 嵌入的方法，虽然只需要一个前向推理，但面临挑战：它们要么需要对众多模型参数进行广泛的微调，缺乏与社区预训练模型的兼容性，要么无法保持高人脸保真度为了解决这些限制，我们引入了 InstantID，这是一种强大的基于扩散模型的解决方案。我们的即插即用模块擅长仅使用单个面部图像处理各种风格的图像个性化，同时确保高保真度为此，我们设计了一种新的，通过施加强语义和弱的空间条件，将人脸和地标图像与文本提示相结合，引导图像生成。

2024-02-04 16:40:28 3730 2

原创【论文阅读笔记】Taming Transformers for High-Resolution Image Synthesis

旨在学习序列数据的远程交互，transformer继续在各种任务中展示最先进的结果。与 CNN 相比，它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力，但对于长序列(如高分辨率图像)也在计算上是不可行的。我们演示了如何将cnn的归纳偏差与变压器的表达能力相结合，使它们能够建模，从而合成高分辨率图像。我们展示了如何 (i) 使用CNN 来学习图像成分的上下文丰富的词汇进而 (ii) 利用transformer有效地对它们在高分辨率图像中的组成进行建模。

2024-02-02 21:25:47 3651 3

原创【论文阅读笔记】Advances in 3D Generation: A Survey

生成 3D 模型位于计算机图形学的核心，一直是几十年研究的重点。随着高级神经表示和生成模型的出现，3D 内容生成领域发展迅速，能够创建越来越高质量和多样化的 3D 模型。该领域的快速增长使得很难跟上所有最近的发展。在本次调查中，我们旨在介绍 3D 生成方法的基本方法并建立结构化路线图，包括 3D 表示、生成方法、数据集和相应应用。

2024-02-01 18:28:24 2173 1

原创【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

开发了一种潜在的扩散技术，其中我们学习了一个用于指导扩散过程的详细但极其紧凑的语义图像表示。与语言的潜在表示相比，图像的这种高度压缩的表示提供了更详细的指导，这显着减少了实现最先进结果的计算要求。(直观上理解就是文本的表示和图像的表示tokens一起作为条件引导图像生成)基于用户偏好研究提高了文本条件图像生成的质量。与稳定扩散 2.1 的200,000 GPU 小时相比，我们方法的训练需求由 24,602 A100-GPU 小时组成。我们的方法还需要较少的训练数据来实现这些结果。

2024-02-01 17:31:38 1530 2

原创【论文阅读笔记】Make-A-Character: High Quality Text-to-3D Character Generation within Minutes

定制和富有表现力的3D角色的需求越来越大，但传统的计算机图形学手动创建创建是昂贵的。提出了一个名为 Make-A-Character (Mach) 的用户友好的框架，以从文本描述中创建类似生命的 3D 化身。该框架利用大型语言模型的强大功能进行文本意图理解和中间图像生成，然后是一系列面向人类的视觉感知和 3D 生成模块。两分钟左右生成、可以和现有CG管道集成、可支持动画驱动。

2024-02-01 15:31:59 1577 1

原创【论文阅读笔记】NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

通过联合优化许多输入图像上的单个场景表示，NeRF对高水平的图像噪声具有惊人的鲁棒性。我们利用这一事实直接在完全未处理的HDR线性原始图像上训练RawNeRF。在这个仅由单个蜡烛 (a) 照明的夜间场景中，RawNeRF 可以从经过后处理 (b, c) 破坏的噪声原始数据中提取细节。RawNeRF 恢复完整的 HDR 颜色信息，使 HDR 视图合成任务成为可能，例如改变渲染新视图的焦点和曝光。生成的渲染可以像任何原始照片一样修饰：在这里，我们展示了 (d, left) 具有简单全局色调映射的暗全焦曝光和 (

2024-01-05 01:50:18 1745 1

网络调试助手，可用于模拟TCP客户端与服务端

空空如也