- 博客(22)
- 收藏
- 关注
原创 Extreme Views 的3DGS!
《ExtremeViews: 3DGS实时滤波器改善极端视角渲染质量》摘要 本文针对3D高斯泼溅(3DGS)在超出训练视角范围(OOD)时出现的渲染伪影问题,提出了一种无需重新训练模型的实时后处理滤波器。该方法通过旋转对齐的梯度敏感度分析,精准识别方向不稳定导致颜色突变的高斯元素,采用两步过滤机制(逐射线检测+逐高斯统计)剔除异常高斯。实验表明,该方法在DeepBlending等数据集上显著提升图像质量指标(NIQE↓62%),且保持60FPS的实时性能。核心创新在于解耦旋转与尺度梯度分析,有效处理传统方法
2025-10-24 19:10:25
601
原创 VQ-VAE 全指南:把“连续潜变量”变成“离散码本”
摘要:VQ-VAE是一种基于向量量化的变分自编码器,通过离散码本索引解决VAE中后验塌陷问题。其核心包括连续特征量化、Straight-Through梯度估计和三项损失函数(重建+码本回迁+commitment)。实践时先训练VQ-VAE,再在离散潜变量上训练自回归先验(如PixelCNN/WaveNet)。该方法适用于图像、语音和视频生成,优势在于稳定训练和高质量生成。代码实现需注意dead codes、量化尺度稳定等常见问题,可通过EMA更新和分层先验优化效果。
2025-09-20 12:15:11
898
原创 AD-GS:稀疏视角 3D Gaussian Splatting 的“交替致密化”,同时抑制浮游物与保留细节
AD-GS创新性地提出交替致密化策略,通过高低两种致密化阶段交替进行,有效解决稀疏视角下3D高斯泼溅(3DGS)的浮游物和几何失真问题。高致密化阶段专注细节恢复,低致密化阶段引入几何正则实现稳定。该方法在LLFF、Tanks&Temples等数据集上取得显著提升,SSIM和LPIPS指标均优于现有方法。关键创新在于将几何约束与细节恢复解耦到不同训练阶段,避免过平滑或细节丢失问题。实验表明,这种交替策略比单一方法能更好地平衡几何稳定性和细节保留。
2025-09-19 21:52:27
1017
原创 最优化方法(一)
本文简要介绍了线性规划的基本概念和求解方法。线性规划是运筹学中最基本的最优化方法,其标准形式包括目标函数和约束条件。主要解法有:1)图解法,适用于两个变量问题;2)单纯形法,通过迭代在可行域顶点间移动寻找最优解;3)内点法,从可行域内部逼近最优解。文章重点讲解了单纯形法的计算步骤,包括构造单纯形表、基变换等操作,并简要说明了其数学原理。最后提到内点法将在后续内容中详细讲解。
2025-09-05 11:07:03
786
原创 Deformable 3D Gaussians:把动态场景装进“可变形的静态世界”
【摘要】《可变形3D高斯:高保真单目动态场景重建》提出了一种新颖的动态场景建模方法。通过将动态场景分解为静态规范空间3D高斯和时变变形场,该方法在保持3DGS高效渲染优势的同时,实现了动态建模能力。关键技术包括:1)采用规范空间与变形场分离结构,避免4D高斯参数爆炸;2)引入多频率编码增强变形场的高频表达能力;3)设计两阶段训练流程(先静态后动态)确保稳定性;4)提出AST时间退火平滑策略,初期抑制高频噪声后期恢复细节。实验表明,该方法在动态场景重建质量和计算效率方面取得良好平衡。
2025-09-03 22:14:37
2375
原创 Mip-splatting
文章摘要:针对3D高斯泼溅(3DGS)在训练分辨率下表现良好但改变采样率时出现伪影的问题,研究者提出两个关键改进:1)引入3D频率约束,通过各向同性3D低通高斯卷积防止产生超带宽结构;2)用物理精确的像素足迹积分替代传统2D膨胀操作,更准确模拟针孔成像的积分过程。方法核心是保持能量守恒的同时限制高斯分布带宽,实验表明这种改进能有效消除缩放时的伪影问题。
2025-08-28 23:17:18
1272
1
原创 学生必看!AI wans —— 一起入门 Python 与深度学习的学习社群
【AI学习社群推荐】欢迎关注AIwans公众号!这是一个专为Python和AI学习者打造的成长型社群,提供:①零基础友好的Python教程;②深度学习系统学习路线(含神经网络/Transformer等);③持续更新的AI资料与社群互助。适合想入门AI的学生和初学者,帮助您从基础到进阶,找到学习方向、获取资源、结识伙伴。关注即可加入学习交流!
2025-08-24 19:39:45
327
原创 VAREdit:深度解读
本文提出VAREdit,一种基于视觉自回归建模的指令引导图像编辑方法。相比传统扩散模型,该方法通过多尺度自回归预测实现更精准的局部编辑,同时保持未修改区域不变。核心创新是Scale-Aligned Reference(SAR)模块,通过在第一层自注意力注入匹配尺度的源图像特征,解决了跨尺度条件失配问题。实验表明,该方法在编辑准确性(GPT-Balance提升30%+)和速度(512×512图像1.2秒)上均优于主流扩散方法。开源实现支持512/1024分辨率,为指令式图像编辑提供了高效可靠的解决方案。
2025-08-24 19:28:18
675
原创 文字详解Attention(无代码友好)
注意力机制是深度学习关键思想,推动 NLP、CV 及跨模态任务发展,为 Transformer 模型奠定基础,核心是模仿人类聚焦行为,处理信息时自动分配权重,重点关注关键部分,可用含 softmax 的公式分配注意力权重。它也被视作 “提纯的嵌入”,Self-Attention 像自适应滤波器,能让嵌入经上下文 “净化”,如结合 “吃” 可明确 “苹果” 指水果,实际通过加权求和实现。其用 Q、K、V 三矩阵,因无 Key 难定位、无 Value 难寻内容,三者分离高效灵活;K-V 一体会致信息解耦
2025-08-24 15:24:39
301
原创 VAR:自回归范式生成图像
《视觉自回归模型:通过下一尺度预测实现可扩展图像生成》论文摘要 北京大学与字节跳动联合团队提出的Visual Autoregressive Modeling(VAR)创新性地将NLP中的自回归范式应用于图像生成领域。该方法通过改进的视觉离散化器将图像转换为富有语义的token序列,结合多尺度并行预测机制,在保持生成质量的同时提升效率。VAR在ImageNet 256×256图像生成任务中表现优异,FID指标超越Diffusion Transformer(DiT)。该工作不仅展示了自回归方法在视觉领域的潜力,
2025-08-24 14:30:35
2345
原创 DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
DIFIX3D+提出了一种基于单步扩散模型的高效3D重建方法。传统3D重建技术如NeRF多依赖多步迭代优化,存在计算效率低的问题。该研究创新性地将单步扩散引入3D领域,通过联合建模几何与外观信息,结合伪标签生成和正则化策略,实现了快速高质量重建。实验表明,相比传统方法,DIFIX3D+在PSNR、SSIM等指标上表现更优,推理速度提升一个数量级,且在少视角场景下仍保持良好性能。这项工作为实时3D重建提供了新思路,展示了单步扩散模型在3D领域的潜力。
2025-08-21 23:14:37
1425
原创 StyleGAN:生成对抗网络的风格艺术家
摘要:NVIDIA在CVPR2019提出的StyleGAN通过创新架构解决了传统GAN特征纠缠和可控性差的问题。其核心创新包括:(1)映射网络将噪声z转换为解耦风格向量w;(2)自适应实例归一化(AdaIN)实现分层风格控制;(3)从粗到细的多级特征生成机制。实验表明StyleGAN能生成逼真且高度可控的图像,为人脸生成等领域带来突破。后续发展出StyleGAN2/3等改进版本,推动了生成模型的发展。该工作为AI创造性生成提供了重要范式。
2025-08-20 18:03:47
1305
原创 图像生成评价:客观与主观指标解析(2)
本文系统介绍了图像生成任务中的高级客观评估指标,包括感知相似性指标LPIPS、生成模型专用指标Inception Score(IS)和分布度量指标FID。LPIPS基于深度特征提取能更好反映人眼感知相似性;IS通过分类网络同时评估生成图像的清晰度和多样性;FID则通过比较特征空间的分布差异衡量生成质量。文章还讨论了主观评价方法的重要性及其实施挑战,并针对不同应用场景提出了指标组合建议。最后指出当前指标仍存在局限性,未来需要发展融合客观与主观评估的新型评价体系,特别是在多模态生成任务中。
2025-08-18 19:00:00
809
原创 条件生成对抗网络(CGAN)详解:从原理到应用
摘要:条件生成对抗网络(CGAN)通过在GAN框架中引入条件变量(如类别标签、文本描述等),实现了可控数据生成。相比传统GAN,CGAN能生成更符合条件约束的结果,并支持多模态任务。实验表明,CGAN在MNIST手写数字生成和图像自动标注任务中表现良好,但仍存在训练不稳定等问题。未来可通过多条件输入、联合语言模型等方式进一步优化。CGAN为后续条件生成模型发展奠定了基础。
2025-08-18 11:21:23
1057
原创 ICLR 2025 重磅:GRAM 用几何体积提升多模态对齐质量
ICLR 2025论文《GRAM:多模态表示学习与对齐的新方法》提出了一种创新的多模态对齐技术。传统方法依赖两两模态对齐,存在语义鸿沟和计算复杂度问题。GRAM利用Gramian体积度量多模态整体几何关系,通过设计基于Gram矩阵行列式的损失函数,实现了任意数量模态的统一对齐。实验表明,该方法在视频-音频-文本检索任务上带来5%-10%的性能提升,且具有更强的可解释性。GRAM的优势在于:1)支持多模态整体对齐;2)天然适应2-n个模态;3)保留完整的模态间语义关系。该方法在多模态检索、生成和医学诊断等领域
2025-08-18 08:00:00
1043
原创 Github实用项目推荐---Image-format-conversion-plugin图像格式转换插件
推荐开源项目Image-format-conversion-plugin,一款基于Python的轻量级图片格式转换工具。支持JPG/PNG/WEBP等常见格式批量互转,跨平台运行,无需复杂配置。通过简单命令行即可完成文件夹或单张图片转换,适用于科研数据处理、网站开发等场景。相比手动转换或付费工具,该项目免费开源、支持批处理、效率更高。核心基于Pillow库,项目结构简洁,易于二次开发。GitHub地址:https://github.com/Passwerob/Image-format-conversion-
2025-08-17 21:45:45
875
原创 CVPR 2025 论文解读:DiC —— 重新思考扩散模型中的 Conv3×3 设计
本文分享DiC,一种基于Conv3×3卷积的高效扩散模型架构。针对当前Transformer架构计算成本高的问题,DiC通过沙漏结构、稀疏跳跃连接和条件注入机制三大改进,在保持卷积高效性的同时提升性能。实验表明,DiC在ImageNet等数据集上优于DiT等Transformer方法,推理速度提高30-50%。该工作为高效扩散模型提供了新思路,适合实时生成和轻量化部署场景,具有重要的应用价值。
2025-08-17 17:23:35
1232
原创 用 Cursor Agent 搭建个人网站 | 从 0 到上线教程
本文介绍了使用CursorAgent+GitHub Pages快速搭建个人网站的详细教程。通过CursorAgent自动生成React+Tailwind网站代码,无需从零编写,再借助GitHub Pages免费托管服务实现一键部署。教程包含准备工作、创建项目、本地调试、部署上线等完整流程,并推荐了主题定制、作品集添加等个性化改造方案。这套组合方案具有免费、高效、易用等特点,特别适合搭建个人博客、作品集等展示型网站。作者还分享了个人网站实例和学习心得,推荐开发者尝试这一AI辅助建站方案。
2025-08-17 17:12:09
1501
原创 你再也找不到更详细的3DGS教程了 —— 一万九千字长文解析3DGS
3D高斯溅射(3DGS)是一种高效的体渲染方法,通过模拟雪球抛掷的物理过程(Splatting)将3D高斯分布投影到2D平面生成图像。与NeRF的射线追踪不同,3DGS主动计算发光粒子对像素的影响,其核心流程包括:选择高斯核、投影变换(使用雅可比矩阵近似处理非线性透视投影)、足迹渲染(alpha-blending合成图像)。该方法利用高斯函数的数学特性(闭合性、降维不变性)和GPU并行优化实现实时渲染。训练过程基于COLMAP初始点云,通过自适应密度调整和屏幕空间裁剪优化高斯参数,但存在透明度截断策略僵化、
2025-07-26 23:06:06
3113
2
原创 图像生成评价:客观与主观指标解析
本文系统梳理了图像生成任务的评价体系,分为客观指标和主观指标两类。重点解析了三种客观评价指标:1)基于像素级的MSE和PSNR,计算高效但忽略高层语义;2)结构相似性指数SSIM,通过亮度、对比度和结构三个维度模拟人类视觉感知,更符合实际需求。文章详细推导了各指标的数学原理,包括PSNR的信噪比计算和SSIM的三分量设计理念,并分析了各指标的应用场景和局限性。这些客观指标虽能实现自动化评估,但需结合任务特性选择,单一指标难以全面反映图像质量。
2025-07-22 19:11:18
951
原创 解码自编码器:从AE到VAE的奥秘
自编码器(AE)是一种无监督神经网络模型,由编码器和解码器组成,通过将输入数据压缩到低维潜在空间后重建来学习数据特征。本文以MNIST手写数字数据集为例,详细介绍了AE的实现过程,包括模型结构(全连接层)、训练目标(最小化重建误差)和代码实现。然而AE的潜在空间不规整,无法有效生成新样本。为此,变分自编码器(VAE)引入变分推断和重参数化技巧,通过假设潜在变量服从高斯分布并优化包含KL散度的损失函数,使潜在空间变得连续可解释,从而能生成新样本。文章对比了两种模型的差异,并提供了VAE的完整实现代码和训练示例
2025-07-20 16:38:54
1192
原创 从世界坐标到NDC空间
本文系统讲解了计算机图形学中的坐标变换流程:1.世界坐标系用于描述物体的绝对位置;2.通过视图变换将世界坐标转换为以相机为原点的相机坐标系;3.使用投影矩阵将3D点映射到2D裁剪空间,其中重点解析了透视投影矩阵的四个关键行及其作用;4.通过齐次除法将裁剪坐标转换为NDC标准立方体空间([-1,1]³),统一处理所有对象的坐标;5.最终将NDC坐标映射到屏幕像素空间。整个过程通过齐次坐标和矩阵变换实现了3D到2D的高效转换,为图形渲染管线奠定了数学基础。
2025-06-21 15:48:08
1259
1
Python大作业 手写数字识别(配好环境直接可跑,默认数据集下载)
2025-08-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅