3D技术
文章平均质量分 94
三维重建、深度估计论文速读
这张生成的图像能检测吗
方向:机器视觉,主攻目标检测、GAN图像生成、低照度图像处理、模型三维结构设计、单片机开发板控制。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Wonder3D: 跨域扩散的单图像3D重建技术
Wonder3D提出了一种高效的单视图图像到3D重建方法,通过跨域扩散模型生成多视角法线贴图和彩色图像,结合几何感知融合算法,在2-3分钟内输出高保真纹理网格。相比传统方法,其创新点包括:1)统一模型通过域切换器生成法线图和彩色图;2)跨域注意力机制确保多视角几何一致性;3)几何感知权重优化表面重建。实验表明,该方法在质量、速度和泛化性上均优于现有技术,为游戏、电商等领域提供了高效的3D生成方案。原创 2025-12-17 14:26:13 · 910 阅读 · 0 评论 -
(论文速读)具有深度引导交叉视图一致性的3D高斯图像绘制
本文提出3DGIC框架,通过深度引导实现跨视图一致的3D高斯图像修复。该框架利用预训练3D高斯模型渲染的深度图,智能优化各视角修复掩码,仅处理真正被遮挡的区域。核心创新包括:1)深度引导的掩码优化算法,确保不修改其他视角可见的背景;2)单参考视角高质量修复+多视角投影传播策略,保证几何一致性。实验表明,该方法在SPIn-NeRF等基准上显著优于现有方案(FID降低5.7%),在保留背景细节和跨视角一致性方面表现突出。研究为3D场景编辑提供了新思路,特别适用于VR/AR内容创作和影视后期制作。原创 2025-11-15 18:48:29 · 947 阅读 · 0 评论 -
(论文速读)Regor - 渐进式对应点再生实现鲁棒3D配准
本文提出了一种创新的渐进式对应再生器Regor,用于解决3D点云配准中极端异常值情况下的对应点质量问题。与传统"删除异常点"的方法不同,Regor采用"自下而上再生"策略,通过先验引导的局部分组、广义互匹配和中心感知三点一致性等技术,逐步生成高质量对应点。实验表明,在99%异常值率场景下,Regor能生成比现有方法多10-2000倍的正确对应点,配准成功率提升17.61个百分点,且对传统描述子也能实现88%以上的配准成功率。原创 2025-11-11 02:00:38 · 1049 阅读 · 0 评论 -
(论文速读)Fast3R:在一个向前通道中实现1000+图像的3D重建
Fast3R:突破性多视图3D重建方法,一种基于Transformer的新方法,可在单次前向传播中处理1000+图像的3D重建。针对现有DUSt3R方法在扩展性、计算效率和错误累积方面的局限,Fast3R通过创新性地引入图像索引位置编码和位置插值技术,实现了多视图并行处理。实验表明,Fast3R在CO3D数据集上达到99.7%的相机姿态估计精度,处理速度比DUSt3R快320倍。该方法在保持重建精度的同时显著提升了计算效率,为大规模3D重建应用提供了可行解决方案。原创 2025-11-07 17:22:02 · 870 阅读 · 0 评论 -
SGV3D:面向基于视觉的路边3D目标检测的场景泛化
摘要:SGV3D提出了一种创新的基于视觉的路边3D物体检测场景泛化框架,解决了现有方法在新场景下性能骤降的问题。该框架采用背景抑制模块(BSM)减少BEV投影中的背景特征过拟合,并引入半监督数据生成管道(SSDG)利用未标记图像生成多样化训练样本。在两个大规模路边基准测试中,SGV3D显著提升了场景泛化能力,跨场景测试中车辆检测准确率提升42.57%,而计算开销仅增加约3%。该研究为智能交通系统中路侧感知的实际部署提供了有效的解决方案。原创 2025-11-06 21:31:19 · 761 阅读 · 0 评论 -
(论文速读)CUT3R:具有持续状态的连续三维感知模型
CUT3R:CVPR2025提出的新型3D感知框架,通过持续更新的状态表示实现连续3D场景理解。该模型采用持久状态机制和双向Transformer架构,能在线处理任意长度的图像序列(视频或无序照片),直接输出度量尺度的3D点云和相机位姿。其创新性体现在虚拟视角推理能力,可预测未观测区域的3D结构。实验表明,CUT3R在深度估计、位姿估计和3D重建等任务上均达到SOTA性能,且处理速度比传统方法快47倍。特别适用于动态场景处理和稀疏观测下的3D重建,为AR/VR、机器人导航等应用提供了高效解决方案。原创 2025-11-01 12:47:18 · 911 阅读 · 0 评论 -
(论文速读)野外极端旋转估计
本文提出了一种基于Transformer的方法ExtremeRotation,用于估计无重叠视野的互联网图像间的极端3D旋转关系。针对现有方法依赖合成数据、难以适应真实场景多样性的局限,研究团队贡献了首个真实世界极端视角数据集ExtremeLandmarkPairs(ELP),包含8万组从互联网照片中提取的图像对。通过创新的四阶段渐进式训练策略(包括视场角增强和外观增强),该方法在野外测试集上显著优于基线模型,在零重叠场景中将中位旋转误差从82°降至26.97°。该工作为稀疏视图3D重建等应用奠定了基础。原创 2025-11-01 12:46:58 · 1340 阅读 · 0 评论 -
(论文速读)Mask-SL RCNN:特征增强的点云三维目标检测网络
Mask-SLRCNN,一种特征增强的3D点云目标检测网络,解决了传统方法特征提取不完整和ROI区域语义特征不足的问题。该方法包含三个创新:1)改进的最远点采样(M-FPS)增强点级特征;2)球面邻域全局特征层(SL)补充全局特征;3)基于顶点注意力的网格池化层挖掘ROI边界特征。在KITTI数据集上,相比PointRCNN,该方法在行人检测上取得显著提升(简单场景mAP提高6.32%),整体检测精度提升0.67%-2.66%。研究为小目标检测提供了有效解决方案。原创 2025-10-30 14:44:37 · 777 阅读 · 0 评论 -
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理
CVPR 2025发表的InteractVLM提出了一种创新方法,通过2D视觉语言模型实现从单张图像估计3D人-物接触点。该研究解决了传统方法依赖昂贵3D标注数据的局限性,首创"渲染-定位-提升"三阶段框架:先将3D物体多视图渲染为2D图像,训练多视图定位模型预测2D接触,最后反向投影至3D空间。实验表明,仅需1%训练数据即可超越现有方法,在接触估计任务上F1分数提升20.6%,并首次实现语义级接触识别。原创 2025-10-24 14:04:08 · 1012 阅读 · 0 评论 -
(论文速读)开放词汇3D场景理解的掩蔽点-实体对比
MPEC(MaskedPoint-EntityContrast),用于开放词汇3D场景理解。该方法通过跨视图掩码对比学习,实现3D实体与语言的对齐,同时保持点-实体一致性,从而提升语义区分能力。实验表明,MPEC在ScanNet开放词汇3D语义分割任务中达到最先进水平,并在零样本学习和多个下游任务中展现出优异的泛化能力。该方法突破了传统2D视觉模型的局限,为3D场景理解提供了新的解决方案。项目地址:https://mpec-3d.github.io。原创 2025-10-24 14:03:32 · 842 阅读 · 0 评论 -
(论文速读)SynShot: 使用合成数据先验实现少样本可驱动头部头像重建
SynShot方法,仅需3张输入图像即可构建高质量3D可驱动头部头像。该方法创新性地完全使用合成数据训练生成式先验模型,通过2000个虚拟身份、1400万张图像构建数据集,解决了真实数据采集的隐私和成本问题。关键技术包括:身份-表情特征分离建模、自适应区域细节分配(皮肤/头发差异化处理)、两阶段微调策略(10分钟完成虚拟到真实域适应)。实验显示,SynShot在LPIPS指标上以0.0236优于次优方法3.6倍,能有效处理长发胡须等复杂特征,但牙齿细节和动态皱纹仍有改进空间。原创 2025-10-23 16:08:53 · 912 阅读 · 0 评论 -
(论文速读)VGGT: 视觉几何接地变压器
VGGT提出了一种基于Transformer的统一神经网络框架,能够直接从单张或多张图像中推断出场景的所有关键3D属性(相机参数、点云、深度图和3D轨迹)。该方法突破了传统3D重建方法需要复杂几何优化和任务特化的限制,采用交替注意力机制和超完备预测策略,在保持高效推理(1秒内完成重建)的同时,在多个3D任务上达到SOTA性能。实验表明,VGGT不仅显著优于传统优化方法,作为预训练特征提取器还能有效提升下游任务表现。该工作为3D计算机视觉开辟了从几何优化到神经推理的新范式,具有重要的理论价值和实际应用前景。原创 2025-09-04 11:13:21 · 1474 阅读 · 0 评论 -
(论文速读)BlenderGym:图形编辑的基准基础模型系统
BlenderGym,首个针对3D图形编辑的视觉语言模型(VLM)基准测试系统。该平台通过245个基于代码的3D重建任务评估VLM在物体放置、几何编辑等5个核心领域的表现。研究发现:1)当前VLM与人类Blender用户存在显著差距;2)推理时间缩放不仅提升生成器性能,还能优化验证器效果;3)计算资源在生成与验证间的最优分配比例随预算变化。实验评估了13个主流VLM,揭示了代码生成与视觉差异不匹配等关键失败模式。该研究为3D图形编辑AI提供了标准化评估框架,并提出了计算资源优化策略。原创 2025-09-01 10:36:32 · 1298 阅读 · 0 评论 -
(论文速读)3DTopia-XL:高质量3D资产生成技术
3DTopia-XL,一种基于原始扩散的可扩展3D生成模型,通过创新PrimX表示法将3D形状、纹理和材质编码为紧凑张量,结合分层扩散架构实现高质量3D资产的高效生成。相比现有方法,3DTopia-XL在生成速度(1.5分钟/模型)、几何精度(Chamfer Distance降低82%)和物理渲染质量上均有显著提升,支持文本/图像到具有PBR属性的3D内容转换。实验表明其性能优于主流方法,能直接输出影视级3D资产,为游戏、VR等行业提供实用化解决方案。原创 2025-09-01 10:36:03 · 957 阅读 · 0 评论 -
(论文速读)NeRF: 用神经辐射场重新定义视图合成
NeRF(神经辐射场)提出了一种创新方法,将3D场景表示为连续5D坐标(空间位置+视角方向)到颜色和密度的神经函数映射,通过可微分体渲染实现高质量新视角合成。该方法利用位置编码捕获高频细节、层次化采样优化计算,仅需稀疏输入视图即可生成复杂场景的逼真渲染,在PSNR等指标上显著优于传统方法。尽管存在计算成本高的局限,NeRF开创了神经场景表示的新范式,为计算机视觉和图形学带来突破性进展,其5MB的紧凑模型大小相比传统方法实现了3000:1的存储效率提升。原创 2025-08-30 08:32:39 · 1293 阅读 · 0 评论 -
(论文速读)FloVD:光流遇见视频扩散模型,开启相机控制视频生成
FloVD:光流与视频扩散模型融合实现精准相机控制视频生成 CVPR 2025论文提出创新视频生成框架FloVD,通过光流技术解决现有视频扩散模型在相机控制方面的局限性。该框架采用两阶段处理流程:首先利用光流精确表示相机和物体运动,再基于流条件合成视频。核心创新包括:1)无需真实相机参数,直接从视频估计光流;2)背景光流编码3D相关性实现精确相机控制;3)独立物体运动合成模块生成自然前景运动。原创 2025-08-25 11:07:11 · 1613 阅读 · 0 评论 -
(论文速读)FrugalNeRF:极少样本下的高效3D场景重建
《FrugalNeRF:无学习先验的极端少样本新视角合成快速收敛方法》提出了一种创新解决方案,用于解决神经辐射场(NeRF)在极少量输入图像(2-4张)时的过拟合和训练效率问题。该研究通过权重共享多尺度体素表示和跨尺度几何自适应机制,实现了不依赖外部预训练模型的高效3D重建。实验表明,FrugalNeRF在LLFF和DTU数据集上PSNR分别达到18.07和19.72,同时将训练时间从数小时缩短至6-10分钟,显著提升了极少量样本场景下的重建质量和效率。原创 2025-08-25 11:06:40 · 1183 阅读 · 0 评论
分享