- 博客(95)
- 收藏
- 关注
原创 2025 | 南洋理工等提出Light-X,单目视频也能一键换视角与光影!
Light-X这篇论文成功地提出了首个能够对单目视频同时进行相机视角和光照联合控制的生成框架。其核心理论贡献在于巧妙地设计了一套解耦机制,利用动态点云分别承载几何与光照信息,从而将复杂的控制问题简化。在实验上,通过创新的Light-Syn数据合成管线,模型得以在多样化的数据上进行有效训练,并在联合控制与视频重打光两个任务上均取得了超越现有方法的优异表现。这项研究极大地推动了可控视频生成技术的发展,为未来在影视特效、虚拟现实、内容创作等领域的实际应用铺平了道路。
2025-12-08 16:18:08
883
原创 Neurips2025现场:5篇Oral 炸场,Diffusion 成顶流,扩散从图像卷到语言运动,何恺明都在做!
针对现有运动生成模型在复合序列片段过渡不连续的问题,提出Compositional Phase Diffusion框架,通过SPDM和TPDM模块,在ACT-PAE构建的潜在运动频域中融入语义引导与相邻片段相位细节,学习变长运动片段的语义及过渡相位信息,生成语义对齐且过渡连续的复合运动序列,还可实现运动插值。针对REPA未充分利用判别性表征的问题,提出REG方法,将低层级图像隐变量与预训练模型的高层级类token纠缠用于去噪,在ImageNet上验证其提升生成质量与训练效率的效果,仅引入可忽略的推理开销。
2025-12-05 14:18:56
571
原创 AAAI 2026 Oral 精选:无需训练缓解大模型幻觉,多模态地图生成颠覆传统方案!
AAAI人工智能会议(AAAI Conference on Artificial Intelligence)是人工智能领域的重要国际会议,是CCF-A类推荐会议。AAAI2026将于2026年1月20日-27日在新加坡举办。今年共有23680篇论文投稿,最终4167篇论文接收,录用率17.6%。目前部分论文已公开,小编精选十几篇CV方向论文,希望对大家有所帮助,有需要自取即可。
2025-12-03 17:05:27
684
原创 硬刚潜空间!英伟达&罗切斯特大学发布PixelDiT,用1.61的FID证明:像素级生成才是未来!
本文提出了一种名为PixelDiT的纯Transformer架构,成功地实现了在像素空间进行高效、高质量的图像生成。实验证明,通过双层级设计解耦语义与纹理,并利用像素级调制和令牌压缩等创新技术,像素空间模型可以克服计算瓶颈,在图像保真度和细节表现上展现出优于潜空间模型的潜力。阻碍像素空间生成模型发展的并非表示空间本身,而是缺乏高效的建模架构。PixelDiT为未来的生成模型研究开辟了一条新的、充满希望的道路。
2025-12-02 17:21:52
579
原创 爆款预定:NeurIPS 2025 顶会爆款!吴恩达团队 DeepCluster++ 框架,让 CRC 病理 AI 泛化性碾压现有方案!
今天给大家分享一下吴恩达团队NeurIPS 2025新作:STARC-9。随着数字病理普及,深度学习驱动的多类别组织分类成为核心基础任务,可支撑多种下游应用并减轻医生负担。但现有公开 CRC 数据集存在形态多样性不足、类别不平衡、含错标或低质量切片等痛点,且传统人工标注数据集耗时主观,缺乏标准化构建框架,严重阻碍鲁棒 AI 模型开发。为此,吴恩达团队推出大规模高质量数据集 STARC-9 与 DeepCluster++ 框架,旨在破解上述困境,为 CRC 病理 AI 研究提供可靠数据支撑。
2025-12-01 16:36:42
941
原创 Nature正刊!复旦科研版凡人修仙传:26岁博士攻克裸眼3D数十年难题,超100°视场角创纪录!
本科就读于郑州大学通信工程专业的马炜杰,因对计算机与人工智能的热爱,大二便主动加入学校服务机器人实验室,如饥似渴地补充专业知识。凭借项目实践中积累的经验,他随团队征战机器人世界杯大赛,多次夺冠并斩获2019年亚太邀请赛冠军,坚定了深耕AI领域的决心。硕士阶段,他在香港中文大学(深圳)精进科研思维与抗压能力,更因赴浙江大学重点实验室访问的契机,在陈昊老师指导下入门三维计算机视觉,点燃了科研热情。硕士毕业后,马炜杰加入上海人工智能实验室、复旦大学与上海创智学院的联合培养项目,师从欧阳万里教授与钟翰森研究员。
2025-11-28 16:39:55
788
原创 AAAI 2026|厦大提出NFA-ViT:现有模型在BR-Gen上集体翻车?它却稳稳领先!
本文直面当前AI生成图像检测领域的一个核心短板——对背景、环境等非物体区域的局部篡改检测能力不足。通过构建一个名为BR-Gen的大规模、高质量数据集,论文成功地量化并暴露了现有方法的局限性。在此基础上,本文提出的NFA-ViT模型,通过一种创新的噪声引导伪造放大机制,能够敏锐地捕捉并放大那些容易被忽略的微弱伪造线索,实现了在检测和定位任务上的双重领先。这项研究不仅为社区提供了一个极具价值的评测基准,也为未来开发更鲁棒、更通用的伪造检测技术指明了新的方向。
2025-11-27 17:46:36
900
原创 AAAI 26 Oral | 预判你的预判!浙大&上海AI Lab发布RacketVision,用交叉注意力精准预测击球后轨迹!
本文的主要理论贡献是通过构建RacketVision这一新颖的、跨越多项运动的数据集,首次将球拍姿态分析引入到传统的球类运动视觉研究中。实验上,本文最重要的结论是:虽然球拍信息对预测球的轨迹至关重要,但必须使用如交叉注意力这样高级的融合策略才能有效利用它,简单的信息堆砌反而会损害模型性能。这项研究为体育分析领域提供了宝贵的资源和全新的视角,它不仅推动了更精准的运动员表现分析和战术拆解,也为研究动态场景下复杂人-物交互的通用计算机视觉模型提供了坚实的实验平台。
2025-11-26 17:25:57
307
原创 NeurIPS 2025 | 一张图打穿ImageNet!MIT提出线性梯度匹配,训练成本暴降!
本文成功地定义并解决了一个全新的问题:如何为强大的预训练视觉模型蒸馏出小而精的数据集。论文提出的线性梯度匹配方法,通过巧妙地匹配线性分类器的梯度,生成了信息密度极高的合成图像。实验证明,这些仅有“每类一张”的合成图像,其训练效果远超真实图像基准,并能在不同模型间泛化。此外,这项研究还揭示了蒸馏图像可作为一种新颖的工具,用于洞察和理解模型的内部工作机制与潜在偏见。
2025-11-25 17:29:23
344
原创 CV论文速递:覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向 (11.17-11.21)
本周精选10篇CV领域前沿论文,覆盖视频生成与理解、3D视觉与运动迁移、多模态与跨模态智能、专用场景视觉技术等方向。全部300多篇论文已经整理好,感兴趣的自取!
2025-11-24 17:10:35
1079
原创 Meta引爆3D革命!SAM 3D 发布:单张图秒建3D模型,AR/VR、游戏圈炸锅!
SAM 3D成功地将大语言模型中成熟的多阶段训练和对齐范式迁移到了3D视觉领域,证明了结合大规模合成数据预训练和精细化真实世界数据对齐是克服3D数据瓶颈的有效路径。
2025-11-21 17:39:26
992
原创 ICML AI4Math 最佳论文+NeurIPS 2025 Oral 满分!清华LeapLab:RLVR的巨额投入可能白砸了!
NeurIPS唯一满分论文(四审稿人全给6分)由清华大学LeapLab团队(黄高老师领衔)完成,其抛出的颠覆性结论引发行业震动。真正决定大模型推理上限的是基座模型本身而非强化学习,蒸馏比RLVR(可验证奖励的强化学习)更有望实现模型自我进化——这一观点给作为OpenAI-o1、DeepSeek-R1等主流模型核心驱动力、被视为模型自我进化终极路径的RLVR泼了冷水,也让当前围绕RLVR的巨额投入与探索意义引发热议。相关论文已开源,如有需要可自取!
2025-11-20 16:39:25
1041
原创 2025 | 哈工大&鹏城实验室等提出 Cascade HQP-DETR:仅用合成数据实现SOTA目标检测,突破虚实鸿沟!
这篇论文成功地解决虚拟监督目标检测领域面临的几个核心难题。在理论上,它提出了一套完整且自动化的流程来生成高质量的合成数据,并将虚拟监督学习推向了全监督的新高度。同时,设计的HQP引导查询编码和级联去噪算法,为解决DETR类模型在跨域(从虚拟到现实)应用中的泛化和噪声鲁棒性问题提供了创新的架构方案。在实验上,模型仅依靠合成数据训练,就在真实世界的基准测试中取得了当前最优的性能,并且训练效率远高于此前的模型。
2025-11-18 17:42:55
937
原创 CV论文速递:覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化等方向(11.10-11.14)
本周精选10篇CV领域前沿论文,覆盖医疗与生物医学影像、觉定位与多智能体轨迹预测、多模态与视觉-语言模型优化、生成模型与域自适应等方向。全部300多篇论文皆可自取。
2025-11-17 15:22:35
902
原创 AAAI 2026 Oral 之江实验室等提出MoEGCL:在6大基准数据集上刷新SOTA,聚类准确率最高提升超8%!
本文针对多视图聚类中普遍存在的粗粒度信息融合问题,提出了一个名为MoEGCL的创新框架。理论上,它通过MoEGF模块实现了前所未有的样本级动态图融合,并设计了EGCL模块来优化对比学习的目标,使之更符合聚类任务的本质。实验上,模型在六个基准数据集上全面超越了当前最先进的方法。这项研究对后续工作的启示在于,未来的多视图学习可以更多地关注样本间的异质性,设计更为精细和动态的融合策略,而不仅仅停留在视图层面。
2025-11-14 17:23:39
1170
原创 计算机视觉是否已经进入瓶颈期?别被“刷榜放缓”骗了,真正的战场才刚开始!
本文提出了VESSA,一个简单而高效的无监督适配框架,它成功地利用了以物体为中心的短视频,来让强大的视觉基础模型适应新的专业领域。通过引入不确定性加权损失和一套精心设计的“预热-差分”微调策略,VESSA有效克服了无监督微调中常见的模型性能退化问题。实验证明,该方法在多个数据集和模型上都取得了稳定的性能提升。这项研究为如何在缺乏标签数据的情况下,低成本、高效率地应用和扩展视觉基础模型,提供了一个极具价值和实践意义的新思路。
2025-11-13 17:16:36
718
原创 谢赛宁团队最新力作!CLM炸穿3DGS内存天花板!单卡4090驱动1亿高斯,重建质量拉满!
CLM以3DGS计算稀疏性与空间局部性为核心洞察,通过属性级卸载(GPU存关键属性、CPU存非关键属性)、微批流水线(含缓存复用、CPU Adam重叠、TSP调度)等创新设计,成功打破GPU内存壁垒。其无需多GPU或牺牲质量,仅用单块消费级GPU(如RTX 4090)即可训练含1.02亿高斯体的大型场景,重建质量达当前最优,且性能逼近纯GPU方案,为3DGS规模化应用提供了高效可行的解决方案。
2025-11-12 17:10:29
960
原创 CV论文速递:覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集等方向(11.03-11.07)
本周精选12篇CV领域前沿论文,覆盖视频理解与生成、跨模态与定位、医学与生物视觉、图像数据集与模型优化等方向。全部200多篇论文感兴趣的自取!
2025-11-10 16:15:20
899
原创 2025 | 牛津&中科等强强联手推出 VCode:图像秒变代码,多模态性能暴涨12.3点!
本文的核心结论是,现有的多模态大模型虽然在语言任务上表现出色,但在将真实世界的图像转化为忠实的、符号化的SVG代码方面能力还很欠缺。论文提出了一个全新的基准VCode来度量这种“视觉编码”能力,并设计了VCoder框架,通过“迭代修正”和“调用外部视觉工具”两种方式,显著提升了模型在该任务上的表现。这项研究告诉我们,未来的多模态模型不仅要能“看懂”图像,更要能用一种结构化的、可执行的语言(如SVG)来“复述”和“推理”图像内容,这为研发更智能、更像人一样思考的AI提供了新的启示。
2025-11-07 18:19:00
698
原创 NeurIPS 25 华中科大&国防科大提出NAUTILUS:突破深海视觉边界,首个水下多模态大模型问世!
此外,对于水下生物多样性的挑战,未来可以尝试将零样本学习(zero-shot learning)或小样本学习(few-shot learning)能力融入模型,使其在面对未知物种时也能做出合理的识别和描述,这对于真正的海洋探索应用至关重要。例如,在低光和浑浊场景下,NAUTILUS (LLaVA-1.5) 的性能提升分别高达7.5和8.1 PR@0.5,充分证明了其在复杂多变的水下环境中的强大适应能力。相比之下,NAUTILUS的。它不仅贡献了一个宝贵的数据集和强大的基线模型,更重要的是,它展示了。
2025-11-06 16:25:46
826
原创 NeurIPS 2025 香港理工&OPPO&哈佛等提出DNAEdit:革新文生图编辑的直接噪声对齐框架!
在理论上,它创新性地设计了“直接噪声对齐”(DNA)来替代传统的反演过程,从根本上解决了误差累积问题,从而获得高度精确的结构化噪声。例如,与同样表现不俗的FTEdit相比,DNAEdit在保持相似的整体CLIP相似度的同时,拥有更好的背景保真度,并且在编辑区域的CLIP得分更高(22.71 vs 22.27),说明它在精确编辑的同时更好地保护了非编辑区。的定性比较结果更加直观。通过这种方式,DNAEdit显著提升了图像编辑的保真度和准确性,能够在保留原始图像背景和结构的同时,精准地完成各种复杂的编辑任务。
2025-11-05 17:52:22
325
原创 ICCV 2025 | 卡内基梅隆大学空间变化自动对焦:基于双像素传感器,一次拍摄校正所有区域焦点!
本文从理论和实验上证明,通过设计一种可编程的计算镜头,可以实现前所未有的空间变化自动对焦能力。其核心结论是,这种方法能够直接在相机传感器上光学地生成一张所有物体都清晰的全对焦图像,避免了传统计算方法对多张照片的依赖和可能引入的图像质量损失。实验数据也证实了该方法(特别是基于相位的 PDAF 版本)在成像质量和效率上相较于现有技术具有显著优势。
2025-11-04 17:14:02
720
原创 CV论文速递: 覆盖医学影像分析、视频理解与生成、3D场景理解与定位等方向! (10.27-10.31)
本周精选12篇CV领域前沿论文,覆盖医学影像分析、视频理解与生成、3D场景理解与定位、视觉安全与实用场景应用等核心方向。全部200多篇论文感兴趣的自取。
2025-11-03 17:48:44
1088
原创 CVPR 2025 |缺陷检测新纪元!双域Transformer刷新三大数据集SOTA!
此外,模型的性能在多大程度上依赖于所选的小波基函数,以及原型数量的设置,也是未来可以深入研究的方向。例如,在ESDIs-SOD数据集上,相比于同样是基于查询的先进方法PEM,本文方法在平均绝对误差(M)上降低了13.6%,在加权F-measure(上图(图4)的F-measure曲线显示,在绝大多数阈值下,本文方法的曲线都位于其他方法的上方,表明其在各种置信度下都能保持稳健和优越的性能。在空间域,如果让查询与图像的所有像素特征进行交互,会引入大量无关的背景信息,干扰模型对缺陷的判断。
2025-10-31 16:45:56
1062
原创 2025 | 北大&阿里等提出UniLIP:小模型大能力,多模态任务全打通!
本文旨在解决现有基于CLIP的统一多模态模型在“理解”与“重建”能力间难以平衡的问题。现有方法或因特征量化而牺牲语义,或因解码器不一致而影响生成保真度。为克服此挑战,论文提出UniLIP框架,其核心技术贡献包括:1)一种新颖的两阶段训练方案,结合自蒸馏损失,使CLIP在保持强大理解能力的同时获得高保真图像重建能力;2)一个为生成与编辑任务设计的双条件架构,该架构联合**多模态大语言模型(MLLM)**的隐藏状态和查询嵌入(query embeddings)共同指导扩散过程,以增强推理和一致性。
2025-10-30 16:21:36
897
原创 ICLR 2025 | 颠覆!NBP方法推翻传统NBV,复杂室内建图效率飙升!
本研究旨在解决主动3D建图问题,即智能体如何找到一条最高效的轨迹来完全重建一个未知场景。现有方法因其短视的决策模式,容易在复杂环境中陷入局部,且缺乏足够复杂的基准数据集进行评估。为克服这些瓶颈,本文贡献了两个核心成果:提出了一个名为AiMDoom的全新室内场景数据集,通过程序化生成不同几何复杂度的地图,为主动建图研究提供了更具挑战性的基准。提出了一种名为“下一最佳路径(NBP)”的新方法,该方法通过一个统一模型,共同预测指向长期目标的累计表面覆盖增益和环境障碍物,从而规划出最优的探索路径。
2025-10-29 14:53:39
1630
原创 TIP 2025 | 重磅!佛山大学&香港科大等提出UMCFuse,实现复杂场景图像完美融合!
本文旨在解决现有IVIF方法在复杂场景(如恶劣天气、噪声、过曝、火焰等)中性能不佳的问题。为填补这一空白,论文提出了一个名为UMCFuse的统一融合框架。其核心技术贡献在于,首先根据光传输散射程度对可见光图像像素进行分类,从而将精细细节与整体强度分离;其次,为平衡干扰去除与细节保留,提出了一种针对细节层的自适应去噪策略;同时,通过多方向分析来融合来自不同模态的能量特征。
2025-10-28 16:41:22
850
原创 CV论文速递:覆盖3D视觉与场景重建、视觉-语言模型(VLM)与多模态生成等方向!(10.20-10.24)
本周精选12篇CV领域前沿论文,覆盖3D视觉与场景重建、视觉-语言模型(VLM)与多模态生成、视频处理与视觉任务优化、视觉应用与安全防御等核心方向。全部200多篇论文感兴趣的自取。
2025-10-27 16:27:15
840
原创 ICCV 2025 | 武大DVISDepth:深度感知突破外观瓶颈,EDC方法刷新OVIS纪录!
该论文旨在解决视频实例分割(VIS)在面对物体遮挡、运动模糊和剧烈外观变化时,因仅依赖RGB信息而导致的跟踪失败和身份错配问题。为此,研究的核心技术贡献是系统性地探索了三种将单目深度估计与VIS框架融合的范式:1)扩展深度通道(EDC),将深度图作为第四个输入通道;2)共享ViT (SV),让深度估计与分割分支共享一个ViT骨干网络;3)深度监督 (DS),利用深度预测作为辅助监督信号。关键结论是,EDC和SV方法能显著增强VIS的鲁棒性。
2025-10-24 15:39:25
1081
原创 封神之作!CMU的BRICKGPT让文本生成3D积木稳了,喜提ICCV 2025最佳论文!
教育背景:本科毕业于滑铁卢大学(计算机科学与组合优化双学位),卡耐基梅隆大学(CMU)计算机科学在读博士,师从Jun-Yan Zhu教授。研究方向:跨计算机视觉、计算机图形学与人工智能领域,核心探索“如何让AI不仅在计算机中发挥作用,更能落地物理世界”。研究主页:https://avapun.com/
2025-10-23 17:17:45
1109
原创 24.2% 录用率的精华!ICCV2025 Oral 64 篇顶论文,12 大方向引领AI新浪潮!
作为全球计算机视觉领域的顶尖学术盛会,备受业界与学界瞩目的国际计算机视觉大会(ICCV 2025),将于2025年10月19日至23日在美国夏威夷檀香山璀璨启幕。据官方披露,本届大会创下历史新高的投稿规模,共收到11,152篇有效学术论文;经过多轮严苛的同行评审与层层筛选,最终2702篇高质量成果脱颖而出,整体录用率约为24.2%。这一极具竞争力的筛选比例,不仅彰显了ICCV在领域内的核心学术地位,更确保了登台亮相的每一项研究都代表着当前计算机视觉领域的顶尖水准与前沿探索方向。
2025-10-22 17:17:15
1030
原创 TPAMI 2025 | 从分离到融合:新一代3D场景技术实现双重能力提升!
该研究旨在解决现有3D场景生成方法与下游感知任务分离、依赖真值标签、缺乏灵活性和精细约束的问题。核心贡献是提出了 OccScene,一个统一了3D场景感知与生成的相互学习框架。该框架在一个联合扩散过程中,利用感知模型预测的语义占据作为先验,指导文本驱动的场景生成,同时,生成的多样化数据也反哺感知模型的训练。关键技术是一种名为Mamba的模块,它高效地对齐了语义占据信息和扩散模型的潜在特征,确保了跨视角生成的一致性和精细的几何语义引导。
2025-10-21 17:03:48
1078
原创 CV论文速递:涵盖视频生成、视觉理解、图像表征、3D视觉等核心方向!(10.13-10.17)
本周精选10篇时间序列领域前沿论文,覆盖4个时序方向:时间序列预测与泛化能力优化,时序数据驱动的跨领域应用,时间序列异常检测与事件预测,时间序列推理与不确定性量化方向。源码和论文感兴趣的dd。
2025-10-20 17:21:42
1010
原创 AAAI 2025 | TBSN:基于Transformer的盲点网络在自监督去噪中的应用!
本文旨在解决将Transformer架构应用于自监督图像去噪的盲点网络时,标准自注意力机制会违反盲点假设的核心问题。为此,论文提出了一种名为TBSN的新型网络架构。其核心技术贡献在于对通道和空间自注意力机制进行了专门的重新设计:1)提出了分组通道自注意力(G-CSA),通过将通道分组并独立进行注意力计算,有效避免了在多尺度网络中因下采样导致的盲点信息泄露;2)引入了掩码窗口自注意力(M-WSA),通过对注意力矩阵施加一个固定的稀疏掩码,使其感受野模拟扩张卷积,从而在空间上严格维持盲点。
2025-10-17 15:01:14
922
原创 TPAMI 2025 华科大&大疆等联合发布LLF-LUT++:13毫秒处理4K图,性能效率双突破!
该研究旨在解决高分辨率照片实时增强的难题,即现有方法要么性能强大但无法部署于边缘设备,要么计算高效但增强效果不足。为应对此挑战,论文提出了一种名为LLF-LUT++的金字塔网络框架。其核心技术贡献在于:1) 结合拉普拉斯金字塔分解与重构,将全局色调处理与局部细节增强分离;2) 提出一种双重权重融合策略,利用一个新设计的空间-频率Transformer权重预测器,为低分辨率图像生成像素级权重图,为高分辨率图像生成全局权重锚点,以驱动3D LUT进行全局增强;
2025-10-16 16:51:13
450
原创 TPAMI 2025 | 华中科大&百度提出PointGST:点云微调进入“谱域时代”,性能反超全量微调!
本文旨在解决预训练点云模型全量微调(FFT)带来的高昂存储和计算成本问题。为此,论文提出了一种全新的参数高效微调(PEFT)方法,名为PointGST(点云图谱调优)。其核心技术贡献是设计了一个轻量级、可训练的点云谱域适配器(PCSA),在冻结预训练模型的同时,通过**图傅里叶变换(GFT)**将模型内部的点云令牌从空间域转换到谱域进行优化。这一转换利用正交的谱基向量有效解耦了空间域中易混淆的令牌特征,并从下游点云的几何结构中提取本征信息以指导微调。最终,PointGST。
2025-10-15 15:21:51
643
原创 TIP 2025 | 哈工大&哈佛等提出 TripleMixer:攻克雨雪雾干扰的3D点云去噪网络!
本文旨在解决恶劣天气下LiDAR点云的噪声问题,以提升下游感知任务的鲁棒性。为实现此目标,论文提出了一种即插即用的点云去噪网络TripleMixer。其核心技术贡献在于设计了一个集成空间、频率和通道处理的三重混合器架构,能够有效分离并滤除天气引起的高频噪声,同时保留场景的关键几何结构。此外,论文还构建了两个大规模模拟 adverse weather 数据集(Weather-KITTI 和 Weather-NuScenes),并设立了四大基准测试(去噪、语义分割、地点识别、目标检测)。
2025-10-14 17:24:07
1091
原创 CV论文速递:覆盖视频生成与控制、图像视频修复、AIGC检测与隐私保护等方向!(10.06-10.10)
本周精选12篇CV领域前沿论文,覆盖视频生成与控制、图像/视频修复与生成(含3D)、AI生成内容检测与隐私保护、视频检索与机器人视觉等核心方向。全部200多篇论文,感兴趣的自取。原文、姿料 这里!作者:Zhiyuan Zhang, Can Wang, Dongdong Chen, Jing Liao亮点:针对图像转视频生成中“轨迹控制灵活性不足”的痛点,提出统一的基于点的运动表示方案——为每个点编码分割ID、时间一致轨迹ID及可选颜色通道,支持密集与稀疏轨迹控制。区别于传统的token拼接或ControlN
2025-10-13 16:54:52
827
原创 NeurIPS 2025 | 华中科大&小米等提出语义提示扩散Transformer,实现精准深度估计新范式!
该论文旨在解决单目深度估计中普遍存在的“飞点”问题,以生成高质量、无伪影的点云。现有生成模型依赖VAE压缩深度图至潜空间 (latent space),此过程不可避免地在物体边缘和细节处引入失真,导致飞点。为应对此挑战,本文提出Pixel-Perfect Depth 框架,这是一个直接在像素空间进行扩散生成的新模型,从而根除了VAE带来的伪影。其核心技术贡献包括:1) 提出了SP-DiT,该架构将视觉基础模型提取的语义特征融入,以提示扩散过程,有效增强了全局语义一致性与局部细节的生成质量。2) 设计了。
2025-10-11 16:45:20
679
原创 NeurIPS 2025 | SIU3R在ScanNet上实现三维重建与理解双SOTA!
本文旨在解决现有同步3D重建与理解方法中,因依赖2D-to-3D特征对齐而产生的理解能力受限及信息损失问题。为此,论文提出了一种名为SIU3R的对齐无关(alignment-free)框架,能够从稀疏、未标定姿态的图像中进行可泛化的同步重建与理解。其核心技术贡献在于:1)通过像素对齐的三维表示桥接重建与理解任务;2)设计统一查询解码器,利用一组统一的可学习查询,原生支持包括语义、实例、全景和文本指代在内的多任务三维理解,摆脱了对二维模型的依赖;
2025-10-10 16:46:32
994
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅